- Arxiv日期:2022.7.21
- 机构:Microsoft
关键词
- 代码补全
- 测试自生成(提出)
- Inference
核心结论
1. 更多的测试用例通常可以提高代码大模型的性能,但当测试用例数量达到一定阈值后,性能提升效果减弱
2. 只考虑代码解决方案或测试用例数量的评分方法一致性地比CODET表现差,证明了考虑代码解决方案和测试用例的双重执行协议的合理性
3. 遗留问题:无法保证测试用例的质量(后续有更多相关工作)
主要方法
解决预训练模型生成多个解决方案,无法正确选择的情况:自生成测试用例验证
本质上还是枚举交叉验证,形成共识集合(内部思想还是通过多的测试是好测试、通过多的代码是好代码)
注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文