AI
产品
行业
生态

教AI开发软件:IBM开源数据集Project CodeNet,含1400万个代码示例

来源: 网易 作者:云头条 2021-5-17 05:59:04

IBM已组建了一个庞大的源代码库,用于教机器学习程序学习编程。

蓝色巨人希望为基于AI的编程工具创建含有丰富训练资源的ImageNet。

IBM已组建了一个庞大的源代码库,用于教机器学习程序学习编程。

这个数据集名为 Project CodeNet , 含 有 1400万 个 代码 示例 , 共5亿行代码,涉及的编程语言超过 55种 : 从 Java 、 C和Go到COBOL 、 Pascal和FORTRAN ,不一而足 。 老实讲 ,其中四分之三以上 的代码是用 C ++和Python 编写的 。

这些源代码不是从生产级应用程序或开发中的应用程序获取的,而是从参赛者向在日本组办的两大编程竞赛:Aizu和AtCoder提交的软件作品收集而来的。在这些竞赛中,参赛者需要编写必要的代码,以便将一组特定的输入转换成一组所需的输出。大约一半的代码示例按预期的那样运行,其余被标记为是错误的解决方案、非构建(non-building)或有缺陷。

比如说,理想情况下,您将训练一个AI工具,可以识别出好的程序、拒绝坏的程序。700万个代码示例包括了输入和所需的输出。

IBM希望CodeNet仿效ImageNet(用于训练计算机视觉应用程序的图片和标签数据库),并成为教软件明白软件开发蓝图的领先数据集——即代码实际上外观如何、与其他代码相比如何。IBM希望CodeNet可以用于训练诸如此类的开发工具:可以搜索应用程序和库来源以查找所需的例程,可以将一种语言转换成另一种语言,或者识别错误或正确的实现机制。

IBM在本周召开Think线上大会时宣布了该项目,称:“IBM相信CodeNet项目将充当颇有价值的基准数据集,用于源码到源码的转换,并将遗留代码库转换成现代代码语言,从而帮助公司企业加快AI的应用。”

IBM和MIT-IBM Watson AI实验室团队联合开发了该数据集,撰写了一篇论文介绍相关工作,并将所有整理后的材料放在了该项目在GitHub的页面(https://github.com/IBM/Project_CodeNet)上。

“该数据集不仅在规模上很独特,在它有助于基准测试的编程任务的多样性上也很独特:从代码相似性和分类以获得代码推荐算法方面的进步,到一大批编程语言之间的代码转换,再到代码性能改进技术方面的进步,”研究人员在报告中这样总结道。

免责声明: 该文观点仅代表作者本人,Soft6软件网系信息发布平台,Soft6软件网仅提供信息存储空间服务。 未经允许不得转载,授权事宜请联系:support@soft6.com 如对本稿件有异议或投诉,请查看《版权保护投诉指引》

0
好文章,需要您的鼓励

您可能还喜欢这些资讯