近日,来自中国大模型初创公司OpenCSG推出的StarShip CodeGen Agent,以23.67%的成绩刷新了普林斯顿SWEBench(大模型真实独立编程评测)排行榜,取得了全球第二名的成绩,同时创造了非GPT-4o基模的最高纪录(SOTA)。开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集AI行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。
SWEBench评测高度贴近真实编程场景,难度极高,不仅要求模型能理解需求、协调多个函数/类甚至文件的变更,还要求模型与执行环境交互,处理超长上下文并执行远超传统代码生成任务的复杂逻辑推理。在这种高难度的真实测试中,行业中最先进的GPT4和Devin,也仅能解决1.74%和13.86%的问题。
OpenCSG的这一成绩,标志着国内公司在推动语言模型向更实用、智能和自主化方向发展迈出了领先的一步。
大模型编程的线月,首个AI软件工程师Devin的横空出世,引爆了整个技术界。虽然伴随着一系列争议,但Devin本身强大的创新能力和巨大的潜力,带给众多AI爱好者和从业者新的期待。
硅谷大厂和大模型勇于探索商业模式的公司纷纷闯入LLM for SE这样的领域,这项记录被连续改写。截止2024年4月底,最好的记录是由Amazon AI团队推出的 Amazon Q Developer Agent 创造的20.33%。较为遗憾的是,相比于基础模型榜单上中国公司的“百花齐放”,这项挑战中国公司鲜少参与,直到这一次OpenCSG刷新了这一记录。
OpenCSG成立仅一年,CEO陈冉是开源领域的领袖,曾成功打造过多家开源领域的商业公司;CTO王伟来自清华05级姚班,在AI领域有多年研发经验;公司核心研发团队中还汇聚了来自清华、北大、沃顿、港科大等学府的精英学子。
不同于LLM+RAG或者通用Agent框架,OpenCSG StarShip CodeGen Agent针对软件研发领域定制优化Agent而设计,将研发各个阶段(需求理解、代码检索、编程计划、编写代码、循环验证等)通过LLM Agent实现,并结合软件工程方法,例如AST语法分析、依赖检索等进行深度优化的方式,在所有的环节精益求精,最终整合实现了更高精度的代码生成。
针对代码版本变更引起的API冲突等典型问题,OpenCSG提出了自适应教师模式,通过教师模型分析代码版本变更记录,生成高质量编程数据并用于改善基础模型的生成效果。根据评测这些创新带来的改进,显著优于当前的RAG模式,尤其是在API结构高频更新的热门项目场景中。这部分的相关成果已形成论文投递到国际会议中。
正是这种算法+工程双管齐下、精益求精的模式,让OpenCSG CodeGen Agent能在一众模型中脱颖而出。
如果说CodeGen Agent的真实评测是牛刀小试,那么StarShip则是承载着OpenCSG的宏伟蓝图。对于StarShip的产品定位,OpenCSG CEO陈冉表示:“StarShip承担着我们对于大模型重塑软件开发的愿景。用户通过StarShip内置的智能体(Agent)组建自己的数字员工团队。CodeGen Agent是平台内置的数字程序员,目前已经发布的还有CodeReview Agent代码评审员和CodeSearch代码问答工程师。不同于代码辅助工具,我们大家都希望这些数字员工能直接独立工作而不需要人工辅助干预。未来我们将发布更多类型的数字员工,全方面覆盖需求、设计、编码、测试和运维所有的环节。”
除StarShip之外,OpenCSG团队还相当高产,已经发布了CSGHub开源模型平台、wukong预训练模型、CSGCoder微调代码模型等,这一些产品定位精准,在业内颇受好评。
OpenCSG的理念是开源开放,作为一家坚持以开源为核心的公司,不仅实现了模型开源、代码开源,甚至将平台开源。
“Benchmark本身只是一个数字,随着GPT4-o的推出,SWEBench的测试成绩预计将会很快超过30%,乐观估计明年可以突破50%。而我们更关注这些数字背后的产品价值:随着模型能力和工程技术的提升,数字员工将会从量变引发质变,从能用到好用,在各行业迎来全面的爆发”王伟解释道“这可能会是大模型时代背景下的一个重大变化,从公司到个人,我们都要为此准备好。”