
rtificial Analysis Coding Agent Index,用于衡量Agentharnesses(智能体编排)与模型的组合在SWE-Bench-Pro-Hard-AA、Terminal-Benchv2和SWE-Atlas-QnA主流基准上的表现。其中,闭源模型Opus4.7(在CursorCLI中运行)全球第一,智谱GLM-5.1(在ClaudeCode运行)取得开源第一。从评测结
Bench-Pro-Hard-AA、Terminal-Benchv2和SWE-Atlas-QnA主流基准上的表现。其中,闭源模型Opus4.7(在CursorCLI中运行)全球第一,智谱GLM-5.1(在ClaudeCode运行)取得开源第一。从评测结果来看,GLM-5.1代表了国产大模型在实际编程Agent场景下的SOTA级别能力。责任编辑:郝欣煜
当前文章:http://bezh8.tcvwj.cn/i4e7/40dcm1.pptx
发布时间:01:19:37