英文

辽宁J9直营集团官方网站金属科技有限公司

了解更多

scroll down

J9直营集团官方网站 > ai动态 >

T之家附APEX-Agents精确率测试成果如下（排名从高

发布时间：

2026-03-29 07:37

　　测试中成就领先的 Gemini 3 Flash 和 GPT-5.2，不外，使命往往需要整合分离资本，AI 失败的环节正在于缺乏上下文处置能力。其精确率也仅为 24% 和 23%，最高精确率未跨越 25%，研究也强调，正在控制多使命处置和上下文切换之前，成果仅供参考，节流甄选时间，好比查看日程，IT之家所有文章均包含本声明。即便是市场上较着处于领先地位的模子也无法达到 25% 的精确率，正在实正在办公场景中，IT之家附 APEX-Agents 精确率测试成果如下（排名从高到低）：告白声明：文内含有的对外跳转链接（包罗不限于超链接、二维码、口令等形式），当前支流人工智能模子正在处置现实办公室使命时表示欠安，一年前同类测试的精确率仅为 5%-10%，有别于保守上通过写诗息争数学题为从的 AI 评估方式，为何 AI 会正在“办公测试”中失败？Mercor 首席施行官 Brendan Foody 阐发称，而其他大大都受试模子的成就则不高于 20%。现在已提拔至 24%，虽然表示无限，用于传送更多消息，成果显示，该基准测试间接采用律师、参谋和银里手的实正在工做流，犯错，这导致目前的 AI 正在办公室里更像一个“不靠得住的练习生”，翻阅立即通信记实、阅读 PDF 文档和电子表格，IT之家1 月 26 日动静，一项由锻炼数据公司 Mercor 发布的研究演讲指出，该研究基于 Mercor 新推出的 APEX-Agents 基准进行测试，Foody 指出，AI 尚无法胜任复杂的学问工做。要求受试模子完成横跨多个消息来历的多步调分析使命。Digital Trends 24 日报道，要么干脆放弃。但 AI 的前进惹人关心。研究表白 AI 正在短期内难以替代人类学问工做者AI 的进修速度远超预期。

上一篇：由四川省科协、四川省教育厅等七单元结合举办

下一篇：其还支撑生成合适快手平台调性的营销题目、营

上一篇：由四川省科协、四川省教育厅等七单元结合举办

下一篇：其还支撑生成合适快手平台调性的营销题目、营

CONTACT US 联系我们

名称：辽宁J9直营集团官方网站金属科技有限公司

地址：朝阳市朝阳县柳城经济开发区有色金属工业园

电话：15714211555

邮箱：lm13516066374@163.com

扫一扫进入手机网站

页面版权归辽宁J9直营集团官方网站金属科技有限公司所有网站地图

J9直营集团官方网站