报告显示,自2025年初以来,中美两国模型多次在性能排名顶端交替。截至2026年3月,美国顶尖模型仅领先中国模型2.7%,这意味着美国Anthropic的Claude Opus 4.6(1503分)仅领先中国dola-seed-2.0-preview(1464分)39分。根据竞技场排行榜(人类投票的Elo评级),顶级模型评分高度收敛:Anthropic(1503分)、xAI(1495分)、Google(1494分)、OpenAI(1481分)、阿里巴巴(1449分)、DeepSeek(1424分)均位于第一梯队,分差已缩小至25分以内。