xbench在2026年4月发布的一份大模型评测月报

核心内容总结如下：

1. 评测涵盖的主要新模型：

报告重点提及了在2026年4月发布的一系列新模型，包括GPT-5.5、Claude Opus 4.7、DeepSeek-V4、Kimi K2.6、hy3（腾讯混元模型）和Qwen3.6。

2. 本轮模型迭代的三大方向：

根据报告分析，本轮模型更新呈现出三个清晰趋势：

原生多模态成为主流：视觉理解能力正从基础的“看图回答”升级为复杂任务执行链条中的一部分。
Agentic Coding与长链路任务持续升级：头部模型（如Opus4.7、Kimi K2.6、Qwen3.6等）的核心升级方向集中在复杂代码库理解、多步调试、工具调用、前端生成和长程执行等复杂工程任务上。
开源模型追赶闭源模型，超长上下文成基础设施：开源模型能力持续进步，超长上下文支持正在从高端能力转变为模型的基础设施。

3. 各基准榜单的排名与重点模型表现：

报告更新了三个主要评测榜单，并对关键模型进行了点评：

xbench-ScienceQA（科学推理）：
- 并列第一：GPT-5.5和Claude Opus 4.7均以平均分73.0分并列榜首。其中，Claude Opus 4.7相比前代（Opus 4.6）实现了14.2分的大幅跃升。
- 其他亮点：Kimi K2.6、DeepSeek-V4-Pro、Qwen3.6和腾讯的hy3 Preview也在此榜单中亮相，其中Kimi K2.6和DeepSeek-V4-Pro相比各自前代模型在平均分上均有提升。
xbench-BabyVision（视觉问答）：
- 榜单第一：字节跳动的Doubao-Seed-2.0-pro以62.60%的平均分位列第一。
- 新模型表现：新发布的GPT-5.5以54.64%位列第二，其视觉能力相比GPT-5.2有超过20个百分点的显著提升。Kimi K2.6和Claude Opus 4.7在此榜单上的得分相比各自前代模型也有明显进步。
$OneMillion-Bench（长上下文）：
- 榜单前列：Claude-Opus-4.6（Search版）和GPT-5.4（Web Search版）在此长上下文基准测试中领先。
- 新模型表现：新发布的Kimi K2.6在此项测试中的表现与K2.5相比无明显差异。

4. 新发布模型的核心特点总结：

报告在最后对各新模型的核心升级方向和应用价值进行了概括：

GPT-5.5：是本次评测中的前沿模型，核心提升在于将长上下文推理、工具调用和自我纠错整合为统一的工程执行能力，在复杂代码任务上达到SOTA水平，但API成本有所上升。
Claude Opus 4.7：核心升级是多模态理解（支持更高分辨率图像输入）和长链路工作流的稳定性，新增的“任务预算”感知功能使其在多轮、复杂任务中表现更佳。
Kimi K2.6：作为开源MoE模型，提升了在无需人工干预的长时间自主运行场景下的能力，支持更大规模的Agent集群协作，适合复杂工作流交付。
DeepSeek-V4：作为开源模型，在逼近主流闭源模型能力的同时，将1M超长上下文能力推向开源，重点优化了长上下文下的计算效率，降低了应用成本。
腾讯hy3：是腾讯混元模型路线的一次重要重启，为MoE架构，重点提升复杂推理、指令遵循和Agent任务能力。
阿里Qwen3.6：同步更新开源和闭源版本，不再单纯追求参数规模，而是更聚焦于提升真实开发任务（如代码库理解、工具调用、前端生成）中的生产力。

https://mp.weixin.qq.com/s/EBd71-l7sxKJnHXJ8pw4sg

ai新闻

创建于 2026年4月28日

公开

访客

贡献

版主

u/alive_fighter6701