xbench在2026年4月发布的一份大模型评测月报
核心内容总结如下:
1. 评测涵盖的主要新模型:
报告重点提及了在2026年4月发布的一系列新模型,包括GPT-5.5、Claude Opus 4.7、DeepSeek-V4、Kimi K2.6、hy3(腾讯混元模型)和Qwen3.6。
2. 本轮模型迭代的三大方向:
根据报告分析,本轮模型更新呈现出三个清晰趋势:
原生多模态成为主流:视觉理解能力正从基础的“看图回答”升级为复杂任务执行链条中的一部分。
Agentic Coding与长链路任务持续升级:头部模型(如Opus4.7、Kimi K2.6、Qwen3.6等)的核心升级方向集中在复杂代码库理解、多步调试、工具调用、前端生成和长程执行等复杂工程任务上。
开源模型追赶闭源模型,超长上下文成基础设施:开源模型能力持续进步,超长上下文支持正在从高端能力转变为模型的基础设施。
3. 各基准榜单的排名与重点模型表现:
报告更新了三个主要评测榜单,并对关键模型进行了点评:
xbench-ScienceQA(科学推理):
并列第一:GPT-5.5和Claude Opus 4.7均以平均分73.0分并列榜首。其中,Claude Opus 4.7相比前代(Opus 4.6)实现了14.2分的大幅跃升。
其他亮点:Kimi K2.6、DeepSeek-V4-Pro、Qwen3.6和腾讯的hy3 Preview也在此榜单中亮相,其中Kimi K2.6和DeepSeek-V4-Pro相比各自前代模型在平均分上均有提升。
xbench-BabyVision(视觉问答):
榜单第一:字节跳动的Doubao-Seed-2.0-pro以62.60%的平均分位列第一。
新模型表现:新发布的GPT-5.5以54.64%位列第二,其视觉能力相比GPT-5.2有超过20个百分点的显著提升。Kimi K2.6和Claude Opus 4.7在此榜单上的得分相比各自前代模型也有明显进步。
$OneMillion-Bench(长上下文):
榜单前列:Claude-Opus-4.6(Search版)和GPT-5.4(Web Search版)在此长上下文基准测试中领先。
新模型表现:新发布的Kimi K2.6在此项测试中的表现与K2.5相比无明显差异。
4. 新发布模型的核心特点总结:
报告在最后对各新模型的核心升级方向和应用价值进行了概括:
GPT-5.5:是本次评测中的前沿模型,核心提升在于将长上下文推理、工具调用和自我纠错整合为统一的工程执行能力,在复杂代码任务上达到SOTA水平,但API成本有所上升。
Claude Opus 4.7:核心升级是多模态理解(支持更高分辨率图像输入)和长链路工作流的稳定性,新增的“任务预算”感知功能使其在多轮、复杂任务中表现更佳。
Kimi K2.6:作为开源MoE模型,提升了在无需人工干预的长时间自主运行场景下的能力,支持更大规模的Agent集群协作,适合复杂工作流交付。
DeepSeek-V4:作为开源模型,在逼近主流闭源模型能力的同时,将1M超长上下文能力推向开源,重点优化了长上下文下的计算效率,降低了应用成本。
腾讯hy3:是腾讯混元模型路线的一次重要重启,为MoE架构,重点提升复杂推理、指令遵循和Agent任务能力。
阿里Qwen3.6:同步更新开源和闭源版本,不再单纯追求参数规模,而是更聚焦于提升真实开发任务(如代码库理解、工具调用、前端生成)中的生产力。