xbench在2026年4月发布的一份大模型评测月报

核心内容总结如下:

1. 评测涵盖的主要新模型:

报告重点提及了在2026年4月发布的一系列新模型,包括GPT-5.5、Claude Opus 4.7、DeepSeek-V4、Kimi K2.6、hy3(腾讯混元模型)和Qwen3.6。

2. 本轮模型迭代的三大方向:

根据报告分析,本轮模型更新呈现出三个清晰趋势:

  • 原生多模态成为主流:视觉理解能力正从基础的“看图回答”升级为复杂任务执行链条中的一部分。

  • Agentic Coding与长链路任务持续升级:头部模型(如Opus4.7、Kimi K2.6、Qwen3.6等)的核心升级方向集中在复杂代码库理解、多步调试、工具调用、前端生成和长程执行等复杂工程任务上。

  • 开源模型追赶闭源模型,超长上下文成基础设施:开源模型能力持续进步,超长上下文支持正在从高端能力转变为模型的基础设施。

3. 各基准榜单的排名与重点模型表现:

报告更新了三个主要评测榜单,并对关键模型进行了点评:

  • xbench-ScienceQA(科学推理)

    • 并列第一:GPT-5.5和Claude Opus 4.7均以平均分73.0分并列榜首。其中,Claude Opus 4.7相比前代(Opus 4.6)实现了14.2分的大幅跃升。

    • 其他亮点:Kimi K2.6、DeepSeek-V4-Pro、Qwen3.6和腾讯的hy3 Preview也在此榜单中亮相,其中Kimi K2.6和DeepSeek-V4-Pro相比各自前代模型在平均分上均有提升。

  • xbench-BabyVision(视觉问答)

    • 榜单第一:字节跳动的Doubao-Seed-2.0-pro以62.60%的平均分位列第一。

    • 新模型表现:新发布的GPT-5.5以54.64%位列第二,其视觉能力相比GPT-5.2有超过20个百分点的显著提升。Kimi K2.6和Claude Opus 4.7在此榜单上的得分相比各自前代模型也有明显进步。

  • $OneMillion-Bench(长上下文)

    • 榜单前列:Claude-Opus-4.6(Search版)和GPT-5.4(Web Search版)在此长上下文基准测试中领先。

    • 新模型表现:新发布的Kimi K2.6在此项测试中的表现与K2.5相比无明显差异。

4. 新发布模型的核心特点总结:

报告在最后对各新模型的核心升级方向和应用价值进行了概括:

  • GPT-5.5:是本次评测中的前沿模型,核心提升在于将长上下文推理、工具调用和自我纠错整合为统一的工程执行能力,在复杂代码任务上达到SOTA水平,但API成本有所上升。

  • Claude Opus 4.7:核心升级是多模态理解(支持更高分辨率图像输入)和长链路工作流的稳定性,新增的“任务预算”感知功能使其在多轮、复杂任务中表现更佳。

  • Kimi K2.6:作为开源MoE模型,提升了在无需人工干预的长时间自主运行场景下的能力,支持更大规模的Agent集群协作,适合复杂工作流交付。

  • DeepSeek-V4:作为开源模型,在逼近主流闭源模型能力的同时,将1M超长上下文能力推向开源,重点优化了长上下文下的计算效率,降低了应用成本。

  • 腾讯hy3:是腾讯混元模型路线的一次重要重启,为MoE架构,重点提升复杂推理、指令遵循和Agent任务能力。

  • 阿里Qwen3.6:同步更新开源和闭源版本,不再单纯追求参数规模,而是更聚焦于提升真实开发任务(如代码库理解、工具调用、前端生成)中的生产力。

https://mp.weixin.qq.com/s/EBd71-l7sxKJnHXJ8pw4sg

聊天