大模型表格识别能力实测：GPT-5.5、Kimi、通义千问，Mimo，谁在“睁眼说瞎话”？

用户12446504

发布于 2026-05-06 13:41:21

4220

上上周，多模态大模型领域迎来了一次密集的「新老交替」。不仅 OpenAI 刷新了 GPT 系列，阿里 Qwen 与月之暗面 Kimi 也纷纷上线了最新的模型。

我们将这几款备受瞩目的模型纳入了最新的表格图片识别排行榜。结果大跌眼镜：虽然旗舰模型依旧强势，但在面对「复杂结构 + 水印干扰」这对「职场老冤家」时，不少明星选手纷纷翻车。

以下是最新排行榜：

下面，我们重点拆解四款「流量型」选手的实测表现：

作为 OpenAI 阵营的中坚力量，GPT-5.5 的表现本应更进一步，但实测中它却是在几个意想不到的地方「丢了分」。而下面是丢了分的一些案例：

1.水印干扰导致数字识别错误：

2.多层级表头导致识别结构的错乱：

主要短板：水印干扰与结构「间歇性失灵」

尽管它是全球最顶尖的模型之一，但水印依然是它的阿基琉斯之踵——部分测试图中，水印直接导致了后续内容识别的逻辑断裂。

此外，它在识别复杂表格标题时出现了明显的「偷懒」倾向：标题内容部分数值被省略，甚至文字直接缺失。更严重的则是数值错误，在精密的表格还原中，一个数字的错误往往意味着整张表的作废。

小结：GPT-5.5依然稳居第一梯队，但「粗心大意」和「怕水印」的毛病，让它在与 gemini-3.1-pro-preview （89%）的对比中略逊一筹。作为 OpenAI 阵营的中坚力量，GPT-5.5 的表现本应更进一步，但实测中它却在几个意想不到的地方「丢了分」。

阿里通义千问系列一直以优秀的中文理解能力著称，这款 35B 规格的最新模型在表格视觉任务中表现还不错，但还是有一些丢分项，下面是几张识别错误的案例：

1.水印干扰导致表格内容直接识别错误或者内容空白：

2.标题内容直接省略：

主要短板：

小结：对于追求极致还原的专业场景，Qwen3.6-35B-A3B 目前还存在明显的「幻觉」和结构化障碍，其视觉理解的底层鲁棒性仍需打磨。

以长文本处理闻名的 Kimi，其视觉能力一直备受用户期待。然而，Kimi-K2.6在本次表格专项测试中，却有些「感知迟钝」。而下面是几张识别错误的案例：

1.水印干扰导致识别空白或者是数字内容识别错误：

2.多层级表头结构识别错误：

主要短板：水印直接「致盲」

Kimi-K2.6的表现让我们感到意外。在带有水印的测试图面前，它出现了极高频率的「致盲」现象：内容识别不出，直接返回空白。

即便在无水印干扰下，其表格结构的还原也显得不够细腻：标题数值省略、文字漏掉、表格大纲识别错误。81% 的准确率，在此次参评的 27 款模型中仅排在后半段。

小结： 表格识别似乎是 Kimi-K2.6的短板。如果你的工作流中涉及大量带有公司水印的报表识别，目前的 Kimi-K2.6 可能还没准备好。

在本次排行榜中，小米阵营的表现可谓“冰火两重天”。虽然同家族的 MiMo-V2-Omni 以 89% 的高分高居第二，但作为本次重点实测对象之一的 mimo-v2.5，却以 81% 的成绩滑落至第19名。

在面对高难度的“压力测试”时，mimo-v2.5 暴露出了一些经不起推敲的细节短板。以下是几个典型的翻车案例：

1.水印干扰导致数字识别错误：

2.多层级表头导致识别结构的错乱：

3.表格内容文字识别错误：

主要短板：抗噪能力不足与结构逻辑崩溃

与排在榜首的旗舰模型相比，mimo-v2.5 在局部细节上显得不够稳定。首先是“抗噪性”盲区，覆盖水印区域的文字极易受到干扰，导致直接的识别错误；其次，在面对多层级嵌套的复杂表格时，会出现结构层面的错位与错乱；最后，抛开结构干扰不谈，它在最基础的单元格内容提取上，依然会犯下文字识别错误的低级失误。

小结： 尽管 MiMo 家族有霸榜的实力，但 mimo-v2.5 在水印抗干扰以及基础内容的无损还原上，显然还需要进一步对齐与优化。

水印成了大模型的「视力杀手」：无论是 GPT-5.5 还是 Kimi-K2.6、Qwen3.6-35B-A3B、mimo-v2.5面对覆盖在文字上方的透明水印，其底层的 OCR 与结构化推理能力都会受到剧烈干扰。这说明现有的多模态对齐训练中，抗干扰噪声的权重依然不足。
标题内容是“重灾区”：很多模型过于关注表格主体（单元格），却忽略了标题中的关键上下文。数值被删减、文字被省略是目前普遍存在的“偷懒”行为。
「结构精细度」正在拉开差距：内容（文字）识别大家都不差，差的是对多层级、嵌套、合并单元格的逻辑理解。排名靠前的MiMo-V2-Omni (89%) 和 gemini-3.1-pro-preview (89%) 明显在视觉拓扑关系的建模上做得更优秀。
厂商跑分 ≠ 真实生产力：Qwen3.6-35B-A3B 和 kimi-k2.6 在文本基准上分数极高，但在表格还原这种「硬核」视觉任务中，真实差距一测便知。

本文系转载，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。