上上周,多模态大模型领域迎来了一次密集的「新老交替」。不仅 OpenAI 刷新了 GPT 系列,阿里 Qwen 与月之暗面 Kimi 也纷纷上线了最新的模型。
我们将这几款备受瞩目的模型纳入了最新的表格图片识别排行榜。结果大跌眼镜:虽然旗舰模型依旧强势,但在面对「复杂结构 + 水印干扰」这对「职场老冤家」时,不少明星选手纷纷翻车。
以下是最新排行榜:

下面,我们重点拆解四款「流量型」选手的实测表现:
作为 OpenAI 阵营的中坚力量,GPT-5.5 的表现本应更进一步,但实测中它却是在几个意想不到的地方「丢了分」。而下面是丢了分的一些案例:
1.水印干扰导致数字识别错误:


2.多层级表头导致识别结构的错乱:

主要短板:水印干扰与结构「间歇性失灵」
尽管它是全球最顶尖的模型之一,但水印依然是它的阿基琉斯之踵——部分测试图中,水印直接导致了后续内容识别的逻辑断裂。
此外,它在识别复杂表格标题时出现了明显的「偷懒」倾向:标题内容部分数值被省略,甚至文字直接缺失。更严重的则是数值错误,在精密的表格还原中,一个数字的错误往往意味着整张表的作废。
小结:GPT-5.5依然稳居第一梯队,但「粗心大意」和「怕水印」的毛病,让它在与 gemini-3.1-pro-preview (89%) 的对比中略逊一筹。作为 OpenAI 阵营的中坚力量,GPT-5.5 的表现本应更进一步,但实测中它却在几个意想不到的地方「丢了分」。
阿里通义千问系列一直以优秀的中文理解能力著称,这款 35B 规格的最新模型在表格视觉任务中表现还不错,但还是有一些丢分项,下面是几张识别错误的案例:
1.水印干扰导致表格内容直接识别错误或者内容空白:


2.标题内容直接省略:

主要短板:
小结:对于追求极致还原的专业场景,Qwen3.6-35B-A3B 目前还存在明显的「幻觉」和结构化障碍,其视觉理解的底层鲁棒性仍需打磨。
以长文本处理闻名的 Kimi,其视觉能力一直备受用户期待。然而,Kimi-K2.6在本次表格专项测试中,却有些「感知迟钝」。而下面是几张识别错误的案例:
1.水印干扰导致识别空白或者是数字内容识别错误:


2.多层级表头结构识别错误:

主要短板:水印直接「致盲」
Kimi-K2.6的表现让我们感到意外。在带有水印的测试图面前,它出现了极高频率的「致盲」现象:内容识别不出,直接返回空白。
即便在无水印干扰下,其表格结构的还原也显得不够细腻:标题数值省略、文字漏掉、表格大纲识别错误。81% 的准确率,在此次参评的 27 款模型中仅排在后半段。
小结: 表格识别似乎是 Kimi-K2.6的短板。如果你的工作流中涉及大量带有公司水印的报表识别,目前的 Kimi-K2.6 可能还没准备好。
在本次排行榜中,小米阵营的表现可谓“冰火两重天”。虽然同家族的 MiMo-V2-Omni 以 89% 的高分高居第二,但作为本次重点实测对象之一的 mimo-v2.5,却以 81% 的成绩滑落至第19名。
在面对高难度的“压力测试”时,mimo-v2.5 暴露出了一些经不起推敲的细节短板。以下是几个典型的翻车案例:
1.水印干扰导致数字识别错误:

2.多层级表头导致识别结构的错乱:


3.表格内容文字识别错误:

主要短板:抗噪能力不足与结构逻辑崩溃
与排在榜首的旗舰模型相比,mimo-v2.5 在局部细节上显得不够稳定。首先是“抗噪性”盲区,覆盖水印区域的文字极易受到干扰,导致直接的识别错误;其次,在面对多层级嵌套的复杂表格时,会出现结构层面的错位与错乱;最后,抛开结构干扰不谈,它在最基础的单元格内容提取上,依然会犯下文字识别错误的低级失误。
小结: 尽管 MiMo 家族有霸榜的实力,但 mimo-v2.5 在水印抗干扰以及基础内容的无损还原上,显然还需要进一步对齐与优化。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。