从聊天助手到办事助手：这半年AI的进步、差距和普通人的真实感受

IT咸鱼

发布于 2026-05-19 18:12:38

1750

每天分享技术栈，开发工具等

如果你从年底去就一直关注AI圈子的动向，这半年你大概率会有一种感觉：你还没想好怎么用最新的一个版本，下一波迭代已经刷屏了。

在这短短的半年多时间里，全球头部的大模型进行了一场密集到令人惊叹的军备竞赛。从2025年12月到2026年1月，行业在两个月内完成了12次核心版本迭代，平均每4.8天就会出现一次重大技术更新。仿佛一夜之间，AI不再是实验室里那个吟诗作书生，而是能够看懂图片、听懂语音，甚至直接上手帮助干活的老员工。

但它和人类之间依然横亘着一条巨大的鸿沟。

一、进击之路：中美AI进入“近身肉搏”时代

作为一条普通的IT咸鱼，你可能并不关心那些华丽的参数。但最近斯坦福大学发布的《2026年AI指数报告》里的一个数据却确实值得关注。

还记得2023年ChatGPT横空出世时，大家普遍认为国产大国美国至少落后两三年吗？如今这个格局被彻底打破了。

在权威的竞技场排行榜上，Anthropic（背后是克劳德模型）、xAI（马斯克的公司）、谷歌、OpenAI，以及中国的阿里巴巴、DeepSeek，这六家家长的标准化模型已经“拉手”挤进了同一个分数档位。到了2026年3月，中美头部模型的成绩差距已经缩小到仅剩约2.7%，肉眼几乎不可见。

还记得国产开源大模型DeepSeek吗？它作为一匹黑马，早就已经不是一个人在战斗了。斯坦福报告指出，2025年，美国分布了50个重要模型，中国分布了30个；而在模型贡献机构排行榜上，阿里凭借千问系列位列全球第三，也相当于重要模型最多的中国公司。

更让人意外的是，模型领域甚至出现了“后来居上”的开源。阿里的Qwen（通义千问）模型家族全球下载量已突破10亿，成为全球第一的开源模型家族。有显示报告，2025年夏天之后，中国已在整体表现上超越美国同行，并拉开了差距。

这半年来，你打开任何一个AI产品的榜单，都能发现一个特点：模型的绝对压制消失了，取而代之的是惨烈的近身搏斗。

二、体育跃迁：写代码贼强，一写公文就“飘”

对于关注人工智能的会计师和文字工作者来说，这半年的进步和分裂感是并存的。

拿行业标杆OpenAI来说，Sam Altman在2026年初的一场研讨会上坦诚了一个非常尴尬的事实：GPT-5.2的写作确实“搞砸了”。原因无他，就是他们内部把大量算力和能力预资源预设给了硬核的推理和编码能力，因为在他们看来——视力是一种“可塑的资源”，先攻克最高峰，再回归美学补和表达的短板。

确实是一个非常典型的理工逻辑。

同时，Anthropic（克劳德的母公司）在2026年5月公开披露，该公司内部约90%的代码已经是AI自己写出来的了，员工的核心职能正从“敲键盘执行”转向“当AI的老板，做监督与决策”。其中一部分要花几个小时完成过去的内部报告，现在借助AI半小时左右才能出初稿。

但对于普通打工者来说，这种突飞猛进的背后藏着一个残酷的事实。

当AI在写代码、计算数据、推公式上突飞猛进时，它在其他一些完全完成“简单”的任务上却不断地翻车。这种偏科，在大多数职场场景里其实很难替代一个真正圆融、懂人情世故的“老油条”。

三、成年人的崩溃：它聪明绝顶，却因为没联网沦为傻子

这是我认为过去半年里，普通人最感同身受的“落差感”。

它会“睁着眼睛说瞎话”

虽然2026年AI多模态生成已质量达到人类水平专家的87%、语言理解准确率提升至92%，但这种技术指数级的增长，并不能忽视另一个刺眼的数据：在某些新型视觉推理模型的实测中，其复杂工具调用能力提升了40%，但**幻觉率竟然攀升到了28%**。

不仅如此，已经有人专门进行了一次实验，一周12美元的成本，可以让一个高级大型语言模型“相信”一个彻头彻尾的谎言。这意味着如果你在做一些重要决策时习惯无脑相信AI，极有可能被一本正经地忽悠。

这里有个活生生的例子。日本三重县津市有一家叫“津松菱”的百货公司，之前莫名其妙被谷歌的AI搜索结果显示“将于2026年2月底停业”，搞得公司不得不紧急发辟谣。实际上AI是把隔壁名古屋另一家百货公司的闭店消息张冠李戴了。

东京一家公司去年所做的调查也显示：超过 80% 的专题企业都遇到过人工智能显示错误信息的情况。

它有信息“保质期”

如果你跟一个只靠死记硬背来过日子、完全不看新闻朋友的聊天，聊多了俱乐部出岔子。很多AI模型就是这个问题。如果你没有提问时手动给它打开互联网搜索的权限，它极可能还有几个月前甚至更早的训练数据强行答题，它很难靠自己去分辨“曾经是事实”和“现在是事实”的区别。

举个例子：如果你问它，某公司的CEO换没换，如果它没联网，它可能会自信地给出几周前甚至几个月前已是老黄历的信息。AI正在从辅助闲聊走向支持商业决策，而这种“时效失真”是最致命的。

它会认真做无用功

南大研究组在ACL 2026收录的论文里，有非常精准的调侃：现在很多推理大模型有一种叫做“盲目自我思考”的毛病。你问它问题，你给出的指令本身就是缺胳膊少腿、模糊不清的，它也追问你，然后选择自己闷头那个儿疯狂推演、胡编乱造，输出了一个大上、则完全变成了你意图的废话。

四、对普通人来说，最真切的冲击来自哪里？

这半年来，AI不再只是一个辅助聊天的玩具，它正在慢慢变成你的“AI同事”。

高德纳咨询2026年的最新数据显示，企业应用中嵌入AI智能体的比例从2025年的不足5%，一年之内暴涨到了40%，整整翻了8倍。

法律文书助理（替代率92%）、初级助理（87%）、基础市场分析师（85%）、新闻资讯编辑（81%）……这些曾经需要寒窗苦读十几年才能胜任的脑力劳动岗位，正在被一个叫做“代理（智能体）”的东西接手。

但对于普通人来说，这半年来最大的感受不是“要被消灭了”的恐慌，而是一种复杂的新鲜感——我们现在还能不断发现人工智能的“智障”时刻，还能把它写成的离谱文章当看笑话，还能在其中一本正经地胡说八道时翻个白眼。但与此同时，每次打开新闻，我们又发现它在那个我们不太接触的领域，又攻破了人类认知的高地。

AI在半年走过了非常曲折又惊人的进化之路。它在朝着我们未曾设想的“通用智能体”狂奔，同时也在大量过去简单的问题上维持着一种稳定的“人工智障”水准。

这或许给了我们一个非常宝贵的窗口期。在或许AI肌肤无所不能、却又处处撞墙的混乱期里，打工人最聪明的活法或许不是焦虑被取代，而是学会做“AI的老板”——会指挥、会偏、能在胡说八道时及时按下暂停键。等你真正能驾驭的时候，你就不再是被AI牵着鼻子走的人。

毕竟，AI可以代替你写代码、做报表、回邮件，但暂时还无法代替你承受老板拍桌子时的心理压力。最早GPT出现到第20代，这一点恐怕都不会改变。这半年来，你有被AI的哪次“智障”操作搞得哭笑不得吗？欢迎在留言区分享你的故事，我们IT咸鱼一起乐呵呵。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-05-17，如有侵权请联系 cloudcommunity@tencent.com 删除

数据

本文分享自 IT咸鱼微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度