干掉AI初创公司真正的杀手锏：视频理解模型

匙亮旭

发布于 2026-06-17 20:43:11

570

好久没写AI发展趋势这类随笔了，最近一直在做一些垂直领域的智能体，客户要求还挺高，感觉我们的方案不够Amazing，你单单用一些RAG思想来完成基本需求达成KPI还不行，非要整出些花来，体现出你们公司在AI领域比其他企业厉害的地方。那真是不能用传统的打法去解决问题了，拿市面上通用的一些解决方案完成任务，体现不出你厉害的地方，然后就各种想。也就是脑子突然灵光一闪，想到了视频理解模型这个领域，又联想到了OpenAI去年年底发布的高级语音模式（Advanced Voice Model），还简单试了下，真是越想越可怕。

简单说一下这个高级语音模式，本质上就是和ChatGPT聊天，但是可以开启摄像头，也可以共享屏幕，就和我们平时语音或视频聊天一样。

看似很普通吧，但关键点在这，如果你把这个事，放在工作上呢，尤其是一些复杂的工作上呢。例如，现在我在编代码开发一个系统，突然卡住了一个问题不知道咋搞了，现在大多数人的做法，用个cursor或者更高级一点的devin，用Agent模式帮你修复解决问题，这是一种。但我们想没想过，还有一种，我们开启了屏幕共享，我们的每一步操作，AI都能看懂和理解，最后你直接哪卡住了，问他问题让他给你改。有点像你搞不定了，视频求助大拿帮你解决问题，大拿直接远程一顿操作给你代码搞定了，这种模式咋样。当然，现在模型的视频理解能力还做不到这个份上，只能做一些简单的任务，但这种模式一定是未来。

我们再想象这样一个场景，我们现在事实上很多工作，虽然不是那么的流程化，但是有规律和有经验可循，这种事以后是不是也可以这种模式去做。例如，现在我要写一个标书文档，原来的做法，需要参考各种不同格式的资料，再参考原来的写法，需要经验丰富的人才能写出来。现在我们用AI的做法，就是基于RAG模式去创建一个智能体去生成，无论你是训练模型也好，构建知识库也好，事实做好这个事的成本是很高的。但是如果用高级语音模式呢，我们只需要开启屏幕共享，把过去写标书参考用的资料和写完的标书给AI看（有点类似于让他学习的感觉），然后把这次写标书的参考资料也给他看，让AI给我们生成这次要写的标书。所以如果视频理解模型能力足够强的情况下，完全可行。

----

未来，随着视频理解模型能力越来越强，会干掉多少智能体和AI产品，真就是以后我们开视频共享屏幕，与一个虚拟的AI人物，一起办公了。可能这个虚拟的AI人物，他是一个视频理解能力强的模型+通用领域强的模型+某个垂直领域强的模型，一起结合起来的一个虚拟人物。所以，未来，我看好视频理解模型的发展，尤其引申出无限潜力的使用场景。所以一想到现在有些AI初创企业，真是又捏了一把汗，真是未来还会继续不停的被验证一个观点：一个新的更强的模型或者某些模型的新特性，干垮了初创企业多少奋斗日夜......

（正文完）

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-07-28，如有侵权请联系 cloudcommunity@tencent.com 删除

模型