首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >干掉AI初创公司真正的杀手锏:视频理解模型

干掉AI初创公司真正的杀手锏:视频理解模型

作者头像
匙亮旭
发布2026-06-17 20:43:11
发布2026-06-17 20:43:11
570
举报

好久没写AI发展趋势这类随笔了,最近一直在做一些垂直领域的智能体,客户要求还挺高,感觉我们的方案不够Amazing,你单单用一些RAG思想来完成基本需求达成KPI还不行,非要整出些花来,体现出你们公司在AI领域比其他企业厉害的地方。那真是不能用传统的打法去解决问题了,拿市面上通用的一些解决方案完成任务,体现不出你厉害的地方,然后就各种想。也就是脑子突然灵光一闪,想到了视频理解模型这个领域,又联想到了OpenAI去年年底发布的高级语音模式(Advanced Voice Model),还简单试了下,真是越想越可怕。

简单说一下这个高级语音模式,本质上就是和ChatGPT聊天,但是可以开启摄像头,也可以共享屏幕,就和我们平时语音或视频聊天一样。

看似很普通吧,但关键点在这,如果你把这个事,放在工作上呢,尤其是一些复杂的工作上呢。例如,现在我在编代码开发一个系统,突然卡住了一个问题不知道咋搞了,现在大多数人的做法,用个cursor或者更高级一点的devin,用Agent模式帮你修复解决问题,这是一种。但我们想没想过,还有一种,我们开启了屏幕共享,我们的每一步操作,AI都能看懂和理解,最后你直接哪卡住了,问他问题让他给你改。有点像你搞不定了,视频求助大拿帮你解决问题,大拿直接远程一顿操作给你代码搞定了,这种模式咋样。当然,现在模型的视频理解能力还做不到这个份上,只能做一些简单的任务,但这种模式一定是未来。

我们再想象这样一个场景,我们现在事实上很多工作,虽然不是那么的流程化,但是有规律和有经验可循,这种事以后是不是也可以这种模式去做。例如,现在我要写一个标书文档,原来的做法,需要参考各种不同格式的资料,再参考原来的写法,需要经验丰富的人才能写出来。现在我们用AI的做法,就是基于RAG模式去创建一个智能体去生成,无论你是训练模型也好,构建知识库也好,事实做好这个事的成本是很高的。但是如果用高级语音模式呢,我们只需要开启屏幕共享,把过去写标书参考用的资料和写完的标书给AI看(有点类似于让他学习的感觉),然后把这次写标书的参考资料也给他看,让AI给我们生成这次要写的标书。所以如果视频理解模型能力足够强的情况下,完全可行。

----

未来,随着视频理解模型能力越来越强,会干掉多少智能体和AI产品,真就是以后我们开视频共享屏幕,与一个虚拟的AI人物,一起办公了。可能这个虚拟的AI人物,他是一个视频理解能力强的模型+通用领域强的模型+某个垂直领域强的模型,一起结合起来的一个虚拟人物。所以,未来,我看好视频理解模型的发展,尤其引申出无限潜力的使用场景。所以一想到现在有些AI初创企业,真是又捏了一把汗,真是未来还会继续不停的被验证一个观点:一个新的更强的模型或者某些模型的新特性,干垮了初创企业多少奋斗日夜......

(正文完)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 极客e家 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档