搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

2月19日Gemini 3.1 Pro 发布打破12项基准测试记录
Google在2026年2月19日发布了Gemini3.1Pro，这是Gemini3系列的最新升级版本。 Gemini3.1Pro则是实现这些突破的核心智能基础，Google正在通过消费级和开发者产品将其推广到日常应用中。在ARC-AGI-2基准测试中（该测试评估模型解决全新逻辑模式的能力），Gemini3.1Pro达到了77.1%的验证分数。智能化的实际应用Gemini3.1Pro专为那些简单答案无法满足需求的任务设计。随着技术的不断演进，我们期待看到更多基于Gemini3.1Pro的创新应用和解决方案涌现。
41310编辑于 2026-02-22
来自专栏大模型
谷歌重磅发布 Gemini 3.1 Pro：更强推理，更强生产力
今天凌晨，谷歌发布了新一代模型——Gemini3.1Pro没有大型发布会，没有提前预热，甚至连宣传节奏都显得克制。如果说Gemini3是谷歌重新回到核心竞争区间的标志，那么Gemini3.1Pro，则明显带着更强的实战优化意味。它在几个关键方向上给出了非常明确的信号：谷歌不只是追赶者。根据公开基准测试数据，Gemini3.1Pro在多项高难度测试中的表现明显优于Gemini3Pro，并且在部分指标上进入行业最强梯队。 Gemini3.1Pro在该测试中达到77.1%。这意味着它在面对从未见过的问题结构时，能够进行更高质量的模式抽象与规则推导。这类能力，才是真正决定模型天花板的关键。总结Gemini3.1Pro这次更新，可能没有Gemini3.0Pro刚出来的时候那么惊艳。
70131编辑于 2026-02-21
原生多模态有多强Gemini3.1Pro图文理解能力实测拆解
很多模型都说自己支持多模态但实现方式完全不同。一种是先训练一个文本模型再把图像编码器接上去——后装方案。另一种是从预训练阶段就同时消化文本、图像、音频、视频——原生方案。
19510编辑于 2026-05-18
来自专栏算法一只狗
Gemini 3.1 Pro 登顶背后：效率、稳定性与工程化能力的全面升级
Gemini3.1Pro登顶背后：效率、稳定性与工程化能力的全面升级Gemini3.1pro它来了，它在Gemini3系列的基础上，核心推理方面实现了飞跃。此外，Gemini3.1Pro在token效率方面表现卓越。在ARC-AGI-2这一严苛逻辑与抽象推理基准测试中，Gemini3.1Pro得分~77.1%，比Gemini3Pro翻倍以上。同时，Gemini3.1Pro还会进行“动态思考”：它会根据任务的复杂性自动应用链式推理。写在最后总体来看，Gemini3.1Pro的意义不在于一次简单的榜单跃升，而在于它所代表的能力进化方向——更深的推理、更稳的执行、更高的效率与更低的幻觉率。
98811编辑于 2026-02-21
Gemini3.1Pro推理能力深度拆解数据告诉你的真相
ARC-AGI-2测的是抽象推理——面对从未见过的逻辑规则，能否从少量示例中归纳出隐藏规则并作答。Gemini 3.1 Pro拿到77.1%，上一代3 Pro只有31.1%，翻了一倍多。Claude Opus 4.6是37.6%，GPT-5.2是54.2%。
18410编辑于 2026-05-20
Gemini3.1Pro办公效率实测写报告做总结整理全搞定
团队最近在评估AI工具的实际办公落地效果。候选模型三个：GPT-5.5、Claude、Gemini 3.1 Pro。领导让我先拿Gemini 3.1 Pro跑两周，覆盖日常办公中最高频的三件事：写报告、做总结、整理资料。
17610编辑于 2026-05-13
GPT5.5与Gemini3.1Pro多模态能力全面评测开发者选型参考
Gemini3.1Pro输入约0.50/百万token。Gemini3.1Pro输入约2，输出约$12。同等分析量下Gemini的成本大约只有GPT-5.5的四分之一。
24310编辑于 2026-05-20
Gemini3.1Pro用了六周它在四个场景中到底改变了什么
Gemini 3.1 Pro的100万token上下文窗口是它在办公场景中的核心竞争力。一份50页的技术白皮书可以直接丢进去分析。以前用GPT处理长文档需要分段提问，每段之间信息丢失明显。
12010编辑于 2026-05-21
4月国内外十款新发布AI模型参数和价格对比
preview295B21B256Ktokens2026-04-23MoE192专家top-8GPT-5.5未知未知100万tokens2026-04-23未知ClaudeOpus4.7未知未知200Ktokens2026-04-16未知Gemini3.1pro Token成本降至1/35GPT-5.5Pro$30$180未公开Token成本降至1/35ClaudeOpus4.7$5$25未公开与Opus4.6持平ClaudeOpus4.6$5$25未公开基准价格Gemini3.1pro 未公开未公开未公开加量不加价策略关键指标：上下文长度竞争：Qwen3.6系列、DeepSeekV4、Gemini3.1Pro均达到100万tokens，成为超长上下文标配。
1.2K00编辑于 2026-04-26
来自专栏AI大模型
DeepSeek-V4来了：百万上下文为什么是开源模型的分水岭
拥有约1万亿参数的MoE（MixtureofExperts）架构和100万token（1M）超长上下文窗口，在Agent能力、世界知识和推理性能三个核心维度上均达到了开源模型的最高水准，部分指标已比肩Gemini3.1Pro ClaudeSonnet4.6闭源中端—高世界知识储备距离Gemini3.1Pro还有多远？ V4-Pro在世界知识测评中大幅领先其他开源模型，仅稍逊于当前公认的世界知识最强模型——Gemini3.1Pro。 Gemini3.1Pro在18项跟踪基准中有12项排名第一，被广泛视为世界知识领域的天花板。V4-Pro能做到"仅稍逊于"这一水平，意味着开源模型首次在世界知识维度上逼近了闭源前沿。值得关注的是，Gemini3.1Pro的GPQADiamond得分为94.3%，这是衡量研究生级科学知识的高难度基准。
1.3K10编辑于 2026-04-27
Gemini3.1Pro是什么？一篇让开发者彻底搞懂的介绍
2026年2月，Google DeepMind发布了Gemini 3.1 Pro。这次更新打破了Gemini系列从1.0到1.5、2.0到2.5的0.5跨度惯例。首次用".1"做增量版本号，直接说明一件事：单次"小版本"更新的技术含量，足以抵得上竞品一次大版本重构。
17210编辑于 2026-05-12
Gemini3.1Pro幻觉率到底有多高五类场景实测数据全公开
AI幻觉指模型生成的内容看似合理但与事实不符。分两种类型。事实性幻觉：编造不存在的数据、论文、事件。忠实性幻觉：偏离用户输入内容，添加用户没有要求的信息。
16510编辑于 2026-05-21
2026年Gemini3.1Pro多模态开发入门指南图文音视频全搞定
想快速对比Gemini 3.1 Pro和其他模型的多模态能力参数，可以在库拉（c.877ai.cn）上查看各家模型的跑分和定价数据。选型阶段比较方便，不用挨个注册账号。
38310编辑于 2026-05-11
来自专栏AI大模型
Kimi K2.6开源编程模型深度解析：对标Claude Opus 4.6和GPT-5.4，月之暗面如何刷新开源天花板？
以下是截至2026年4月21日的官方benchmark数据完整对比：编程类基准：开源新纪录基准测试KimiK2.6GPT-5.4(xhigh)ClaudeOpus4.6(maxeffort)Gemini3.1Pro 但在SWE-BenchVerified上略低于Opus4.6（80.2vs80.8），在SciCode和OJBench上低于Gemini3.1Pro。智能体类基准：多项领先基准测试KimiK2.6GPT-5.4(xhigh)ClaudeOpus4.6(maxeffort)Gemini3.1Pro(thinkinghigh)KimiK2.5HLE-Fullw 推理与知识类基准：有差距基准测试KimiK2.6GPT-5.4(xhigh)ClaudeOpus4.6(maxeffort)Gemini3.1Pro(thinkinghigh)HLE-Full(纯推理) HLE-Full纯推理34.7分，低于Gemini3.1Pro的44.4和ClaudeOpus4.6的40.0。AIME2026得分96.4，低于GPT-5.4的99.2。
6.2K00编辑于 2026-04-21
来自专栏AI资讯
谁在划水？谁在整活？我用5个顶级大模型做前端测评，结果有的像打工人，有的夸一下才行！
参赛选手：GPT-5.3、Kimi2.5、GLM-5、Gemini3.1Pro、doubao-seed-2.0。视觉王者：Gemini3.1Pro博主评价：得用小鞭子抽，输出才是王者级别！【表现】：初版老实巴交，普通得掉渣。但被我“鞭策”之后，Gemini瞬间变身。【调教后】：直接起飞！
42800编辑于 2026-04-13
来自专栏算法一只狗
Gemini 3.5 Flash 泄露：每秒 1141 token，Google 这次想打穿“速度”？
模型能力一般来说，新版本肯定会比之前要好，所有这一次Gemini3.5Flash在多个维度上比Gemini3.1pro要高，同时延续了Flash系列一贯的高速特性。在Terminal-Bench2.1（76.2%）、GDPval-AA（1656Elo）以及MCPAtlas（83.6%）等极具挑战性的编码和智能体基准测试中，均超越了Gemini3.1Pro版本，并在多模态理解领域表现卓越不过目前必须强调，Google官方GeminiAPI模型列表里还没有正式列出Gemini3.5Flash，官方文档目前能看到的是Gemini3.1Pro、Gemini3Flash、Gemini3.1Flash-Lite
28120编辑于 2026-05-21
来自专栏拓端tecdat
Gemini3.1Pro与GeminiCLI的智能体编码方法及极客配对Web应用开发|附代码指令
在当今软件开发领域，效率与质量始终是开发者追求的核心目标。传统的开发模式往往需要开发者手动完成从环境搭建到代码编写、测试、部署的全流程，不仅耗时耗力，还容易因人为疏忽出现错误。随着人工智能技术的发展，智能体编码逐渐成为提升开发效率的新途径。作为数据科学家，我们在过往的咨询项目中发现，结合先进大语言模型的智能体开发工具能够显著缩短项目周期，降低开发门槛。本文将详细介绍如何使用Gemini 3.1 Pro和Gemini CLI构建一个完整的Web应用，从技术栈选择到最终部署，全方位展示智能体编码的优势。本文内容改编自过往客户咨询项目的技术沉淀并且已通过实际业务校验，该项目完整代码已分享至交流社群。阅读原文进群获取更多最新AI见解和行业洞察，可与900+行业人士交流成长；还提供人工答疑，拆解核心原理、代码逻辑与业务适配思路，帮大家既懂怎么做，也懂为什么这么做；遇代码运行问题，更能享24小时调试支持。
61500编辑于 2026-03-05
Stitch 高效设计与开发上线
Thinking模式：在确定方向后开启，它会调用Gemini3.1Pro来精细化排版和层级，减少“AI味”。
45410编辑于 2026-03-25
全球LLM大模型客户端体验深度测评（一）：海外四大巨头格局解构（截至2026年4月）
Gemini3.1Pro顺利调用Veo3.1与NanoBanana2真正把大模型多模态能力在客户端实现了落地。 OpenAIAgentic工作流成熟度、最完备的生态壁垒新手入门首选、职场白领、全栈工程师ChatGPT5.5中等Google恐怖的长文本吞吐量、Workspace深度绑定谷歌生态重度依赖者、需处理超长文档/实时检索Gemini3.1Pro
34910编辑于 2026-05-03
来自专栏open claw 养龙虾专区
🤖 AI到底进化到什么程度了？一文看懂2026年AI能力的真实边界
谷歌Gemini3.1Pro将原生上下文窗口扩展至200万Token，大约相当于150万汉字的容量。这意味着你可以一次性把整本《三体》三部曲丢给AI，它能一次性读完并回答任何细节问题。 SWE-benchVerified基准测试（真实GitHubIssue修复成功率）显示，ClaudeOpus4.6以80.8%位居第一，Gemini3.1Pro以80.6%紧随其后，GPT-5.4为80%
1.2K12编辑于 2026-04-14

第 2 页

2月19日Gemini 3.1 Pro 发布打破12项基准测试记录

谷歌重磅发布 Gemini 3.1 Pro：更强推理，更强生产力

原生多模态有多强Gemini3.1Pro图文理解能力实测拆解

Gemini 3.1 Pro 登顶背后：效率、稳定性与工程化能力的全面升级

Gemini3.1Pro推理能力深度拆解数据告诉你的真相

Gemini3.1Pro办公效率实测写报告做总结整理全搞定

GPT5.5与Gemini3.1Pro多模态能力全面评测开发者选型参考

Gemini3.1Pro用了六周它在四个场景中到底改变了什么

4月国内外十款新发布AI模型参数和价格对比

DeepSeek-V4来了：百万上下文为什么是开源模型的分水岭

Gemini3.1Pro是什么？一篇让开发者彻底搞懂的介绍

Gemini3.1Pro幻觉率到底有多高五类场景实测数据全公开

2026年Gemini3.1Pro多模态开发入门指南图文音视频全搞定

Kimi K2.6开源编程模型深度解析：对标Claude Opus 4.6和GPT-5.4，月之暗面如何刷新开源天花板？

谁在划水？谁在整活？我用5个顶级大模型做前端测评，结果有的像打工人，有的夸一下才行！

Gemini 3.5 Flash 泄露：每秒 1141 token，Google 这次想打穿“速度”？

Gemini3.1Pro与GeminiCLI的智能体编码方法及极客配对Web应用开发|附代码指令

Stitch 高效设计与开发上线

全球LLM大模型客户端体验深度测评（一）：海外四大巨头格局解构（截至2026年4月）

🤖 AI到底进化到什么程度了？一文看懂2026年AI能力的真实边界

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

2月19日Gemini 3.1 Pro 发布打破12项基准测试记录

谷歌重磅发布 Gemini 3.1 Pro：更强推理，更强生产力

原生多模态有多强Gemini3.1Pro图文理解能力实测拆解

Gemini 3.1 Pro 登顶背后：效率、稳定性与工程化能力的全面升级

Gemini3.1Pro推理能力深度拆解数据告诉你的真相

Gemini3.1Pro办公效率实测写报告做总结整理全搞定

GPT5.5与Gemini3.1Pro多模态能力全面评测开发者选型参考

Gemini3.1Pro用了六周它在四个场景中到底改变了什么

4月国内外十款新发布AI模型 参数和价格对比

DeepSeek-V4来了：百万上下文为什么是开源模型的分水岭

Gemini3.1Pro是什么？一篇让开发者彻底搞懂的介绍

Gemini3.1Pro幻觉率到底有多高五类场景实测数据全公开

2026年Gemini3.1Pro多模态开发入门指南图文音视频全搞定

Kimi K2.6开源编程模型深度解析：对标Claude Opus 4.6和GPT-5.4，月之暗面如何刷新开源天花板？

谁在划水？谁在整活？我用5个顶级大模型做前端测评，结果有的像打工人，有的夸一下才行！

Gemini 3.5 Flash 泄露：每秒 1141 token，Google 这次想打穿“速度”？

Gemini3.1Pro与GeminiCLI的智能体编码方法及极客配对Web应用开发|附代码指令

Stitch 高效设计与开发上线

全球LLM大模型客户端体验深度测评（一）：海外四大巨头格局解构（截至2026年4月）

🤖 AI到底进化到什么程度了？一文看懂2026年AI能力的真实边界

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

4月国内外十款新发布AI模型参数和价格对比