双子座 3.5 闪存，两周后：谷歌真的打败了自己的专业级？

2026-05-25
02:37
克洛伊-墨菲
最后更新于 2026-06-08

我熬夜观看了 I/O 主题演讲，当谷歌介绍 Gemini 3.5 Flash 时，我不得不倒带。.

闪光灯层一直是 “足够好、便宜、快速” 选项。这一次，谷歌宣称它击败了之前的专业级产品--不是在一个挑出来的指标上，而是在大多数编码和代理基准上。.

这样的公告通常有两种情况。要么是供应商选中了对他们有利的图表，要么就是真的发生了什么变化。因此，当我们将 Gemini 3.5 Flash 添加到 GlobalGPT 后，我花了大约两周的时间来推动它完成实际工作--研究、幻灯片、代理式多步骤任务，这些工作我通常会分成三个不同的订阅。这就是我的发现，以及它与 GPT-5.5 和 Claude Opus 4.7 的正面比较。.

简要说明

快速版本，供浏览者参考：

如果您的工作是 代理驱动 - 多步骤研究，从多个来源获取信息，阅读图表和 PDF 文件 切换到 3.5 闪存. .它是目前同类产品中最好的。.
如果您 撰写长篇文案或分析真实代码库、, 坚持 克劳德作品 4.7.
如果您需要 前沿推理 (ARC-AGI 类型的谜题、新颖的研究问题），等待 双子座 3.5 Pro 下个月。.
如果您需要 快速的日常模式、, 选择 双子座 3.5 闪存 现在它的输出速度大约是 GPT-5.5 和 Claude Opus 4.7 的 4 倍。.

想试试吗？双子座 3.5 Flash 已在 GlobalGPT 上上线。. 新账户可免费运行 3 次，无需信用卡。该平台之所以能帮助进行这样的比较，是因为 GPT-5.5、Claude Opus 4.7 和其他约 100 种型号都在同一个聊天窗口中。. 一个订阅，一个界面，无需切换。.

想试试吗？双子座 3.5 Flash 已在 GlobalGPT 上上线。新账户可免费运行 3 次，无需信用卡。该平台之所以能进行这样的比较，是因为 GPT-5.5、Claude Opus 4.7 和其他约 100 种机型就在同一个聊天窗口中。一个订阅，一个界面，无需切换。.

在 GlobalGPT 上免费试用双子座 3.5 Flash

什么是 Gemini 3.5 Flash？

双子座 3.5 Flash 是全新双子座 3.5 系列的首款机型，于 2026 年 5 月 19 日在谷歌 I/O 大会上发布. .双子座 3.5 Pro 已列入下个月的路线图，但谷歌对具体日期含糊其辞。.

Gemini 3.5 Flash 是全新 Gemini 3.5 系列的首款机型，于 2026 年 5 月 19 日在谷歌 I/O 大会上发布。.

历史上，双子座地区的 “闪光 ”指的是 更快、更便宜、更智能. 此次发布打破了这一格局。谷歌的框架是 “闪速专业级智能” 这对任何供应商来说都是一个大胆的宣称。大部分数据都证明了这一点。.

双子座 3.5 系列介绍

"(《世界人权宣言》) 双子座 3.5 系列 Gemini 3.5 代表着谷歌在人工智能领域的又一次重大飞跃，其工程模型将前沿智能与闪电般的执行速度完美结合。Gemini 3.5 系列专为支持复杂的多步骤代理工作流和先进的软件工程而设计，旨在采取行动而不仅仅是做出反应。.

Gemini 3.5 系列代表着谷歌在人工智能领域的又一次重大飞跃，它是将前沿智能与闪电般快速执行相结合的工程模型。Gemini 3.5 系列专为支持复杂的多步骤代理工作流和高级软件工程而构建，旨在采取行动而不仅仅是做出反应。.

主要型号和功能

双子座 3.5 闪光灯： 速度与效率的旗舰机型。它在代码生成、推理和长上下文处理方面都具有最先进的性能（支持 100 万代币背景窗口)，同时运行速度比同类前沿机型快达 4 倍。它能长时间出色地完成重型任务，而不会迫使用户在质量和速度之间做出选择。.
双子座 3.5 Pro 谷歌即将推出的重型模型（最初在内部部署，随后将广泛推出），专为最大推理深度、大规模多模态理解和处理高度复杂的企业工作流而量身定制。.

关注 “代理 ”人工智能： 与老式的静态 LLM 不同，Gemini 3.5 生态系统针对自主代理进行了原生优化。它通过谷歌最新的开发者平台，在多步骤项目、振动编码、数据提取和工具集成方面取得了长足发展。.

双子座 3.5 闪存规格表

双子座 3.5 闪存功能	规格
发布日期	2026年5月19日（谷歌I/O大会）
型号系列	双子座 3.5（闪光级）
上下文窗口	1,048,576 个代币（约 100 万）
最大输出功率	65,536 枚代币
输入模式	文本、图像、音频、视频、PDF
知识分数线	2026 年 1 月
输出速度	比同类旗舰产品快 ~4 倍
最佳状态	代理工作流、多模态、编码、金融推理

100 万个背景窗口比标题数字更重要。. 大多数旗舰机型的有效检索上限约为 128K。闪存的处理能力要大得多，这对于任何涉及长 PDF 或拼接研究的工作流程来说都是巨大的。.

Gemini 3.5 Flash 的基准测试：胜在何处，败在何处

让我们从胜利开始。在谷歌公布的基准测试表中，3.5 Flash 在五项基准测试中同时击败了 Gemini 3.1 Pro、Claude Opus 4.7 和 GPT-5.5。. 在过去几年中，小型车同时击败三个旗舰竞争对手的情况从未出现过。.

双子座 3.5 Flash 引领大家的方向

基准	双子座 3.5 闪存	3.1 专业	测试内容
MCP 地图集	83.6%	78.2%	可靠的大规模工具调用
工具竞赛	56.5%	—	多工具协调
财务代理 v2	57.9%	43.0%	财务推理代理
CharXiv 推理	84.2%	—	图表理解
MMMU-Pro	83.6%	—	多模态理解
GDPval-AA (Elo)	1656	1314	真实世界的代理任务
终端平台 2.1	76.2%	70.3%	终端/CLI 编码

数字是抽象的，所以这里有一些具体的东西。上周，我给它布置了一项任务：从三家 SaaS 上市公司的最新 10-Q 报告中提取毛利率和 S&M 支出，建立一个对比表，标出最大的环比变化。. 3.5 Flash 自行计划步骤--搜索申报、解析数字、生成表格。. 一气呵成，大约 90 秒。我在下一个标签页中对 Claude Opus 4.7 进行了同样的提示，结果它在第二家公司停滞不前，需要我用更好的搜索条件提示它，它才找到所需的内容。.

在 MCP Atlas 上，Flash 的传输速率为 83.6%，而大多数竞争对手的传输速率仅为 70 多 TP3T，这种差距在实际工作中很快就会显现出来。.

双子座 3.5 Flash 仍落后于 3.1 Pro 的地方

人类最后的考试（前沿推理）
ARC-AGI-2（抽象推理）
128K MRCR v2（超长文本检索）

这些都是最难的纯智能基准测试，而 3.5 Flash 在这三项测试中都败下阵来。.

它在协调工具和汇集信息方面非常出色，但并不是新颖抽象推理的模型。这也解释了为什么有些开发人员仍然关心双子座 3.1 专业版编码性能3.1 Pro 的速度和代理原生性可能不如 Flash，但在那些更深入的推理和长语境可靠性比速度更重要的任务中，3.1 Pro 仍然具有相关性。谷歌或多或少承认了这一点--3.5 Pro 将于下月发布，届时他们可能会缩小在推理方面的差距。.

两周以来：基准未能反映的情况

基准告诉你一个故事。日常使用则是另一回事。以下是数字之外的亮点。.

它的优点

工具调用是标题。. 我运行一个常规的研究工作流程，在这个流程中，模型需要搜索、获取一些 URL、解析内容、做一些数学运算，然后返回一个结构化的输出。在 GPT-5.5 上，该工作流成功的次数约为 80%，失败的原因通常是模型跳过了一个步骤，或者在搜索没有返回想要的结果时编造了答案。而在 Gemini 3.5 Flash 上，首次尝试成功率接近 95%。我把整个工作流程都搬了过来。.
完成长期任务。. 谷歌将其描述为 “远景代理任务”，听起来像是营销文案，但并没有错。3.1 Pro 有时会中途放弃的 6-8 步任务，Gemini 3.5 Flash 可以端到端完成。对于任何运行生产工作流程的人来说，这都不是一个基准--这就是能正常工作和需要经常照看的东西之间的区别。.
速度是真实存在的。. 在交互式使用中，Flash 与速度较慢的旗舰产品之间的差异是显而易见的。对于任何基于聊天或迭代的活动，如起草文件、头脑风暴、比较选项等，它都会改变模型的可用性。.

不足之处

长篇写作明显弱于克劳德。. 我要求它提供一份 5000 字的市场分析报告。结构很好，散文却很平淡。Claude Opus 4.7》写得很有节奏感--句子长短不一，过渡自然多变，是那种你不会注意到的写作。Flash 的写作就像有人在完成任务标准。如果你要为出版物撰写大量书面内容，克劳德仍然是合适的工具。.
修改真实代码库是它的不足之处。. 我给了它一个开源项目，要求它关闭一个问题。它虽然修复了错误，但却在其他地方引入了回归。Opus 4.7 不会犯这种错误，这就是 SWE-bench 验证差距的反映。对于严肃的工程工作，请暂时使用 Claude。.
非英语表演： 我主要用英文进行测试。中文输出明显好于 Gemini 3 代，但在散文方面仍比 Claude Sonnet 4.6 干涩。我需要更多的样本才能发表更多意见--对于任何运行多语言内容的人来说，这都是个问题。.

速度、定价以及为什么对大多数人来说这很重要

在日常使用中，谷歌所宣称的速度最令我惊讶。. Gemini 3.5 Flash 的输出令牌速度比同类旗舰产品快约 4 倍。. 在基准测试中，这只是一个数字。在实际使用中，它是 “立即恢复 ”和 “停顿一秒 ”之间的差别，当你一下午要处理 20-30 个提示时，这一秒就会增加。.

在人工分析’的官方输出速度基准、, 双子座 3.5 闪存 职级 第三次, 落后于 GPT-OSS-120B 和 GPT-OSS-20B。这意味着 GPT-OSS 的原始每秒输出令牌速度更快，但这并不意味着 Gemini 的速度声明具有误导性。.

“快速 ”不仅指输出速度，还取决于 整体延迟、多模式处理、长文本处理、推理质量、稳定性和生产可靠性。.
GPT-OSS 是超高速、高吞吐量文本生成的绝佳工具，而 Gemini 3.5 Flash 兼顾强大的速度和更广泛的功能，如多模态输入、长语境理解和更高级的通用任务性能.

以下是公共应用程序接口定价与其他 2026 旗舰产品的对比情况（这是谷歌、Anthropic 和 OpenAI 通过其应用程序接口直接收取的费用）：

模型	输入（$/1M）	输出（$/1M）	说明
双子座 3.5 闪存	$1.50	$9.00	本文主题
克劳德作品 4.7	$5.00	$25.00	人类学旗舰
GPT-5.5	$5.00	$30.00	OpenAI 旗舰
克洛德十四行诗 4.6	~$3	~$15	人类中层
DeepSeek V4 Pro	较低	较低	最便宜的开秤选择

即使您不直接购买 API 信用点数，这一点也很重要：这些都是影响您实际可以访问哪些模型以及访问级别的基本经济因素。ChatGPT Plus 的价格为 $20/月，涵盖 GPT 系列。Claude Pro（$20/月）涵盖 Claude。双子座高级（$20/月）涵盖双子座。如果您想要这三种软件，再加上 Perplexity 和一个好的图像模型，那么您每月需要支付 $80+ 的费用，同时订阅四个软件--而且每次您想要比较答案时，都要在四个不同的用户界面之间切换。.

这正是 GlobalGPT 所要解决的问题。只需一次订阅，所有用户都可以在同一个聊天室中进行聊天。. 在下面的章节中，你就会明白我为什么会一直提到这一点。.

Gemini 3.5 Flash vs GPT-5.5 vs Claude Opus 4.7：何时使用何种功能

这是我收到的最多的问题。以下是我根据两周并行测试的实际情况编写的小抄：

任务类型	使用	为什么
多步骤研究	双子座 3.5 闪存	83.6% MCP Atlas - 市场上最好的工具路由器
图表、数字、视频、PDF 文件	双子座 3.5 闪存	CharXiv 84.2%、MMMU-Pro 83.6% - 多模态是本机强大功能
长篇写作（论文、报告）	克劳德作品 4.7	更好的散文节奏和结构
真实代码库上的软件工程	克劳德作品 4.7	87.6% SWE 基准验证 - 仍是标准
快速编码任务、脚本、CLI	双子座 3.5 闪存	76.2% 终端平台，速度快到足以感受到互动性
长文本检索（>128K）	双子座 3.1 Pro	3.1 Pro 在 128K 以上的 MRCR v2 上仍然胜出
前沿级推理	等待 3.5 Pro 或使用 3.1 Pro	关于人类最后一次考试和 ARC-AGI-2 的闪电损失
任何需要速度的地方	双子座 3.5 闪存	输出速度比其他旗舰产品快 ~4 倍

我想在此郑重声明：对于大多数实际生产工作负载，Gemini 3.5 闪存现在应该是你的默认设置，而 Opus 4.7 或 GPT-5.5 则是你在闪存不够用时的例外选择。. 6 个月前，我还认为专业级是默认选项，而 Flash 是预算选项。双子座 3.5 版 Flash 颠覆了这种关系。.

这并不意味着 Claude Opus 4.7 已死。它仍然是实际代码库中软件工程的典范，而且能写出更好的散文。但是，如果你的工作主要涉及搜索、提取结构化数据、比较数据源并生成可用于决策的输出结果--那么，你就需要使用 Claude Opus 4.7 了。 现在，Flash 是更好的工具。.

如何实际试用双子座 3.5 Flash

有几条路，取决于你想做什么：

双子座应用程序或搜索 AI 模式。. 免费，需要谷歌账户。适合临时提示，但无法与其他模式进行比较
双子座高级版（$20/月）。. 谷歌的消费者订阅。可获得 Gemini 3.5 Flash 和专业版，但只能使用谷歌的机型。.

不过，这两种使用 Gemini 3.5 Flash 的方法都有很大的问题，因为 双子座有严格的区域访问限制、, 使许多用户难以直接登录或使用服务。.

不过，这两种使用 Gemini 3.5 Flash 的方法都有很大的问题，因为 Gemini 有严格的区域访问限制，使许多用户难以直接登录或使用服务。.

因此，我向你们推荐第三种方法。.

GlobalGPT. 在同一个聊天窗口中，所有内容都在同一个订阅列表中。新注册用户可免费获得 3 次双子座 3.5 Flash 运行。开始时无需信用卡。.
- 用户无需设置 VPN 即可访问 Gemini，同时还可以在一个平台上探索各种先进的人工智能模型。.
- Gemini 3.5 Flash 与 GPT-5.5、Claude Opus 4.7、Claude Sonnet 4.6、GPT Image 2、Seedance 2.0 和其他约 100 种型号并列。.

老实说，第三种方法就是我在本文中进行比较的方法。要在 Gemini 3.5 Flash、GPT-5.5 和 Claude Opus 4.7 上运行相同的提示，就必须分别订阅 Gemini Advanced ($20)、ChatGPT Plus ($20) 和 Claude Pro ($20)。 每月 $60，三个独立账户，三个不同的聊天界面，每次要比较答案时都要复制粘贴。. 在 GlobalGPT 中，这是一个下拉菜单。.

这就是一体化平台的价值所在：它们不会取代底层模型，只是省去了访问这些模型的麻烦。如果您只使用一种模型，那么订购单一供应商的产品就可以了。如果您需要比较不同的模型，或者您希望获得最适合每项任务的模型，那么您就需要使用多合一平台。 聚合器很快就能收回成本。.

在 GlobalGPT 上体验 Gemini 3.5 Flash - 注册即可免费体验 3 代。另外还有 GPT-5.5、Claude Opus 4.7 和 100 多种同款聊天工具。.

在 GlobalGPT 上免费试用双子座 3.5 Flash

结论：您应该更换吗？

如果您的主要工作是多步骤研究、多模式分析或任何需要使用工具的代理式任务，那么是的。. 速度更快，基准测试证明了这一点，两周的实际测试也证实了这一点。对于这类工作，没有理由继续使用 GPT-5.5 或 Opus 4.7。.
如果您的主要工作是出版物级别的写作或代码库工程，请继续使用 Claude Opus 4.7。.
如果您的主要工作是研究级推理，请等待下个月的双子座 3.5 Pro。.

最快的方法是将上周的一些实际提示通过这三种模型进行测试。基准是总量。你的工作流程是你自己的。.

进行比较的最简单方法就是在 GlobalGPT 上进行--只需一次订阅，就可以在同一个聊天室中进行所有三种模式的比较，另外还有 100 种其他模式。新账户可免费获得 3 个 Gemini 3.5 Flash 代。无需信用卡。.

常见问题：有关 Gemini 3.5 Flash 的更多信息

Gemini 3.5 Flash 是否比 Gemini 3.1 Pro 更好？

在代理工作流程、编码任务、多模式分析和工具使用方面，Gemini 3.5 Flash 在上述大多数基准测试中的表现都优于 Gemini 3.1 Pro。在日常使用中，它的速度也要快得多。不过，Gemini 3.1 Pro 在一些难度较大的推理和超长上下文检索任务中仍有优势。.

双子座 3.5 Pro 什么时候上市？

Gemini 3.5 Pro 预计将于下月发布，但谷歌尚未给出确切的发布日期。根据目前的定位，Gemini 3.5 Pro 可能会更侧重于前沿推理、抽象问题解决和最难的研究型任务，而 Gemini 3.5 Flash 则已经可以用于快速代理工作流和多模式使用。.

Gemini Flash 和 Gemini Pro 有什么区别？

Flash 系列专为快速、低成本和大批量的实际工作流程而设计。它最适合研究、工具使用、多模式分析、快速编码任务和日常代理式工作。Pro 系列通常被定位为较强的推理层，更适合处理较难解决的抽象问题、前沿级推理以及更复杂的任务，在这些任务中，最大智能比速度更重要。.

分享帖子：

双子座 3.5 闪存，两周后：谷歌真的打败了自己的专业级？

简要说明