Gemini 3.5 Flash，兩週後：Google 真的打敗了自己的專業層級嗎？

2026-05-25
02:37
Chloe Murphy
最後更新 2026-06-08

我熬夜觀看 I/O 主題演講，當 Google 介紹 Gemini 3.5 Flash 時，我不得不倒帶。.

Flash 層級一直是 “「夠好、便宜、快速」” 選項。這一次，Google 宣稱它擊敗了之前的 Pro 層級 - 不是在挑選的指標上，而是在大多數的編碼和代理基準上。.

這類公告通常有兩種結果。要麼是廠商挑選了對他們有利的圖表，要麼就是真的有東西改變了。因此，當我們在 GlobalGPT 中加入 Gemini 3.5 Flash 後，我花了大約兩個星期的時間來推動它進行實際工作 - 研究、幻燈片、代理式多步驟任務，這些我通常會分開三個不同的訂閱。這就是我的發現，以及它與 GPT-5.5 和 Claude Opus 4.7 的正面比較。.

說明

快速版本，供略略閱讀的人使用：

如果您的工作是 代理驅動 - 多步驟研究、從多個來源調閱資料、閱讀圖表和 PDF 檔案----------。 切換至 3.5 Flash. .它是目前同類產品中最好的。.
如果您是 撰寫長篇文案或分析真實程式碼、, 黏附 Claude Opus 4.7。.
若您需要 前沿級推理 (ARC-AGI式的謎題、新奇的研究問題)，等待 雙子星 3.5 Pro 下個月。.
若您需要 快速的日常模式、, 選擇 雙子星 3.5 Flash 現在。它的輸出速度大約是 GPT-5.5 和 Claude Opus 4.7 的 4 倍。.

想試試嗎？雙子星 3.5 Flash 已在 GlobalGPT 上線。. 新帳戶可免費使用 3 次 - 無需信用卡。讓這個平台對於這樣的比較有用的是，GPT-5.5、Claude Opus 4.7 和 ~100 個其他機型就在同一個聊天視窗中。. 單一訂閱、單一介面，無須手忙腳亂。.

想試試嗎？雙子星 3.5 Flash 已在 GlobalGPT 上線。新帳戶可獲得 3 次免費運行 - 無需信用卡。這個平台之所以能用來做這樣的比較，是因為 GPT-5.5、Claude Opus 4.7 以及 ~100 個其他機型都在同一個聊天視窗中。一個訂閱、一個介面，無須煩惱。.

在 GlobalGPT 上免費試用 Gemini 3.5 Flash

什麼是 Gemini 3.5 Flash？

Gemini 3.5 Flash 是全新 Gemini 3.5 系列的第一款機型，於 2026 年 5 月 19 日在 Google I/O 發表。. .Gemini 3.5 Pro 在下個月的路線圖上，雖然 Google 對確切日期含糊其詞。.

從歷史上看，雙子星地區的「閃光」是指： 更快、更便宜、更不智能。. 這個版本打破了這個模式。Google 的框架是 “「Flash 速度的專業級智慧」。” 這對任何廠商來說都是一個大膽的聲稱。大部分的數據都支持這一說法。.

Gemini 3.5 系列介紹

的 雙子星 3.5 系列 Gemini 3.5 代表 Google 在人工智慧領域的下一個重大躍進，其工程模型結合了前沿級的智慧與快如閃電的執行能力。Gemini 3.5 系列專為支援複雜的多步驟代理工作流程和進階軟體工程而打造，其設計目的在於行動而非僅是回應。.

Gemini 3.5 系列代表 Google 在人工智慧領域的下一個重大躍進，其工程模型結合了前沿級的智慧與快如閃電的執行速度。Gemini 3.5 系列專為支援複雜的多步驟代理工作流程和進階軟體工程而打造，其設計目的在於行動而非僅是回應。.

主要機型與功能

Gemini 3.5 Flash： 速度與效率的旗艦機型。它在代碼生成、推理和長內容處理方面提供最先進的效能（支援 1 百萬代用幣上下文視窗)，同時操作速度比同類前沿機型快 4 倍。它擅長長時間進行繁重的工作，而不會迫使使用者在品質與速度之間做出選擇。.
Gemini 3.5 Pro： Google 即將推出的重型模型 (最初在內部部署，並廣泛推出)，專為最大推理深度、大量多模式理解以及處理高度複雜的企業工作流程而量身打造。.

專注於「Agentic」AI： 與較舊的靜態 LLM 不同，Gemini 3.5 生態系統已針對自主代理進行原生最佳化。它透過 Google 最新的開發者平台，在多步驟專案、虛擬編碼、資料擷取和工具整合上茁壯成長。.

Gemini 3.5 Flash 的規格表

Gemini 3.5 Flash 功能	規格
發佈日期	2026 年 5 月 19 日 (Google I/O)
型號系列	雙子星 3.5 (閃光層)
上下文視窗	1,048,576 代幣 (~1M)
最大輸出	65,536 個代幣
輸入模式	文字、影像、音訊、視訊、PDF
知識截止	2026 年 1 月
輸出速度	~4 倍於競爭旗艦機種的速度
最佳狀態	代理工作流程、多模態、編碼、財務推理

1 百萬的情境視窗比頭條數字所顯示的更重要。. 大多數旗艦型號的有效檢索上限約為 128K。Flash 可以處理更多的檔案，這對任何涉及長 PDF 或拼接研究的工作流程來說都是非常重要的。.

Gemini 3.5 Flash 的基準測試：勝負之處

讓我們從勝利開始。在 Google 公佈的基準表上，3.5 Flash 在五項基準測試中同時擊敗 Gemini 3.1 Pro、Claude Opus 4.7 和 GPT-5.5。. 同時擊敗三個旗艦競爭對手的小型車款，在過去幾年還從未發生過。.

Gemini 3.5 Flash 的領導地位

基準	雙子星 3.5 Flash	3.1 專業	測試內容
MCP 圖集	83.6%	78.2%	可靠的規模工具調用
工具競賽	56.5%	-	多工具協調
財務代理 v2	57.9%	43.0%	財務推理代理
CharXiv 推理	84.2%	-	瞭解圖表
MMMU-Pro	83.6%	-	多模態理解
GDPval-AA (Elo)	1656	1314	真實代理任務
Terminal-Bench 2.1	76.2%	70.3%	終端機/CLI 編碼

數字是抽象的，所以這裡有一些具體的東西。上週我給了它一個工作：從三家公開的 SaaS 公司抽取最新的 10-Q，提取毛利率和 S&M 支出，建立一個比較表，標出最大的年同比變化。. 3.5 Flash 自行規劃步驟 - 搜尋檔案、解析數字、產生表格。. 一次，大約 90 秒。我在下一個索引標籤中對 Claude Opus 4.7 作了同樣的提示，但它在第二家公司停滯不前，需要我用更好的搜尋字詞提示它，它才找到需要的東西。.

這種差距 - Flash 在 MCP Atlas 上為 83.6%，而大多數競爭對手則停留在 70 多分 - 在實際工作中顯現得如此之快。.

Gemini 3.5 Flash 仍然落後於 3.1 Pro 的地方

人類最後的考試（前沿推理）
ARC-AGI-2（抽象推理）
128K MRCR v2 (超長內容檢索)

這些都是最難的純智能基準，而 3.5 Flash 在這三項測試中都輸了。.

它在協調工具和匯集資訊方面非常出色，但並不是新穎抽象推理的模型。這也解釋了為什麼有些開發人員仍然關心雙子星 3.1 專業編碼效能：3.1 Pro 感覺上可能不如 Flash 快或代理原生，但在深入推理和長內容可靠性比速度更重要的任務上，它仍然是相關的。Google 或多或少已承認這一點 - 3.5 Pro 將於下個月推出，這大概就是他們縮小推理差距的地方。.

兩星期後：基準未能反映的情況

基準告訴您一個故事。日常使用則是另一回事。以下是數字以外的突出表現。.

它的優點

工具呼叫是標題。. 我執行一個常規的研究工作流程，模型必須搜尋、取得幾個 URL、解析內容、做一些計算，然後傳回一個結構化的輸出。在 GPT-5.5 上，這個工作流程成功的次數約為 80%，失敗的原因通常是模型跳過某個步驟，或是在搜尋沒有得到想要的結果時編造答案。在 Gemini 3.5 Flash 上，第一次嘗試成功的次數接近 95%。我把整個工作流程移了過來。.
長時間執行的任務完成。. Google 將此形容為「長遠代理任務」，聽起來像是行銷文案，但卻沒有錯。3.1 Pro 有時候會中途放棄的 6-8 步任務，Gemini 3.5 Flash 可以端對端完成。對於任何執行生產工作流程的人來說，這並不是一個基準，而是能正常運作與需要不斷照看的差異。.
速度的事是真的。. 在互動使用上，Flash 與速度較慢的旗艦產品之間的差異顯而易見。對於任何基於聊天或反覆的活動 - 草擬、集思廣益、比較選項 - 它會改變模型的可用性。.

它做得不好的地方

長篇寫作明顯弱於 Claude。. 我要求它寫一篇 5,000 字的市場分析。結構很好，散文卻很平淡。Claude Opus 4.7 寫得很有節奏 - 句子長短不一，轉場自然多變，是你不會注意到的那種寫法。Flash 寫得像是有人在打任務標準。如果您要為出版製作大量書面內容，Claude 仍是合適的工具。.
修改真實程式碼庫是它的不足之處。. 我給它一個開放原始碼專案，要求它關閉一個問題。它會修正錯誤，但卻會在其他地方引入退步。Opus 4.7 不會犯這種錯誤 - 這就是 SWE-bench Verified gap 所反映的問題。對於嚴肅的工程工作，請暫時使用 Claude。.
非英語演出： 我主要以英文進行測試。中文輸出比 Gemini 3 代有顯著的改善，但仍比 Claude Sonnet 4.6 的散文輸出乾燥。我需要更多的樣本才會有更多的評論 - 對於運行多國語言內容的人來說，這是一個旗標。.

速度、定價，以及為什麼這對大多數人來說很重要

在日常使用中，Google 所聲稱的速度是最讓我驚訝的部分。. Gemini 3.5 Flash 的輸出代幣速度比競爭旗艦產品快約 4 倍。. 在基準測試中，這只是一個數字。在實際使用中，這是「即時回復」和「擱置一拍」之間的差異 - 當您一下午要處理 20-30 個提示時，這一拍就會增加。.

在人工分析’的官方輸出速度基準、, 雙子星 3.5 Flash 行列 第三次, ，落後於 GPT-OSS-120B 和 GPT-OSS-20B。這表示 GPT-OSS 的原始每秒輸出代幣速度較快，但這並不表示 Gemini 的速度聲稱具有誤導性。.

“快速」不僅關乎輸出速度，還取決於 整體延遲、多模式處理、長內容處理、推理品質、穩定性和生產可靠性。.
GPT-OSS 是超快速、高吞吐量文字產生的優秀工具，而 Gemini 3.5 Flash 在強大的速度與更廣泛的功能之間取得平衡，例如多模式輸入、長時間內容理解，以及更先進的一般用途任務效能。.

以下是公開 API 定價與其他 2026 旗艦產品的比較 (這是 Google、Anthropic 和 OpenAI 直接透過其 API 收取的費用)：

模型	輸入 ($/1M)	輸出 ($/1M)	注意事項
雙子星 3.5 Flash	$1.50	$9.00	本文主題
克勞德作品 4.7	$5.00	$25.00	人類旗艦
GPT-5.5	$5.00	$30.00	OpenAI 旗艦產品
克勞德十四行詩 4.6	~$3	~$15	人類中層
DeepSeek V4 Pro	較低	較低	最便宜的開重量選項

即使您不直接購買 API 點數，這也是很重要的原因：這些基本經濟學決定了您實際上可以存取哪些機型，以及存取的層級。ChatGPT Plus 的價格為 $20/月，涵蓋 GPT 系列。Claude Pro（$20/月）涵蓋 Claude。Gemini 進階版 $20/ 月，涵蓋 Gemini。如果您想要這三種軟體加上 Perplexity 和一個好的圖像模型，您就得花 $80+/month 來訂閱四套軟體 - 而且每次您想要比較答案時，都得在四個不同的使用者介面之間轉來轉去。.

這就是 GlobalGPT 所解決的部分。一次訂閱，所有的人都在同一個聊天室。. 在下面的部分，您會知道我為什麼老是提到這一點。.

Gemini 3.5 Flash vs GPT-5.5 vs Claude Opus 4.7：何時使用何種功能

這是我收到最多的問題。以下是我在兩週的並排測試中實際看到的小抄：

任務類型	使用	為何
多步驟研究	雙子星 3.5 Flash	83.6% MCP Atlas - 市面上最佳的工具路由器
圖表、數字、視訊、PDF	雙子星 3.5 Flash	CharXiv 84.2%、MMMU-Pro 83.6% - 多模式是原生且強大的模式
長篇寫作（論文、報告）	克勞德作品 4.7	更好的散文節奏和結構
真實程式碼基礎上的軟體工程	克勞德作品 4.7	87.6% SWE-bench 已驗證 - 仍是標準
快速編碼任務、腳本、CLI	雙子星 3.5 Flash	76.2% Terminal-Bench，速度快到足以感受到互動性
長內容檢索 (>128K)	雙子星 3.1 Pro	3.1 Pro 在 128K 以上的 MRCR v2 上仍然勝出
前沿級推理	等待 3.5 Pro 或使用 3.1 Pro	關於人類最後一次考試和 ARC-AGI-2 的 Flash loses
任何需要速度的地方	雙子星 3.5 Flash	~4 倍於其他旗艦機種的輸出速度

以下是我想要記錄在案的看法：對於大多數真正的生產工作負載，Gemini 3.5 Flash 現在應該是您的預設值，而 Opus 4.7 或 GPT-5.5 則是您在 Flash 不夠用時的例外選擇。. 六個月前，我會顛倒這一點 - 專業級是預設，Flash 是預算選項。Gemini 3.5 Flash 則顛倒了這種關係。.

這並不表示 Claude Opus 4.7 已經死亡。它仍然是實際程式碼基礎上軟體工程的典範，而且它能寫出更好的散文。但如果您的工作主要涉及搜尋、擷取結構化資料、比較資料來源，以及製作可供決策的輸出 - Claude Opus 4.7 是您的最佳選擇。 Flash 現在是更好的工具。.

如何實際試用 Gemini 3.5 Flash

幾種路徑，取決於您想要做什麼：

Gemini 應用程式或搜尋 AI 模式。. 免費，需要 Google 帳戶。適合隨意提示，但無法與其他機型比較
雙子星進階版（$20/月）。. Google 的消費者訂閱。提供 Gemini 3.5 Flash 和 Pro 層級，但您只能使用 Google 的機型。.

然而，這兩種使用 Gemini 3.5 Flash 的方法有很大的問題，因為 Gemini 有嚴格的區域存取限制、, 使得許多使用者難以直接登入或使用服務。.

然而，這兩種使用 Gemini 3.5 Flash 的方法都有很大的麻煩，因為 Gemini 有嚴格的區域存取限制，讓許多使用者難以直接登入或使用服務。.

因此，我向您推薦第三種方法。.

全球GPT。. 所有內容都在同一個聊天視窗中。新註冊會員可免費獲得 3 次 Gemini 3.5 Flash 運行。開始時不需要信用卡。.
- 使用者無需設定 VPN 即可存取 Gemini，同時還可以在一個平台上探索各種先進的 AI 模型。.
- Gemini 3.5 Flash 與 GPT-5.5、Claude Opus 4.7、Claude Sonnet 4.6、GPT Image 2、Seedance 2.0 及其他約 100 種機型並列。.

老實說，第三個選項是我為這篇文章所做的比較工作。要以其他方式在 Gemini 3.5 Flash、GPT-5.5 和 Claude Opus 4.7 上執行相同的提示，意味著要分別訂閱 Gemini Advanced ($20)、ChatGPT Plus ($20) 和 Claude Pro ($20) - 如果您要在 Gemini 3.5 Flash、GPT-5.5 和 Claude Opus 4.7 上執行相同的提示，您必須訂閱 Gemini Advanced ($20)。 $60 元/月、三個獨立帳號、三個不同的聊天介面，每次要比較答案時都要複製貼上迴圈。. 在 GlobalGPT 中，這是一個下拉式選單。.

這就是一般多合一平台的價值：它們並沒有取代底層模型，只是省去了您存取模型的麻煩。如果您只使用一種模型，單一供應商訂閱即可。如果您比較各種模型，或者您希望針對每項任務取得最佳的模型，那麼您可以使用多合一平台。 聚合器很快就能收回成本。.

在 GlobalGPT 上嘗試 Gemini 3.5 Flash - 註冊即送 3 代。加上 GPT-5.5、Claude Opus 4.7，以及 100+ 款相同的聊天內容。.

在 GlobalGPT 上免費試用 Gemini 3.5 Flash

結論：您應該轉換嗎？

如果您的主要工作是多步驟研究、多模態分析或任何需要使用工具的代理式任務 - 是的。. 它的速度更快，基準測試證明了這一點，而且兩個星期的實際測試也證實了這一點。對於這類工作，沒有好理由繼續使用 GPT-5.5 或 Opus 4.7。.
如果您的主要工作是出版級的寫作或程式碼工程，請繼續使用 Claude Opus 4.7。.
如果您的主要工作是研究等級的推理，請等待下個月的 Gemini 3.5 Pro。.

決定的最快方法是從您上星期的實際提示中抽出一小部分，然後在這三種模型中運行。基準是總體的。您的工作流程是您自己的。.

最簡單的方式就是在 GlobalGPT 上進行比較 - 一次訂閱，所有三種機型都在同一個聊天室中，另外還有 100 個其他機型。新帳號一開始可獲得 3 個免費的 Gemini 3.5 Flash 世代。無需信用卡。.

常見問題：關於 Gemini 3.5 Flash 的更多資訊

Gemini 3.5 Flash 是否比 Gemini 3.1 Pro 更好？

對於代理工作流程、編碼任務、多模態分析和工具使用，Gemini 3.5 Flash 在上述討論的大部分基準中，表現都比 Gemini 3.1 Pro 好。在日常使用中，它的速度也快得多。不過，Gemini 3.1 Pro 在一些較難的推理和長內容檢索任務上仍有優勢。.

Gemini 3.5 Pro 何時上市？

Gemini 3.5 Pro 預計會在下個月推出，但 Google 尚未給出確切的發佈日期。根據目前的定位，Gemini 3.5 Pro 可能會更著重於前沿推理、抽象問題的解決，以及最困難的研究式任務，而 Gemini 3.5 Flash 則已經可供快速代理工作流程和多模式使用。.

Gemini Flash 與 Gemini Pro 有何不同？

Flash 系列專為速度、較低成本及大量實用工作流程而設計。它最適合研究、工具使用、多模態分析、快速編碼任務和日常代理式工作。Pro 系列通常被定位為較強的推理層級，更適合較難的抽象問題、前沿級推理，以及較複雜的任務，在這些任務中，最大智慧比速度更重要。.

分享文章：

GPT-5.6 Pricing Explained: Plans, API Cost, Codex Credits, and Real Token Usage

Updated July 11, 2026. GPT-5.6 pricing is not one simple number. The real cost depends on whether you use ChatGPT

GPT-5.6 vs Fable 5 vs GPT-5.5: Real Tests, Pricing, and Best Uses

If you are searching for GPT-5.6 vs Fable 5, you probably do not want another abstract benchmark summary. You want to