GlobalGPT

双子座 3 vs ChatGPT 5.1:谷歌超越 OpenAI 最佳模式的惊人飞跃

双子座 3 vs ChatGPT 5.1

谷歌的新 双子座 3 Pro 这是一个巨大的飞跃,感觉就像跳过了整整一代人--就像直接跳过了 2.5 专业 并在 GPT-5.1 (不是开玩笑)。.

在几乎所有基准测试中,该模型现在都优于 GPT-5.1 和 克劳德 4.5, 即使是最难的面向 AGI 的测试,如 ARC-AGI-2 和 “人类的期末考试” 在 AIME 2025 在数学基准测试中,它在启用工具后获得了满分 100 分,甚至打破了臭名昭著的 LiveCodeBench Pro 这项测试之前曾令所有其他主要机型束手无策。.

在每个基准测试中,该模型现在都优于 GPT-5.1 和 Claude 4.5

在用户投票的人工智能竞技场排名中,情况也是如此。. 埃隆-马斯克的 Grok 4.1 在昨天和今天的排行榜上都名列前茅、, 双子座 3 Pro 已经超越了它。.

在用户投票的人工智能竞技场排名中,双子座 3 Pro 已超过埃隆-马斯克的 Grok 4.1

甚至 萨姆-奥特曼 和 马斯克 不禁对其肃然起敬,既公开表示喜欢,又向谷歌团队表示祝贺。.

就连山姆-奥特曼和马斯克也忍不住向 gemini3 点赞,两人都公开表示喜欢并祝贺谷歌团队。.
就连山姆-奥特曼和马斯克也忍不住向 gemini3 点赞,两人都公开表示喜欢并祝贺谷歌团队。.

目前,双子座 3 Pro 仅有 提供给 Google AI Ultra 用户和付费 Gemini API 用户. .不过也有好消息--作为一个一体化的人工智能平台、, GlobalGPT 已经集成了 Gemini 3 Pro, 您可以 免费试用.

在 GlobalGPT 上使用 gemini 3 pro

从模拟操作系统界面到构建真实软件

在内部测试中,双子座 3 号模拟了全速飞行。 视窗MacOS, 和 利纳克斯 界面。起初,人们以为它只是一个前端设计演示--但事实证明,它创建的程序确实可以运行。.

在一次演示中,它构建了一个完整的 乐高编辑 第一次尝试就从零开始--一次性设计出界面、空间逻辑系统和所有核心编辑功能。.

而这仅仅是个开始。.

在另一次展示中,谷歌使用了 双子座 3 Pro 从零开始设计一款可玩的游戏,并在 YouTube 上发布。人工智能基本上构建了一个迷你版的 “小型游戏中心” 都是靠自己。.

更智能的代理,更真实的结果

双子座 3 Pro 不仅是编码能手,它在以下方面也表现出色得多 长期规划和实际任务模拟.

在一次测试中,它模拟管理了一整年的自动售货机业务,将一个 $5,000 利润 - 是所有测试机型中最高的。.

自动售货机 - 工作台 2:每个模型平均运行 5 次以上:Gemini 3 最高其他
从上到下 双子座 3 Pro, Claude Sonnet 4.5、GPT-5.1、Gemini 2.5 Pro。.

公司全面启动

从今天起,谷歌宣布将发布全部的 双子座 3 系列 “公司规模”第一天,双子座是

  • 完全集成到 谷歌搜索,
  • 给定一个独立的 移动应用, 和
  • 伴随着新的 人工智能代理开发平台.

这还不是全部--更强大的 双子座 3 “深思” 模式已经在路上了。.

至于如何实现如此巨大的能力飞跃,谷歌研究副总裁 Oriol Vinyals 只发现了一条线索:

“岗前培训尚未结束--岗后培训仍有很大的改进空间”。”

谷歌研究副总裁 Oriol Vinyals 透露,双子座 3 的后期培训仍有很大的改进空间

双子座的演变:从基础到融合

回顾过去 双子座系列 感觉就像游戏角色的等级提升--每一代都会修正上一代的弱点,然后为下一代再次打磨一切。.

  • 双子座 1 奠定了基础--将多模态理解和超长上下文连接起来。它成为第一个能够处理百万代词上下文的模型。.
  • 双子座 2 获得了代理权--在掌握了大量的信息保留之后,它开始对这些知识进行综合和规划,为真正的 人工智能代理 行为。.
  • 双子座 2.5 注重推理--谷歌增加了一个 “思维引擎”,可以进行更深入的逻辑分析、思维链推理,以及类似人类的逐步解决问题。.
  • 双子座 3 是巅峰之作 - 不仅仅是原始的缩放,而是 深度融合 跨模式、推理和代理能力。它的座右铭可以是 “你想象它我让它成为现实”

最值得一提的是, 双子座 3 号终于有了人类意识 - 它能 “理解 ”你的意思,而不仅仅是你输入的内容。.

您不必再为撰写完美的提示而紧张。只需抛出您杂乱无章的请求,它就会领会您的意图,读懂上下文,并给出简洁明了的回复--没有多余的赘述。.

超速行驶的多式联运功能

双子座 3 的多模态理解能力更上一层楼。它现在可以无缝处理文本、图像、视频、音频和代码。.

例如,向它提供一段完整的体育比赛视频,它就能总结策略、分析球员技术,甚至教你如何复制他们的动作。.

不难想象,在不久的将来,您可以上传自己的训练录像,而且 双子座 3 成为你的私人教练。.

在搜索场景中,它也不仅仅是简单地堆砌链接。相反,它将实时信息组织成 互动、可用的内容 直接回答了你的问题。.

反引力:谷歌新的代理优先开发平台

反引力:谷歌新的代理优先开发平台

同时推出的还有 双子座 3 Pro, 谷歌推出了 名为 反重力 - 一个 代理优先 构建智能软件系统的平台。.

其核心理念是

“将开发人员从重复性的编码任务中解放出来,让他们有能力充当高级架构师”。”

在谷歌的演示中,反重力公司建立了一个 一分钟内完成航班追踪应用程序.

与人工智能集成开发环境(如 光标, 反重力技术将人工智能代理提升到一个独立的环境,可以完全访问 编辑终端, 和 浏览器. .代理可以代表用户自主规划、编码、测试和验证端到端软件。.

一个新的 经理视图 让用户可以同时协调多个代理,每个代理都能半自主地工作。.

反重力同时协调多个代理

谷歌在这方面的雄心显而易见:这不仅仅是一个工具,它还是新一代的 人工智能驱动的软件工程.

开放生态系统和开发者热潮

反重力系统不仅支持双子座模型,还支持第三方模型,如 GPT-OSS 和 克劳德.

目前正在 公开预览 和 免费使用, Gemini 3 Pro 还具有 “宽松的费率限制”。不出所料,一经推出,开发人员就蜂拥而至,“耕耘 ”免费使用权。.

背景介绍, 克劳德代码 已占大约 21% 占 Anthropic 总收入的百分比,以及 OpenAI 继续围绕以食品法典为基础的产品进行扩展。.

这并不奇怪 人工智能编码工具 正在成为下一个大战场。.

底线

双子座 3 Pro 代表着一个分水岭--它不仅是一款 多想想, 但是 更聪明. .与反重力技术相结合,谷歌清楚地表明,它不仅要引领多模态竞赛,还要引领智能代理时代。.

分享帖子:

相关帖子