周二,谷歌发布了 Gemini 2.5,这是一系列新的人工智能推理模型,可以在回答问题之前停下来思考。
为了启动新模型系列,谷歌推出了 Gemini 2.5 Pro Experimental,这是一款多模式推理 AI 模型,该公司声称这是迄今为止最智能的模型。
该模型将于周二在公司的开发者平台 Google AI Studio 以及 Gemini 应用程序中推出,供该公司每月 20 美元的 AI 计划 Gemini Advanced 的订阅者使用。
展望未来,谷歌表示其所有新人工智能模型都将具备推理能力。
自 OpenAI 于 2024 年 9 月推出首个 AI 推理模型以来,科技行业一直在竞相用自己的模型来匹敌或超越该模型的能力。如今,Anthropic、DeepSeek、Google 和 xAI 都拥有 AI 推理模型,这些模型利用额外的计算能力和时间来核实事实并推理问题,然后再给出答案。
推理技术帮助人工智能模型在数学和编码任务上取得了新的高度。科技界的许多人认为推理模型将成为人工智能代理的关键组成部分,人工智能代理是一种可以在没有人工干预的情况下执行任务的自主系统。然而,这些模型也更昂贵。
谷歌之前曾尝试过 AI 推理模型,并于 12 月发布了 Gemini 的思考版本。但 Gemini 2.5 代表了该公司迄今为止最认真的尝试,旨在超越 OpenAI 的 o 系列模型。
谷歌声称,Gemini 2.5 Pro 在多个基准测试中的表现均优于其之前的前沿 AI 模型以及一些领先的竞争 AI 模型。具体来说,谷歌表示,Gemini 2.5 的设计旨在打造出视觉效果出众的 Web 应用和代理编码应用程序。
在一项名为 Aider Polyglot 的代码编辑评估中,谷歌表示 Gemini 2.5 Pro 的得分为 68.6%,超过了 OpenAI、Anthropic 和中国人工智能实验室 DeepSeek 的顶尖人工智能模型。
然而,在另一项衡量软件开发能力的测试 SWE-bench Verified 中,Gemini 2.5 Pro 的得分为 63.8%,优于 OpenAI 的 o3-mini 和 DeepSeek 的 R1,但低于 Anthropic 的 Claude 3.7 Sonnet,后者的得分为 70.3%。
谷歌表示,在人类的最后考试中,Gemini 2.5 Pro 的得分为 18.8%,表现优于大多数竞争对手的旗舰机型。人类的最后考试是一场多模式测试,包含数千道涉及数学、人文和自然科学的众包问题。
首先,谷歌表示 Gemini 2.5 Pro 配备了 100 万个 token 上下文窗口,这意味着 AI 模型一次可以接收大约 75 万个单词。这比整个《指环王》系列丛书的长度还要长。很快,Gemini 2.5 Pro 将支持两倍的输入长度(200 万个 token)。
谷歌尚未公布 Gemini 2.5 Pro 的 API 定价。该公司表示将在未来几周内公布更多信息。
海量资讯、精准解读,尽在新浪财经 APP