分享好友 最新动态首页 最新动态分类 切换频道
Gemini 2.5 Pro 实测:或将成为最实用的推理模型
2025-04-01 16:53

不幸的是,Google 最新旗舰语言模型 Gemini 2.5 Pro 的发布,被吉卜力工作室 AI 图像风波所掩盖。也许是吸取了之前失败发布的教训,Google 谨慎地将其描述为"我们最智能的 AI 模型",而不像其他 AI 实验室那样宣称自己的新模型是世界最佳。

然而,实际测试表明,Gemini 2.5 Pro 确实令人印象深刻,可能是目前最优秀的推理模型。这为许多新应用开辟了道路,并可能使 Google 在生成式 AI 竞赛中处于领先地位。

具备出色编程能力的超长上下文

Gemini 2.5 Pro 最突出的特点是其超长的上下文窗口和输出长度。该模型可以处理多达 100 万个 token (即将支持 200 万),使其能够在需要时将多个长文档和完整的代码库装入提示中。该模型的输出限制为 64,000 个 token,而其他 Gemini 模型仅为 8,000 左右。

长上下文窗口也支持更长时间的对话,因为每次与推理模型的交互都可能产生数万个 token,特别是在涉及代码、图像和视频时(我在使用 Claude 3.7 Sonnet 时就遇到了这个问题,它的上下文窗口为 200,000 个 token)。

例如,软件工程师 Simon Willison 使用 Gemini 2.5 Pro 为他的网站创建了一个新功能。Willison 在博客中说:"它分析了我的整个代码库,找出了所有需要更改的地方——总共 18 个文件,从最终的 PR 中可以看出。整个项目从开始到完成只花了约 45 分钟,平均每个需要修改的文件不到 3 分钟。我向它提出了很多其他编程挑战,而评估这些结果的瓶颈变成了我自己的理解能力!"

令人印象深刻的多模态推理

Gemini 2.5 Pro 在非结构化文本、图像和视频方面也表现出色。例如,我向它提供了我最近关于基于采样搜索的文章,并要求它创建一个描述文中算法的 SVG 图形。Gemini 2.5 Pro 正确地提取了文章中的关键信息,并为采样和搜索过程创建了一个流程图,甚至准确地呈现了条件步骤。(相比之下,同样的任务使用 Claude 3.7 Sonnet 需要多次交互,而且最终达到了 token 限制。)

生成的图像有一些视觉错误(箭头位置不正确)。为了改进效果,我接着用多模态提示测试了 Gemini 2.5 Pro,给它一个渲染后的 SVG 文件截图和代码,要求它进行改进。结果令人印象深刻,它纠正了箭头的问题,并提升了图表的视觉质量。

其他用户在多模态提示方面也有类似的体验。例如,在测试中,DataCamp 复现了 Google 博客中展示的跑步游戏示例,然后将代码和游戏视频录制提供给 Gemini 2.5 Pro,并要求它对游戏代码进行一些修改。该模型能够对视觉内容进行推理,找到需要更改的代码部分,并做出正确的修改。

然而值得注意的是,与其他生成模型一样,Gemini 2.5 Pro 也可能出错,比如修改不相关的文件和代码段。指令越精确,模型出错的风险就越低。

具有实用推理过程的数据分析

最后,我用我典型的混乱数据分析测试来评估 Gemini 2.5 Pro 的推理能力。我提供了一个包含从雅虎财经不同股票历史页面复制粘贴的纯文本和原始 HTML 数据混合文件。然后要求它计算从 2024 年 1 月到文件中最新日期,每月初投资 140 美元,平均分配到"超级七巨头"股票的投资组合价值。

模型正确识别了文件中需要的股票(亚马逊、苹果、英伟达、微软、特斯拉、Alphabet 和 Meta),从 HTML 数据中提取金融信息,并根据每月初的股票价格计算每次投资的价值。它以格式良好的表格形式呈现了每月的股票和投资组合价值,并提供了整个投资在期末的总价值明细。

更重要的是,我发现其推理过程非常实用。虽然不清楚 Google 是否展示 Gemini 2.5 Pro 的原始思维链 (CoT) token,但推理过程非常详细。你可以清楚地看到模型是如何对数据进行推理、提取不同信息片段,并在生成答案前计算结果的。这有助于排查模型的行为,并在其犯错时引导它朝正确的方向发展。

企业级推理?

关于 Gemini 2.5 Pro 的一个担忧是,它只能在推理模式下使用,这意味着即使对于可以直接回答的非常简单的提示,模型也会经历"思考"过程。

Gemini 2.5 Pro 目前处于预览版阶段。一旦完整模型发布并公布定价信息,我们将更好地了解基于该模型构建企业应用的成本。不过,随着推理成本持续下降,我们可以期待它在规模化应用中变得更加实用。

最新文章
CF活动助手2024cf活动助手手机版「CF活动助手2024」
CF活动助手2024是一款很好用的软件,在其中会有很多的实用功能,用户可以在其中找到自己所有想要的功能,让你的时间能够大大的缩减,节省用户宝贵的时间,方便用户的操作。1、所有的功能都是可以直接免费使用的,点击之后就可以使用。2、会
米家行车记录仪1s很垃圾?小米行车记录仪1s怎么样小米1s手机怎么样「米家行车记录仪1s很垃圾?小米行车记录仪1s怎么样」
小米产品一直以性价比和口碑著称,而行车记录仪市场竞争日益激烈,小米参与进来,米家行车记录仪1s的问世无异于加大了竞争。小米行车记录仪产品多,质量也好,但有人吐槽说米家行车记录仪1s很垃圾,这是怎么回事?小米行车记录仪1s怎么样?
方舟生存进化手机版怎么给恐龙留痕方舟手机版「方舟生存进化手机版怎么给恐龙留痕」
方舟生存进化留痕是什么意思?留痕是方舟生存进化恐龙婴儿时期的1个任务,完成后可以增加恐龙宝宝的属性值,那么该怎么留痕呢?下面具体给大家介绍一下方舟生存进化留痕值的获得方法。方舟生存进化留痕方法介绍 留痕简单来讲就是恐龙婴儿时
炉石传说盒子掌上助手炉石传说盒子手机版「炉石传说盒子掌上助手」
炉石传说盒子掌上助手是一款由网易官方专为炉石传说玩家打造的游戏辅助软件,旨在帮助玩家提升游戏体验,提供一站式的游戏服务。炉石传说盒子掌上助手支持PC端和手机端互通,玩家可以随时随地查看自己的游戏数据和信息。软件界面简洁明了,
首页>《旧友》 第19章晋江手机「首页>《旧友》 第19章」
网友:酱油铺子 打分:2 [2015-05-04 16:28:37]之前看评论好多人吐槽方家的态度,看完这两章,感觉沉浮也不是什么好东西,迟早要崩和你推一把让他闪崩是两码事情,这个理由并不能洗清沉浮手上的罪恶。【多少散户要跳楼你知道咩?而且毫无意
红手指qq飞车手游云游戏无限时长在线云玩不排队!!手机云游戏「红手指qq飞车手游云游戏无限时长在线云玩不排队!!」
qq飞车手游云游戏怎么玩?能玩指qq飞车手游的云游戏软件不少,但本期为大家分享的红手指妄想山海云游戏平台,不仅支持qq飞车云游戏无限时长云玩,不排队!还可以支持云游戏qq飞车手游24小时云端托管快速刷金币,更有安卓、ios、pc多端畅玩q
【智慧交通】快速解决交通卡充值及激活!手机一卡通「【智慧交通】快速解决交通卡充值及激活!」
如今, 随着技术的不断更新, 公交买票乘车的方式越来越多, 目前常州主要分为: 投币族(投硬币或纸币)、 刷卡族(龙城通、江苏交通一卡通实体卡)、 扫码族(二维码支付)、手机族(江苏交通一卡通NFC卡)。 您属于哪一类? 除了投币,
手机铃声如何设置歌曲 华为手机设置本地音乐为闹铃铃声步骤蓝莓手机「手机铃声如何设置歌曲 华为手机设置本地音乐为闹铃铃声步骤」
  随着手机功能的不断升级,手机铃声的设置也变得更加多样化和个性化,在华为手机上,用户可以将本地音乐设置为闹铃铃声,让每天的起床变得更加愉悦和个性化。设置步骤简单易行,只需几个简单的操作,就可以让自己喜欢的歌曲成为闹铃的音
领克EM-P超电双子星OTA 1.8.0正式发布 新增20+项功能
易车讯 日前, EM-P和08 EM-P迎来OTA 1.8.0版本升级。本次双车总计升级新增20+项功能,优化60+项体验,实现“iOS+安卓”全手机品牌生态互联体验,适配10个主流手机品牌、588款手机型号。同时,EM-P超电双子星全系开放智驾版可选,在保证L2
星露谷物语手机版安卓本体和smapi星露谷物语手机版「星露谷物语手机版安卓本体和smapi」
链接:https://pan.quark.cn/s/28df8c5ef3c3提取码:nd3M(如果出现其他问题去b站看详细的,我这几张图解释不完全,进行到安装mod那时再删原版等东西,保留也行,加装mod后如果手机配置不行可能进存档要一些时间,配置不行的进存档时不要点
相关文章
推荐文章
发表评论
0评