1419.95分登顶AI编程榜首,Gemini 2.5 Pro“I/O”版性能飙升,视频理解能力“逆天”。
谷歌史上最强编程模型来了!
智东西5月7日消息,北京时间5月6日晚,谷歌DeepMind AI研究部门正式推出Gemini 2.5 Pro “I/O”特别版,回应开发者社区对实际编程和界面设计效能的强烈需求,给全球用户提前“尝鲜”。
WebDev Arena Leaderboard基准测试最新榜单显示,自2022年底ChatGPT引爆生成式AI竞赛以来,谷歌首次在关键编程基准测试中超越Claude,实现全面领先。新版模型代号“
Gemini-2.5-pro-preview-05-06”已取代03-25版本,目前可通过Gemini API、Vertex AI、AI Studio平台获取,普通用户可以通过Gemini聊天机器人应用体验。
数据来源于Imarena.AI
新模型定价与Gemini 2.5 Pro模型相同,每百万token输入和输出费用分别为1.25美元和10美元(约合人民币9元和72元)(支持20万token上下文),相较Anthropic的Claude 3.7 Sonnet模型的3美元和15美元(约合人民币22元和108元)更具性价比。
谷歌DeepMind首席执行官戴密斯·哈萨比斯(Demis Hassabis)在海外社交媒体X平台盛赞其为“我们迄今构建的最强编程模型”。
这次的特别款是三月发布的大热模型Gemini 2.5 Pro的升级新版本,谷歌Gemini API高级产品经理Logan Kilpatrick在技术博客中确认,本次升级重点优化了函数调用功能,降低错误率并提升触发可靠性。据谷歌博客内容,Gemini 2.5 Pro“I/O”特别版在编程和构建交互式网页应用方面的能力有“显著”提升,在代码转换(即修改代码以实现特定目标)等任务上的表现也更好。
数据来源于WebDev Arena Leaderboard
博客文章中提到了Gemini 2.5 Pro“I/O”特别版在WebDev Arena Leaderboard基准测试(衡量模型创建美观且功能完备的网页应用的能力)中的表现。在最新排名中,Gemini 2.5 Pro Preview (05-06)以1419.95分超越Claude 3.7 Sonnet(1357.10分)登顶,相较前代03-25版本1272.96分的表现,新版实现了146.99分的提升。
谷歌DeepMind首席执行官哈萨比斯对此十分自豪,还狠狠“凡尔赛”了一番:
此外,本次升级最突出的能力在于根据单条文本提示生成完整交互式网页应用或模拟程序。Gemini应用内的演示显示,用户可将视觉图案或主题提示直接转化为可用代码,大幅降低设计导向型开发者的入门门槛。
Gemini 2.5 Pro“I/O”特别版在视频理解方面也具备超高性能,谷歌在其博客中称该版本在VideoMME基准测试中获得84.8%的分数,占据榜首。据谷歌官方博客透露,该模型还驱动着Gemini移动应用的Canvas画布等核心功能。
数据来源于Imarena.AI
在Gemini 95等应用中,新模型能自动统一视觉元素的风格匹配。其工作流支持将YouTube视频转化为功能完备的学习应用,并可快速生成响应式视频播放器、动态听写界面等高度风格化组件,几乎无需手动编写CSS代码。
AI编程工具企业Cursor的首席执行官Michael Truell透露,内部测试显示Gemini 2.5 Pro“I/O”特别版的工具调用失败率显著下降。目前Cursor已将Gemini 2.5 Pro集成至其code agent系统。
代码托管平台公司Replit的总裁Michele Catasta也评价称该模型是“平衡性能与延迟的最先进模型”。
虽然谷歌未公开Gemini 2.5 Pro的架构细节,但其核心目标始终是提供更快速、更直观的开发体验。通过强化代码生成和多模态输入优势,Gemini 2.5 Pro正从研究性创新转向解决实际编程挑战的生产力工具。此次提前发布让谷歌DeepMind在重大会议前满足开发者需求、保持市场势头的意图更加明确。
本文来自微信公众号“智东西”(ID:zhidxcom),作者:王涵,编辑:漠影,36氪经授权发布。
顺义消防救援支队队员正在现场参与救援。7月26日晚,密云区遭遇特大暴雨袭击,顺义区消防救援支队连夜增援密云区抗洪救灾。7月27日上午,顺义消防救援支队增援密云区高家岭村,...
7月22日,2025年《财富》中国500强排行榜发布。五粮液集团公司排名上升5位至第146位,为饮料行业中排位最高者,同时继续保持白酒行业第一。该榜单采用与《财富》世界5...
【观网财经丨智能早报 7月14日】 黄仁勋再度减持英伟达22.5万股,价值约3640万美元据人民财讯消息,在英伟达总市值突破4万亿美元之际,英伟达首席执行官黄仁勋近日再度...
文 | 赛迪智库信息化与软件产业研究所智能体概念内涵不断演进(一)智能体泛指具有感知决策能力的代理体智能体泛指能够感知环境、理解信息并作出决策与行动的代理体,它可以是软件...
一场充电宝召回危机,将安克创新和罗马仕两个充电宝品牌送到了风口浪尖。在这轮充电宝安全风波中,安克创新全球范围内连续多批次召回约两百万件充电宝,罗马仕正式发布持续6个月的停...
曾蝉联世界首富13年的微软联合创始人比尔·盖茨,10日被曝出已经跌出全球富豪排行榜前十。根据彭博亿万富豪指数排名,比尔·盖茨以1240亿美元的净资产名列第12位。有报道称...
小扎就连苹果也没有放过。刚刚,苹果基础模型团队负责人Ruoming Pang被曝加入Meta,竟因苹果内部一直探索OpenAI等模型,团队士气下滑。他的离开,让苹果AI的...
免疫力是人体重要的生理功能,一旦受损,各种疾病便会乘虚而入。身体的哪些信号说明你的免疫力正在悄然下降?如何增强免疫力?01什么是免疫力?免疫是指免疫系统的功能,主要指抵御...
(文/陈济深 编辑/张广凯) 7月2日,智谱开放平台产业生态大会在上海浦东张江科学会堂举办。智谱CEO张鹏在主题演讲中发布了智谱携手生态伙伴迈向AGI的两项最新成果:一是...
当地时间7月1日,美国国会参议院通过全面减税和支出法案,并提交众议院。美国众议院将于2日就法案进行辩论和投票。美国参议院当天上午以51比50的投票结果通过了美国总统特朗普...