分享好友 最新动态首页 最新动态分类 切换频道
继续对着OpenAI来,Google发布Veo 2、Imagen 3,Sora和DALL-E不香了
2024-12-29 23:58

作者 | Jessica
邮箱 | JessicaZhang@pingwest.com

新的一周,OpenAI技术直播迎来了第8天。今日重点是ChatGPT Search,从领衔登场的熟面孔、公司首席产品官 Kevin Weil 来看,这次发布仍以优化和完善产品功能为主。

与此同时,Google却在发布 Gemini 2.0 Flash 后继续在模型上发力,一口气推出新一代视频生成模型 Veo 2 和图片生成模型 Imagen 3,还上线了一个可玩性很高的“图生图”实验项目 Whisk。

即便已近年尾,OpenAI和Google这对老冤家依然打得火热。而从社区反响来看,今天似乎又成了一个“Google主场日”。

1

ChatGPT 搜索集成地图,全球免费开放

OpenAI今天主要带来三项AI搜索更新:

1. 搜索功能优化

ChatGPT 根据用户反馈全面提升了搜索体验,包括提升搜索速度、移动端增强和引入新的地图功能等。

• 视觉效果更丰富:

搜索结果现在支持更丰富的视觉元素和结构化信息展示。例如搜索"旧金山周末有趣的活动"时,系统会同时展示活动图片、来源链接及详细信息,让结果更加直观。用户还能直接在搜索结果中观看视频内容,不过这些并不稀奇,在Perplexity中早已实现过了。

• 移动端新增地图功能:

新增「地图」查看模式,支持用户通过 ChatGPT应用直接与地图交互,也是此次更新的最大亮点。以搜索 Mission 区墨西哥餐厅为例,点击地图上的图标即可查看餐厅图片、营业时间、露台信息及导航路径等详情。

• 默认搜索引擎的快速导航:将ChatGPT设为浏览器默认搜索引擎后,无需打开网站,通过在地址栏直接输入查询内容,即可快速调用ChatGPT并获取推荐链接。

2. 搜索功能集成高级语音模式

搜索功能已整合至高级语音模式中,支持边聊天边搜索的自然交互体验。

3. 全球免费开放

最后团队宣布,GPT搜索功能现已向所有登录的免费用户开放。用户只需登录账户即可在全球范围内的各种平台上无需付费,享受这一增强搜索体验。

1

Veo 2与Imagen 3齐发,加推创意工具Whisk

来到Google这边,直接给视频和图像生成技术来了个大升级,推出三款重磅产品:

全新视频生成模型Veo 2、升级版图像生成模型Imagen 3,以及创意实验项目Whisk。

Veo 2重塑AI视频生成:质量与控制力双突破

Google最新发布的Veo 2在AI视频生成领域取得突破性进展。无论真实感、运动表现能力,还是镜头控制都达到当之无愧的SOTA水平。不少人在看过惊艳的官方示例后表示,SORA瞬间就不香了。

核心亮点有:

1. 高质量与真实感

Veo 2在细节呈现、视觉风格和减少瑕疵方面表现出色,能够生成高达4K分辨率的视频,且时长可达数分钟,适用于广泛的场景和风格。

2. 物理与人类动态理解

Veo 2对真实世界物理原理以及人类动作与表情的细微之处有着深刻理解,显著提升了视频的真实感与自然度。

例如示例中这位穿着暗黄色防护服的科学家。冷白色实验室灯光下,她神情焦虑地调试显微镜,担忧的神情清晰可见,渲染出沉重压力的氛围。

以及下方,枫糖浆缓缓淋在松软的煎饼上,培根油脂细腻,咖啡倒入玻璃杯中冲出层次丰富的泡沫,都展示出媲美物理世界,真实诱人的画面细节。

3. 精确的镜头控制

Veo 2 深谙电影语言,支持丰富的指令细节:

• 指定风格与镜头(如“18mm镜头”生成广角效果)

• 提供电影效果(如“浅景深”聚焦主体,虚化背景)

• 精确的动态镜头控制,如低角度跟踪镜头、特写镜头等。比如镜头跟随下在马路快速漂移的汽车:

4. 减少“幻觉”现象

相较于其他视频生成模型,Veo 2在生成过程中更少出现多余的细节或“额外的手指”这类意外物体,确保输出结果更加真实可靠。

基准表现:

在实际应用评测中,通过Meta发布的MovieGenBench基准数据集的1003组提示词测试,Veo 2在人工评估中全面超越其他领先的视频生成模型。特别是在以下两个关键指标上表现突出:

• 整体偏好度评分最高

• 提示词执行准确度领先

现有局限:

尽管表现优异,Veo 2在处理高度动态或复杂场景时仍面临挑战,特别是在整个视频中保持完全一致性方面还有提升空间。Google团队表示将持续优化性能,逐步克服这些难题。

所有Veo 2生成的视频均包含SynthID不可见水印,用于标识其为AI生成,减少误导和误用风险。

目前,Veo 2的新功能已在Google Labs视频生成工具VideoFX开放,用户可前往Google Labs申请加入候补名单。未来,Veo 2计划进一步集成到YouTube Shorts等产品中,持续推动AI视频生成技术的发展。

1

Imagen 3:极致细节与风格多样性的图像生成革新

升级后的 Imagen 3 在图像质量、细节呈现、风格多样性和文字渲染方面取得了显著提升,全面超越前代模型和其他领先竞品,成为文本到图像生成领域的新标杆。

核心技术突破:

1. 高清细节的优质图像

Imagen 3 生成的图像具备丰富的细节、更明亮自然的光影效果和更专业的构图水平,有效捕捉如皮肤质感、手部细微皱纹、编织玩偶针线等复杂纹理与微小细节,同时减少视觉瑕疵,呈现更加自然精致的高保真体验。

2. 风格表现力增强

新版本在艺术风格的驾驭上实现跨越式发展,涵盖范围广泛,能满足不同创作者的需求:

• 写实风格:如风景摄影、人物肖像。

• 各种艺术风格:印象派油画、动漫、抽象画、黏土动画等。

3. 提示词理解深化

Imagen 3对自然语言提示的理解能力大幅提升,无需复杂的提示词工程即可准确执行用户意图。模型通过更丰富的训练数据标注,能准确理解长提示词中的复杂细节,并准确呈现指定的镜头角度、构图等元素。

4. 强大的文本渲染能力

AI作图此前的一大难点就是乱码和错字。如今Imagen 3 显著增强了文本渲染的准确性,也为风格化卡片、海报等应用场景提供了更多可能。

基准表现:

在严格的人工评估中,Imagen 3在视觉质量、提示词执行准确度和用户偏好度等关键指标上均创造新高。

从今天起,Imagen 3 将通过 Google Labs 的图像生成工具 ImageFX 在全球100多个国家上线。用户可访问 ImageFX亲身体验。

可以说,Imagen 3 以其卓越的细节呈现、风格多样性和强大的提示词理解能力,为创作者提供了前所未有的高质量图像生成工具,重新定义了AI在艺术、设计与创意领域的应用潜力。

1

Whisk:图像驱动的AI创意工具

除了以上两个主要模型更新,Google Labs 还推出了一个趣味十足的实验项目 Whisk。

这款工具巧妙结合了 Gemini 和 Imagen 3 技术,为创作者提供通过图像提示生成创意内容的新奇体验。

不同于传统需要输入冗长文字提示的方式,用户只需拖拽上传图片,即可分别指定主题、场景和风格,系统会自动完成元素的创意重组。还能依据兴趣选择样式,包括个性化的数字艺术品、徽章、贴纸、玩具等。

在技术实现上,Gemini 模型会先对输入的图像进行智能分析,生成详细的描述信息,并将这些描述输入 Google 最新的图像生成模型 Imagen 3,从而创作出全新的作品。

值得注意的是,Whisk 并非简单复制原图,而是着重捕捉图像的核心特征进行创意重塑。虽然生成结果可能与原图有所不同(如人物的身高、发型或细节特征),但用户可以随时查看并编辑生成的提示词,灵活调整创意方向。

更清楚的操作过程,请看VCR:

由于看起来实在好玩,我们也迫不及待试了试,让水獭做主角,宫崎骏风格的海边壁纸做背景,并且输入“角色抱着皮球玩具”的补充提示,选择徽章样式。

生成结果如下:

Google 将 Whisk 定位为一款面向快速视觉探索的创意工具,而非传统的图像编辑器。在早期测试中,艺术家与创意工作者们普遍认为这种全新的创作方式充满趣味性与创新力。

目前,Whisk已在美国市场开放测试,手痒的朋友可以马上去labs.google/whisk体验了。这也标志着Google在生成式AI创意工具探索上迈出的重要一步。

1

总结

在OpenAI今天的搜索功能直播中,虽然地图功能的加入收获了不少好评,但整体内容还是缺乏令人眼前一亮的新意。

相比之下,Google凭借Veo 2、Imagen 3 以及创意工具 Whisk 的强势推出,占尽主角光环。也再次彰显了其在生成式AI领域的强大技术实力。

从高质量的视频和图像生成到图像提示驱动的创意混合,Google通过技术创新为创作者提供了更高效、更灵活的工具,让人不得不服。

连续发布的OpenAI有些后劲不足,不过,官方预告明天OpenAI将迎来一场mini Dev Day,期待会带来真正的惊喜。

最新文章
fastposter 2.4.1 全新发布 低代码海报生成器
fastposter低代码海报生成器,一分钟完成海报开发。支持​​、​​、​​、 ​​、​​等多种语言。v2.4.1 发布 电商级海报生成器解决海报不能删除的问题升级最新依赖版本dao.py代码优化开发文档:https://poster.prodapi.cn/docs/在线体验
aso优化积分墙(aso优化积分墙怎么做)
什么是ASO?为什么要做ASO?哪些APP适合做ASO?一文解决你所有问题。一、什么是ASO?全称为App Store Optimization,即苹果应用商店优化。就是利用App Store搜索规则和排名规则,让App更容易被用户搜索或者看到的推广方法,通常我们所说的AS
AI 内容分享(十七):人工智能:发展现状和应用前景
人工智能(Artificial Intelligence,AI)是指由计算机系统或机器执行的智能行为,如学习、推理、感知、决策等。人工智能是当今科技领域最热门和最具前景的话题之一,它已经渗透到我们生活的各个方面,
EMBY家庭多媒体中心解决方案(二)
原文收集自: https://wp.gxnas.com在使用EMBY前,首先第一步要做的就是命名好你的电影名称,全部以TMDB电影数据库的命名格式为标准,也就是电影名称+上映年份,如果不会的,请到TMDB网站搜索影片名称,复制下来即可,TMDB电影数据库网站:h
DNF:7月30号后,红眼辟邪玉提升率排名发生变化,技能伤害排第二
云上长安副本出来已经有一个多月了,但还是有很多玩家不知道什么样的词条辟邪玉提升率是最高,针对这一点,旭旭宝宝找人计算了红眼不同词条辟邪玉提升率,现在结果已经出来了!之前,旭旭宝宝找人测试过红眼辟邪玉提升率,当时因为穿大幽魂
chrome扩展程序===实战案例 一键下载数据
之前一直没接触过chrome扩展开发,直到在B站上偶然看到,此案例是注入JS一键下载学习通上的考试数据,并保存为excel 主要参考B站视频案例,和chrome国内开发文档 基础文件组成就不说了,不知道的自己看官方
AI图生图如何快速生成高清图片?看这里
AI 图生图如何快速生成高清图片?看这里身为博主或刚接触 AI 的小白,你是不是满心欢喜地想用 AI 图生图功能创作一些超棒的高清图片,结果却总是不尽人意?要么生成的图片模糊不清,要么细节惨不忍睹,完全达不到自己想要的效果,辛辛苦苦
360天擎终端安全管理系统v6.0_售后ppt-整合版-20160316-v3.2.pptxVIP
December 2010;产品简介;CONTENTS;;;混合分级部署方案;……;管理的终端数;CONTENTS;双击运行“360SkylarSetup.exe”;;控制中心是天擎终端安全管理系统的核心,对终端进行管理和控制。;更新授权:点击“试用授权”再弹出的对话框点击“更新
AI生成素描画全攻略:从基础技巧到高级应用,解决所有绘画难题
随着科技的不断发展人工智能技术在艺术领域的应用日益广泛。绘画作为一种新兴的绘画形式正逐渐受到人们的关注和喜爱。本文将为您详细介绍怎么样利用生成素描画,从基础技巧到高级应用,帮助您解决绘画期间遇到的所有难题。目前市面上有多绘
ai智能问答系统 ai智能问答实操方法?
二,数据质量:ai智能问答需要靠大量的数据进行训练,并且必须是高质量的数据。如果数据中存在错误、噪声或偏差等问题,则ai智能问答的准确性将受到影响。三,自然语言处理技术:ai智能问答要解决的是自然语言理解难题。因此,使用先进的自
相关文章
推荐文章
发表评论
0评