Google Whisk 是 Google Labs 于2024年12月推出的实验性 AI 工具,专为创意视觉探索设计。与传统的文本驱动图像生成工具不同,Whisk 使用图像作为提示,允许用户通过拖放主体、场景和风格三种图像输入,生成独特的图像或通过 Whisk Animate 功能生成8秒视频(使用 Veo 2 模型)。它利用 Gemini 生成描述性字幕,结合 Imagen 3 生成图像,捕捉输入的精髓而非精确复制,适合艺术家、设计师和创意人士,在美国及部分国家免费使用。
核心功能
- 图像提示生成:拖放主体、场景和风格图像,生成全新视觉内容。
- Whisk Animate:将图像输入转为8秒视频,含 Veo 2 水印。
- AI 字幕生成:Gemini 自动为输入图像生成详细字幕,供 Imagen 3 处理。
- 创意混搭:输出捕捉输入精髓,支持主体、场景和风格的创新组合。
- 可编辑提示:用户可查看和调整 AI 生成的字幕,优化输出结果。
- 分享与存储:通过公开链接分享作品,历史生成记录保存在“我的库”中。
特点与优势
- 直观创意:图像提示简化创作流程,适合非技术用户。
- 快速原型:支持快速生成多种视觉变体,助力创意探索。
- 灵活输出:通过输入混搭生成多样化结果,激发意外创意。
- 免费使用:公测阶段免费,面向18岁以上用户,鼓励反馈。
- 用户控制:可编辑提示和重混选项,确保输出贴近创意意图。
- 局限性:输出可能与输入有差异(如主体特征变化),需调整提示。
适用场景
- 艺术家与设计师:快速原型化艺术、营销或产品设计概念。
- 内容创作者:为社交媒体和故事讲述生成独特图像或短视频。
- 创意探索:实验主体、场景和风格的新颖组合。
- 教育与学习:在艺术和设计教育中探索 AI 驱动的创意。
- 业余爱好者:无需高级技能,创作个性化图像如贴纸或数字艺术。
支持平台
- Web:通过 labs.google/whisk 访问,基于浏览器,无需安装。
- 地理限制:面向美国及部分 labs.google/fx 国家18岁以上用户,英国除外。
- 集成模型:使用 Gemini 生成字幕,Imagen 3 生成图像,Veo 2 生成视频。
- 局限性:仅支持图像输入,无纯文本提示;输出可能与预期有偏差。