谷歌推出全新多模态模型 Gemini Omni,支持通过图像、音频及文本的混合输入来生成和编辑视频。用户能以自然语言对话的方式修改视频内容,例如调整物理效果、变换角色或改变摄像机角度。目前,首个型号 Gemini Omni Flash 已通过 Gemini 应用向 Google AI Plus、Pro 和 Ultra 订阅用户开放,并同步登陆 Google Flow、YouTube Shorts 和 YouTube Create App。
该模型具备对重力、流体力学等物理规律的直观理解,并能确保在多次编辑中保持角色的一致性。为了确保内容透明度,所有生成的视频都嵌入了 SynthID 数字水印。谷歌计划在未来几周向开发者开放 API,并逐步增加图像和音频的输出支持。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END













暂无评论内容