如何提示 Grok Imagine Video 1.5

TL;DR · AI 摘要
Grok Imagine Video 1.5 是一个在美学精度和物理一致性上显著提升的视频生成模型,通过结构化提示词可生成高质量动态场景,支持多种环境与声音细节描述。
核心要点
- Grok Imagine Video 1.5 在视觉美学和物理规律遵循方面有显著提升。
- 使用包含动作、光影、声音的详细提示词能有效增强生成视频的真实感。
- 该模型支持多种场景如雨夜香港、火山森林等,并能准确模拟动态细节如火焰飘动、水流运动。
结构提纲
按章节快速跳转。
- §引言
介绍 Grok Imagine Video 1.5 模型及其在视频生成中的性能提升。
Grok Imagine Video 1.5 在美学精度和物理一致性方面实现重大突破。
提供多个视频生成案例,展示如何通过详细描述生成高质量动态画面。
模型适用于城市夜景、自然生态、室内氛围等多种复杂场景。
结合音效描述可增强视频沉浸感和真实感。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Grok Imagine Video 1.5
- 模型能力
- 美学精度提升
- 物理一致性增强
- 应用场景
- 城市夜景
- 自然生态
- 室内氛围
- 提示技巧
- 动作描述
- 光影变化
- 声音同步
金句 / Highlights
值得收藏与分享的关键句。
女人的目光缓缓从镜头移向她面前的路面。雨水持续猛烈地下着,掠过霓虹灯招牌。
美洲豹静止地站在苔藓覆盖的原木上,琥珀色的眼睛直视镜头。它的尾巴缓慢地向右扫动一次。
超级摩托车继续以全速高速过弯,膝盖滑块刮擦沥青并拖出长长的橙色火花。
标题:如何提示 Grok Imagine Video 1.5 – Replicate 博客
URL 来源:https://replicate.com/blog/grok-imagine
Markdown 内容: 我们对 Grok Imagine Video 1.5 特别兴奋。它在美学精度和物理遵循方面有了显著提升。我们运行了许多提示来测试它的实际能力,并整理了一份提示指南,帮助你更好地理解如何充分利用这个模型。
视频示例
香港,凌晨 2 点
女人的眼神缓缓从镜头移向她面前的路面。雨持续猛烈地下着,划过霓虹灯招牌。红色和绿色的霓虹倒影在湿漉漉的街道上泛起涟漪。她的连衣裙下摆随着一阵温暖的微风微微晃动。声音:大雨敲打路面和波纹金属遮阳篷的声音,霓虹灯低沉的嗡鸣声,远处摩托车引擎逐渐远去,轮胎在湿滑路面上发出的嘶嘶声。
哥斯达黎加云雾森林
美洲豹静止地站在长满苔藓的原木上,琥珀色的眼睛直视着镜头。它的尾巴缓慢地向右扫动一次。上方的光束略微移动,雾气在它周围缭绕。美洲豹的鼻孔抽动了一下,然后耳朵向前转动。声音:深林中寂静无声,远处水滴落在宽大叶子上的滴答声,猫胸腔深处传来几乎听不见的低吼,树冠高处传来一声鸟鸣。
近景,火光
一股温暖的微风缓缓穿过画面,撩起几缕头发,轻轻拂过她的脸颊,然后落下。火光照在她的皮肤上,呼吸般闪烁,投射出不断变化的阴影,掠过她的眉间。她的表情完全静止不动。声音:画面外燃烧木材的轻脆噼啪声,缓慢的呼气声,远处风的低沉呜咽声。
烛光
三支蜡烛的火焰在房间中缓慢的气流中摇曳,先向左弯曲,然后重新竖立。暖黄色的光线在亚麻布上随着每一次闪烁而波动。左侧蜡烛的灯芯升起一条细烟。蜡开始在中间蜡烛的一侧慢慢积聚并流淌下来。酒杯捕捉到每一次闪烁,形成微小的移动反射。声音:正式房间中的深沉寂静,远处某个地方钟表的轻微滴答声,燃烧灯芯的柔和噼啪声,几乎听不见的呼吸声。
从空中俯瞰冰岛
缓慢的空中推进,靠近那个站在碧绿冰川河边缘的微小红色身影。辫状水流在黑色沙滩上缓慢旋转流动。相机在下降的同时轻轻向左漂移。那个人举起一只手遮挡阳光。一层薄雾飘过镜头。声音:从机舱内听到的远处直升机旋翼的闷响,高空冰川风的呼啸声,下方融水河流的微弱轰鸣声,飞行员头戴耳机的呼吸声。
骑摩托车的人
超级摩托车以全速继续在弯道中大幅度倾斜,膝盖滑块刮擦沥青,身后留下长长的橙色火花轨迹。石墙在剧烈的运动中模糊成一片。当骑手在弯道中换挡时,摩托车排气管发出两次爆音。骑手的头盔保持在弯道最高点。声音:1000cc 超级摩托车发动机在 13,000 转/分钟时尖锐的尖叫,钛制滑块与沥青摩擦的金属刮擦声,摩托车飞驰而过时多普勒效应的轰鸣声,改装排气管在减速时的低沉爆音。
破碎的海浪
海浪完全涌起并向前倾覆,半透明的绿色浪峰折叠并以巨大的力量砸向黑色岩石。白色泡沫向上向外爆发,在瞬间悬停后回落。海雾随晨风飘过画面。水从岩石上以白色的细流迅速退去。第二个较小的海浪在后面升起。声音:巨浪撞击岩石的深沉轰鸣声,水从石头上拉回时的嘶嘶声和急流声,开阔海岸线上风的低沉呜咽声,麦克风上的海雾喷溅声。
曼谷黎明跑步
相机跟随曼谷的跑步者们,他们继续冲刺,四个人手臂和腿的动作完美同步,呼吸在清晨凉爽的空气中清晰可见。领头的跑者短暂地瞥了一眼镜头,然后迅速将注意力重新集中到前方。店铺卷帘门、停放的摩托车和路边的行人以强烈的水平运动模糊快速掠过。声音:跑步鞋拍打路面的有节奏的啪嗒声,沉重的同步呼吸声,远处摩托车的轰鸣声,早市嘈杂的模糊交谈声。
宁静的下午
这个人慢慢将手机从耳边放下,呼出一口气,让手垂落到身体一侧。他们几乎难以察觉地转头看向房间。尘埃粒子在金色光线的光束中飘荡。猫抬起头,耳朵转动。老式显像管电视闪烁了一下。薄纱窗帘在微风中轻轻摆动。声音:透过玻璃传来的远处城市交通声,厨房水龙头在画面外某处滴水,旧电视的柔和嗡鸣声,木地板的吱呀声。
希望这些示例能让你充分感受到 Grok Imagine 1.5 的潜力。
如何提示它
在对 Grok Imagine 1.5 进行大量实验后,我们总结出以下提示技巧,可以显著提升你的输出效果。
像音效设计师一样撰写“声音”部分
上面每个示例都包含一个明确的 Sound: 部分。向模型发出信号并描述你希望视频中的声音如何设计,这可能会决定最终成果的成功与否。
模糊:_Sound: 城市的声音,雨声。_
具体:_Sound: 大雨敲打波纹金属遮阳篷,霓虹灯变压器低沉的嗡鸣,远处摩托车逐渐远去,轮胎在湿路上摩擦的嘶嘶声。_
它能区分雨水落在路面和雨水落在金属上的区别。你可以尽可能详细地描述,模型会跟上你的要求。
一些特别有效的方法:“从机舱内听到”,“麦克风上的海浪飞沫”,“飞行员头戴耳机的呼吸声”,“透过玻璃传来闷响”。这些都是空间和材质线索,告诉模型需要构建怎样的音景。
使用强度修饰词
如果没有这些修饰词,模型会自行解释尺度。“波峰”是模糊的。“波峰完全升起并向前倾倒,以巨大的力量撞击下来”则更具指示性。
例如,摩托车场景之所以成功,是因为有“尖锐的高音尖叫”、“长长的橙色火花轨迹”和“火箭般掠过镜头”。去掉这些词语,你会得到一个平淡无奇的片段。
描述摄像机运动
如果你不提出运动要求,模型会保持静止,这通常是一个正确的选择,除非你指定了其他内容。固定镜头配合耐心的运动读起来比不必要的移动更具有电影感。但当你想要特定的摄像机动作时,一定要明确说明。
有效的方法包括:_缓慢推进_、_空中俯冲靠近_、_摄像机轻轻向左漂移_、_沿侧跟踪拍摄_、_锁定,静态_。冰岛片段要求“缓慢的空中推进”和“下降时摄像机轻轻向左漂移”。
保持聚焦
模型处理聚焦的提示比处理散乱的提示更好。眼睛场景只有三句话:微风吹动头发,光线闪烁,表情保持静止。蜡烛场景为每支蜡烛赋予了各自的微小动作。你可以专注于某些物体,同时让构图中的其他元素保持静止或淡化。
从图像开始
使用 Video 1.5 的最佳方式是从你已经调整好的静态图像开始。使用任何图像生成器(如 Grok Imagine Image)或你自己的照片来首先确定构图和光照。一旦画面看起来合适,视频提示只需说明发生了什么变化。
虹彩形态
起始图像:
抽象的3D渲染,一个大型光滑的形态——表面光滑弯曲,由透明玻璃或液态铬构成,折射出青色、品红色、金色和电光蓝色的棱镜虹彩条带,背景为纯黑色。超现实工作室灯光,物理上准确的反射和折射。

然后传递给 Video 1.5:
光滑的形态缓缓波动并呼吸,其表面像液态汞一样变化。棱镜虹彩条带——青色、品红色、金色、电光蓝色——随着形状微妙变形和重塑而流动和起伏。当表面张力变化时,光线折射方式也不同。形态几乎不可察觉地旋转。声音:深沉的共振嗡鸣,如同贝壳内部,玻璃在张力下发出的微弱水晶环响,缓慢而冥想。
侘寂室内
起始图像:
极简主义比利时侘寂风格室内。一张长而低矮的亚麻布沙发,颜色为沙色燕麦色调,靠在质感奶油石灰灰泥墙上。一张粗糙的深胡桃木咖啡桌放在抛光混凝土地板上。在内置混凝土台座上:一盏矮胖的陶瓷台灯,底座为深土棕色粘土,灯罩为柔和的米白色亚麻布,投射出温暖的低光。一条厚重的亚麻毯子不对称地搭在沙发上。没有装饰,没有杂物,没有图案。借鉴文森特·范·杜伊森和艾克塞尔·弗沃德特的建筑摄影风格。

然后传递给 Video 1.5:
下午的阳光从看不见的窗户透进来,随着时间推移慢慢转移并变暗。温暖的金黄色光束落在亚麻沙发和混凝土地板上,逐渐向右移动并变窄,随着小时接近傍晚,颜色从温暖的琥珀色变为较冷的蓝色。随着房间变暗,灯的暖光变得更加明显。角落里的阴影加深。声音:深沉的室内寂静,城市外面隐约可闻的环境嗡鸣,建筑物在冷却空气中沉降的声音。
静态图像负责构图和色彩,而视频提示负责运动。将两者分开可以使两者都更容易迭代。