图像与视频生成

用文字描述你想要的内容 ——LobeHub 帮你把想法变成图像和视频。产品原型、设计灵感、插图配图、动态概念、短片创作、创意探索：选择模型、设置参数，几秒钟内获得结果。所有生成内容都会出现在生成流中，可以下载或保存到你的资源库。

LobeHub 提供两个并行的工作区 ——图像与视频——基于同一套生成管线，但针对各自的媒介进行了优化。

开始生成

在 LobeHub 侧边栏：

点击图像（图片图标）进入 /image 的图像生成工作区。
点击视频（视频图标）进入 /video 的视频生成工作区。

两个工作区采用相同的三栏布局：提示词输入、配置面板、历史生成流。

图像生成

输入提示词

在输入框中描述你想要的图像。描述越具体，结果越符合预期。

有效的提示词结构：

[主体] [风格/媒介] [场景/背景] [光线] [氛围] [技术细节]

示例：

"赛博朋克风格的未来城市天际线，日落时分，霓虹灯在湿润街道上的倒影，数字艺术，电影级光线，4K 细节"

"温馨咖啡馆室内，水彩插画风格，阳光透过窗户洒入，窗台上摆放绿植，柔和温暖的氛围"

"极简皮革钱包产品照，白色干净背景，棚拍灯光，对焦清晰，商业摄影风格"

提示词技巧：

明确指定风格 — "油画"、"水彩"、"数字艺术"、"照片写实"、"动漫"、"矢量插画"
描述光线 — "戏剧性阴影"、"柔和漫射光"、"黄金时段"、"棚拍灯光"
指定构图 — "竖拍人像"、"广角"、"特写"、"俯拍鸟瞰"
加入质量词 — "高细节"、"4K"、"对焦清晰"、"专业品质"
避免模糊描述 — "漂亮"、"好看"、"不错" 对结果帮助有限 —— 要具体描述你真正想要的内容

选择 AI 模型

LobeHub 提供多个 AI 画图模型，不同模型各有所长：

模型	最适合
DALL-E 3	写实照片、插画、精准遵循提示词
GPT Image	高保真编辑、图像内文本渲染
Flux	艺术风格、创意图像、快速生成
Stable Diffusion	高度可定制，支持社区风格和微调模型
Gemini Imagen	真实场景，整体构图能力强
fal.ai 系列模型	多种专业风格，生成速度快

用同一个提示词尝试不同模型，找到最适合你使用场景的。

参考图片（可选）

如果你有参考图片，可以上传作为生成的参考。点击上传按钮或直接拖入参考图片即可。根据模型不同，可以上传多张参考图片。

参考图片有助于模型理解你期望的风格、构图或配色方案 —— 配合提示词描述（例如替换背景、更换服饰），许多模型还支持基于参考图的编辑。

配置生成参数

右侧配置面板会展示当前模型支持的全部参数。常见控件：

比例（Aspect Ratio） — 1:1、16:9、9:16、4:3、3:2。可锁定比例或解锁自由调整。
尺寸 / 分辨率 — 选择预设（512px、1K、2K、4K），或直接设定宽 × 高。
生成数量 — 一次生成 1–4 张变体。
质量 — 标准 / 高清（取决于模型）。
Seed（随机种子） — 随机以获得多样性，或粘贴固定 seed 复现之前的结果。
Steps / 引导强度（CFG） — 调节速度 vs 质量、提示词遵循程度的权衡。
水印 — 在支持的模型上开启或关闭。
联网搜索 / 提示词扩写 — 让 LLM 在生成前为你的提示词补充最新参考信息。

比例速查：

1:1 — 社交媒体发帖、头像
16:9 — 宽屏、演示文稿、横幅
9:16 — 手机屏幕、动态、竖屏视频
4:3 — 通用用途、旧显示格式
3:2 — 摄影标准、打印

查看和下载图片

图像生成完成后，会显示在生成流中。你可以：

点击任意图片查看全尺寸预览
下载、复制 seed、复制提示词，或在新一轮生成中复用完整参数
删除单张图片或整批

视频生成

视频工作区与图像工作区结构一致 —— 同样以提示词为先、同样的配置面板、同样的生成流 —— 只是参数针对动态画面做了调整。

输入提示词

描述场景、运动和镜头，不只是主体。模型对动词和镜头语言更敏感。

"金色时分一只红狐在新鲜雪地上小跑，呼气在冷空气中清晰可见，缓慢跟拍镜头，电影感"

"宇航员漂入色彩斑斓的星云，缓慢推进镜头，梦幻氛围，柔和的体积光"

"咖啡杯被慢动作微距倒入，蒸汽升腾，浅景深，商业产品镜头"

视频提示词技巧：

明确描述运动 — "缓慢跟拍"、"推进"、"手持"、"静态远景"、"向左横摇"
设置时间推进 — "起初有雾随后散去"、"门缓缓打开"
借用电影语言 — "浅景深"、"变形宽银幕镜头眩光"、"黄金时段"
保持焦点 — 一个镜头一个核心动作往往比塞进多个动作效果更好

选择 AI 模型

LobeHub 接入了主流的文生视频与图生视频提供商：

模型	最适合
OpenAI Sora 2 / Sora 2 Pro	连贯的多秒镜头，强场景理解能力
Google Veo 3 / 3.1	真实运动质感，原生音频生成，电影级画面
Kling V3	高质量运动表现，支持图生视频和 omni-video
MiniMax Hailuo 2.3	快速文生视频，表现力强的人物
Qwen / Wan	文生视频，对中文提示词理解强
fal.ai 系列模型	多种专业模型，出片快

不同模型支持的参数不同，切换模型时配置面板会自动更新。

起始帧与结束帧（可选）

许多视频模型支持图像条件输入：

起始帧（Start Frame） —— 上传一张图作为视频的第一帧。非常适合把图像工作区生成的静帧动起来。
结束帧（End Frame） —— 上传一张图作为视频的最后一帧。必须先设置起始帧。

设置起始帧后，提示词占位文案会变为"描述你想要基于该图像生成的场景"。

配置生成参数

参数因模型而异，常见包括：

时长（Duration） —— 视频长度（秒），取决于模型（如 4s / 6s / 8s）。
比例 —— 16:9、9:16、1:1、4:3、3:4、21:9。
分辨率 —— 480p、720p、1080p。
固定镜头（Fixed Camera） —— 锁定镜头不动，而非让模型自由运镜。
生成音频（Generate Audio） —— 同步生成配音（取决于模型，例如 Veo）。
Seed —— 随机或固定以复现结果。
水印 —— 在支持的模型上开启或关闭。
联网搜索 / 提示词扩写 —— 与图像流程相同的 LLM 辅助扩写。

查看和下载视频

生成的视频会出现在生成流中并可直接内嵌播放。你可以：

播放、暂停、拖动进度
下载视频
生成失败时复制错误信息到剪贴板
删除单条视频或整批

"🎁 今日剩余 N 条免费视频"角标显示你的免费额度；用完后每次生成将按额度扣费。

获得更好结果的技巧

迭代优化提示词 —— 如果第一次的结果不够理想，每次只调整一个要素，而不是重写整个提示词。可以增加细节、改变风格词，或指定你不想要的内容。

使用参考图或起始帧 —— 上传参考能帮助模型匹配你期望的风格、配色、构图，或者 —— 对视频而言 —— 你想要的起始画面。

多变体对比 —— 一次生成多张图片，或用相同 seed + 微调提示词重生视频。AI 生成本身具有随机性 —— 不同变体的质量可能差异明显。

根据任务选模型 —— 产品照和写实场景选写实系模型（DALL-E 3、Flux、Imagen）；艺术插画选风格化模型；电影感运动镜头选 Veo 或 Sora；人物为主的短片选 Kling 或 Hailuo。

串联图像 → 视频 —— 先在图像工作区生成满意的静帧，再把它作为起始帧送入视频工作区，让它动起来。