Back to Lobehub

图像与视频生成

docs/usage/getting-started/generation.zh-CN.mdx

2.2.29.0 KB
Original Source

图像与视频生成

用文字描述你想要的内容 ——LobeHub 帮你把想法变成图像和视频。产品原型、设计灵感、插图配图、动态概念、短片创作、创意探索:选择模型、设置参数,几秒钟内获得结果。所有生成内容都会出现在生成流中,可以下载或保存到你的资源库。

LobeHub 提供两个并行的工作区 ——图像视频——基于同一套生成管线,但针对各自的媒介进行了优化。

开始生成

在 LobeHub 侧边栏:

  • 点击图像(图片图标)进入 /image 的图像生成工作区。
  • 点击视频(视频图标)进入 /video 的视频生成工作区。

两个工作区采用相同的三栏布局:提示词输入、配置面板、历史生成流。

图像生成

输入提示词

在输入框中描述你想要的图像。描述越具体,结果越符合预期。

有效的提示词结构:

[主体] [风格/媒介] [场景/背景] [光线] [氛围] [技术细节]

示例:

"赛博朋克风格的未来城市天际线,日落时分,霓虹灯在湿润街道上的倒影,数字艺术,电影级光线,4K 细节"

"温馨咖啡馆室内,水彩插画风格,阳光透过窗户洒入,窗台上摆放绿植,柔和温暖的氛围"

"极简皮革钱包产品照,白色干净背景,棚拍灯光,对焦清晰,商业摄影风格"

提示词技巧:

  • 明确指定风格 — "油画"、"水彩"、"数字艺术"、"照片写实"、"动漫"、"矢量插画"
  • 描述光线 — "戏剧性阴影"、"柔和漫射光"、"黄金时段"、"棚拍灯光"
  • 指定构图 — "竖拍人像"、"广角"、"特写"、"俯拍鸟瞰"
  • 加入质量词 — "高细节"、"4K"、"对焦清晰"、"专业品质"
  • 避免模糊描述 — "漂亮"、"好看"、"不错" 对结果帮助有限 —— 要具体描述你真正想要的内容

选择 AI 模型

LobeHub 提供多个 AI 画图模型,不同模型各有所长:

模型最适合
DALL-E 3写实照片、插画、精准遵循提示词
GPT Image高保真编辑、图像内文本渲染
Flux艺术风格、创意图像、快速生成
Stable Diffusion高度可定制,支持社区风格和微调模型
Gemini Imagen真实场景,整体构图能力强
fal.ai 系列模型多种专业风格,生成速度快

用同一个提示词尝试不同模型,找到最适合你使用场景的。

参考图片(可选)

如果你有参考图片,可以上传作为生成的参考。点击上传按钮或直接拖入参考图片即可。根据模型不同,可以上传多张参考图片。

参考图片有助于模型理解你期望的风格、构图或配色方案 —— 配合提示词描述(例如替换背景、更换服饰),许多模型还支持基于参考图的编辑

配置生成参数

右侧配置面板会展示当前模型支持的全部参数。常见控件:

  • 比例(Aspect Ratio)1:116:99:164:33:2。可锁定比例或解锁自由调整。
  • 尺寸 / 分辨率 — 选择预设(512px1K2K4K),或直接设定宽 × 高。
  • 生成数量 — 一次生成 1–4 张变体。
  • 质量 — 标准 / 高清(取决于模型)。
  • Seed(随机种子) — 随机以获得多样性,或粘贴固定 seed 复现之前的结果。
  • Steps / 引导强度(CFG) — 调节速度 vs 质量、提示词遵循程度的权衡。
  • 水印 — 在支持的模型上开启或关闭。
  • 联网搜索 / 提示词扩写 — 让 LLM 在生成前为你的提示词补充最新参考信息。

比例速查:

  • 1:1 — 社交媒体发帖、头像
  • 16:9 — 宽屏、演示文稿、横幅
  • 9:16 — 手机屏幕、动态、竖屏视频
  • 4:3 — 通用用途、旧显示格式
  • 3:2 — 摄影标准、打印

查看和下载图片

图像生成完成后,会显示在生成流中。你可以:

  • 点击任意图片查看全尺寸预览
  • 下载、复制 seed、复制提示词,或在新一轮生成中复用完整参数
  • 删除单张图片或整批

视频生成

视频工作区与图像工作区结构一致 —— 同样以提示词为先、同样的配置面板、同样的生成流 —— 只是参数针对动态画面做了调整。

输入提示词

描述场景、运动和镜头,不只是主体。模型对动词和镜头语言更敏感。

"金色时分一只红狐在新鲜雪地上小跑,呼气在冷空气中清晰可见,缓慢跟拍镜头,电影感"

"宇航员漂入色彩斑斓的星云,缓慢推进镜头,梦幻氛围,柔和的体积光"

"咖啡杯被慢动作微距倒入,蒸汽升腾,浅景深,商业产品镜头"

视频提示词技巧:

  • 明确描述运动 — "缓慢跟拍"、"推进"、"手持"、"静态远景"、"向左横摇"
  • 设置时间推进 — "起初有雾随后散去"、"门缓缓打开"
  • 借用电影语言 — "浅景深"、"变形宽银幕镜头眩光"、"黄金时段"
  • 保持焦点 — 一个镜头一个核心动作往往比塞进多个动作效果更好

选择 AI 模型

LobeHub 接入了主流的文生视频与图生视频提供商:

模型最适合
OpenAI Sora 2 / Sora 2 Pro连贯的多秒镜头,强场景理解能力
Google Veo 3 / 3.1真实运动质感,原生音频生成,电影级画面
Kling V3高质量运动表现,支持图生视频和 omni-video
MiniMax Hailuo 2.3快速文生视频,表现力强的人物
Qwen / Wan文生视频,对中文提示词理解强
fal.ai 系列模型多种专业模型,出片快

不同模型支持的参数不同,切换模型时配置面板会自动更新。

起始帧与结束帧(可选)

许多视频模型支持图像条件输入:

  • 起始帧(Start Frame) —— 上传一张图作为视频的第一帧。非常适合把图像工作区生成的静帧动起来。
  • 结束帧(End Frame) —— 上传一张图作为视频的最后一帧。必须先设置起始帧。

设置起始帧后,提示词占位文案会变为"描述你想要基于该图像生成的场景"。

配置生成参数

参数因模型而异,常见包括:

  • 时长(Duration) —— 视频长度(秒),取决于模型(如 4s / 6s / 8s)。
  • 比例 —— 16:99:161:14:33:421:9
  • 分辨率 —— 480p720p1080p
  • 固定镜头(Fixed Camera) —— 锁定镜头不动,而非让模型自由运镜。
  • 生成音频(Generate Audio) —— 同步生成配音(取决于模型,例如 Veo)。
  • Seed —— 随机或固定以复现结果。
  • 水印 —— 在支持的模型上开启或关闭。
  • 联网搜索 / 提示词扩写 —— 与图像流程相同的 LLM 辅助扩写。

查看和下载视频

生成的视频会出现在生成流中并可直接内嵌播放。你可以:

  • 播放、暂停、拖动进度
  • 下载视频
  • 生成失败时复制错误信息到剪贴板
  • 删除单条视频或整批

"🎁 今日剩余 N 条免费视频"角标显示你的免费额度;用完后每次生成将按额度扣费。

获得更好结果的技巧

迭代优化提示词 —— 如果第一次的结果不够理想,每次只调整一个要素,而不是重写整个提示词。可以增加细节、改变风格词,或指定你不想要的内容。

使用参考图或起始帧 —— 上传参考能帮助模型匹配你期望的风格、配色、构图,或者 —— 对视频而言 —— 你想要的起始画面。

多变体对比 —— 一次生成多张图片,或用相同 seed + 微调提示词重生视频。AI 生成本身具有随机性 —— 不同变体的质量可能差异明显。

根据任务选模型 —— 产品照和写实场景选写实系模型(DALL-E 3、Flux、Imagen);艺术插画选风格化模型;电影感运动镜头选 Veo 或 Sora;人物为主的短片选 Kling 或 Hailuo。

串联图像 → 视频 —— 先在图像工作区生成满意的静帧,再把它作为起始帧送入视频工作区,让它动起来。

<Cards> <Card href={'/zh/docs/usage/getting-started/resource'} title={'资源库'} />

<Card href={'/zh/docs/usage/getting-started/vision'} title={'视觉与图像理解'} />

<Card href={'/zh/docs/usage/providers'} title={'AI 提供商'} /> </Cards>