Back to Prompt Optimizer

融合式风格迁移设计说明

docs/workspace/image-reference-prompt-optimization/fusion-style-migration-design.md

2.10.211.8 KB
Original Source

融合式风格迁移设计说明

文档目的

这份文档专门回答一个在参考图迁移里非常关键、但之前没有被明确写下来的问题:

  • 当原始提示词把参考图中的主体替换成另一个对象时,系统到底应该做“直接替换”,还是应该做“自然融入”?

当前结论是:

参考图迁移 不应默认理解成“把原主体删掉,再放入一个新主体”。

更准确的定义应是:

参考图迁移 = 参考图骨架识别 + 原始内容置入 + 世界内自然重建

其中真正决定用户体验的是最后一步:

世界内自然重建

也就是让新主体像本来就属于这张图,而不是像后贴进去的图层。


一、问题背景

在已有的参考图迁移讨论中,我们已经确认:

  • 这条链路不是纯粹的“风格词提取”。
  • 也不是把参考图变成抽象风格标签后,再套回原始提示词。
  • 它更接近“把原始提示词的内容置入参考图提供的模板图中”。

但在真实理解和真实生图样例里,又出现了一个更细的分歧:

  • 如果参考图是一个衣着华丽的女子,而原始提示词是“猫”,
  • 系统是应该直接把人删掉换成一只普通猫,
  • 还是应该生成一只保留华丽服饰逻辑、姿态逻辑和身份感的“拟人化猫角色”?

从用户真实预期来看,后者更符合“风格迁移”的直觉。

因为用户想保留的通常不是“背景还在”,而是:

  • 这张图为什么成立;
  • 这张图最有辨识度的视觉重点是什么;
  • 新主体进入后,是否仍然像同一张图、同一种叙事、同一个视觉世界里的东西。

二、核心结论

1. 默认不应采用“硬替换优先”

如果系统只做硬替换,很容易出现以下问题:

  • 主体和服装、动作、道具、构图关系脱节;
  • 新主体像是后期拼上去的;
  • 参考图保留下来的只剩背景或色调;
  • 最终结果更像“PS 替换”,不像“迁移”。

这类结果即使 technically 完成了替换,也通常不符合用户对“参考图迁移”的理解。

2. 默认应采用“融合优先”

所谓 融合优先,不是无限度美化,而是:

  • 先识别参考图最重要的视觉重点;
  • 再把原始提示词的主体内容按这个视觉重点重新解释;
  • 最终让新主体在这张图里自然成立。

例如:

  • 华丽古典女子图 +

    • 默认应偏向:华丽、角色化、可能拟人化的猫
    • 而不是:在原图位置放一只普通四足猫
  • 新闻主播角色图 + 白色柴犬

    • 默认应偏向:主播柴犬
    • 而不是:演播室桌上突然坐着一只普通狗
  • 西游记插图 + 女高中生

    • 默认应偏向:西游记视觉世界中的女高中生
    • 而不是:古风背景里贴一个现代人物照

3. 这仍然不是“永远拟人化”

融合优先并不意味着永远都要把动物做成人形角色。

如果用户显式要求:

  • 真实四足猫
  • 不要拟人化
  • 不要衣服
  • 保留动物本体

那么系统就应该收紧解释空间:

  • 保留参考图的氛围、构图、材质和叙事位置;
  • 但不要把猫强行改写成拟人角色。

也就是说,默认规则应该是:

  • 用户未显式限制时:融合优先
  • 用户显式限制时:按限制收紧

三、产品语义的重新定义

为了避免系统实现偏向“机械替换”,建议把参考图迁移的产品语义重新定义为:

参考图提供视觉世界与模板骨架,原始提示词提供要置入的核心内容,系统负责让新内容在这个视觉世界中自然成立。

这里有三个关键词:

1. 视觉世界

不仅仅是“画风”,还包括:

  • 角色身份感
  • 服装逻辑
  • 场景气质
  • 道具语言
  • 叙事关系
  • 世界观类型

2. 模板骨架

不仅仅是“背景还在”,而是:

  • 构图方式
  • 角色位
  • 前后景关系
  • 版式逻辑
  • 姿态语言
  • 媒介表现方式

3. 自然成立

新主体进入后,应让用户感觉:

  • 这是同一张图的变体
  • 不是另一张图借了点配色
  • 更不是后贴进来的外来物

四、迁移时应先识别什么

参考图迁移不应一上来就替换主体,而应先识别参考图的 视觉重点

建议把视觉重点划分为以下五类。

1. 角色造型重点

包括:

  • 服装
  • 发型
  • 姿态
  • 身份感
  • 人设逻辑
  • 角色外观风格

这类图片里,新主体通常要吸收原角色的“造型逻辑”。

2. 场景重点

包括:

  • 场景环境
  • 道具
  • 空间关系
  • 场景氛围
  • 景别与机位

这类图片里,新主体通常要成为这个场景中的合理角色,而不是脱离场景的单独物件。

3. 构图重点

包括:

  • 双视图
  • 海报式布局
  • 中轴构图
  • 多角色关系位
  • 封面感
  • 留白关系

这类图片里,骨架本身比画风更关键。

4. 媒介重点

包括:

  • 水墨
  • 工笔
  • 双重曝光
  • 拼贴
  • 3D 角色设定
  • 摄影棚拍

这类图片里,新主体要先被翻译成这种媒介中的存在,而不是仅仅替换名词。

5. 叙事重点

包括:

  • 主播
  • 贵族肖像
  • 角色设定卡
  • 冒险插图
  • 时尚大片
  • 宣传海报

这类图片里,新主体应继承叙事角色位,而不是只继承局部视觉词。


五、建议的决策规则

1. 先判断:原始提示词是否显式覆盖某个槽位

原始提示词一旦明确写出:

  • 主体身份
  • 物种
  • 数量
  • 年龄性别
  • 服装
  • 道具
  • 动作
  • 场景
  • 是否拟人化
  • 是否保留真实动物形态

这些内容应视为显式覆盖项。

2. 再判断:参考图的哪些槽位是强重点

如果某个槽位是这张图成立的核心,例如:

  • 华丽服饰
  • 主播台身份
  • 双视图版式
  • 水墨叙事世界

那么即使原始提示词没有点名,也应尽量保留。

3. 最后决定采用哪种迁移方式

建议在内部按以下三种模式理解,而不是全部混在一起。

A. 直接替换

适用情况:

  • 原始提示词和参考图主体同属同一表达范式
  • 原始提示词显式要求保留主体本体,不要做角色化改写

例如:

  • 一张真实产品广告图 + “把耳机换成音箱”
  • 一张动物照 + “把金毛换成柴犬”

B. 等价融入

适用情况:

  • 原始主体和参考主体跨物种、跨身份、跨时代
  • 但参考图的角色逻辑、服装逻辑或身份位是强重点

例如:

  • 华丽人物图 + 猫
  • 主播角色图 + 柴犬
  • 时尚模特图 + 小狐狸

这里系统应做的是“让新主体在原有角色位上成立”,不是简单替换轮廓。

C. 世界内重建

适用情况:

  • 参考图最强的是叙事世界、媒介世界或视觉世界
  • 原始提示词提供的是要置入的核心角色

例如:

  • 西游记插图 + 女高中生
  • 水墨山水图 + 机器人
  • 赛博都市双重曝光图 + 男孩侧脸

这里不应只学风格词,而是要让新主体成为这个视觉世界中的合理存在。


六、推荐的默认偏置

建议系统默认偏置为:

1. 融合优先,而不是剪贴替换优先

如果用户没有明确限制:

  • 优先让主体继承参考图的角色位、服饰逻辑、姿态逻辑和叙事位置;
  • 让结果看起来像同一张图的自然变体。

2. 完整性优先,而不是字面替换优先

如果“字面替换”会导致图像完整性明显下降:

  • 宁可做合理的艺术化重建;
  • 也不要做生硬替换。

3. 原始提示词的显式要求高于默认融合

但如果用户明确要求:

  • 不拟人化
  • 不穿衣
  • 保持真实动物
  • 不保留原角色服装

则应服从原始提示词。


七、建议加入迁移契约的关键表述

如果后续要改写迁移 prompt,建议加入以下思想,而不一定逐字写成下面这样。

1. 不要把新主体当成外来物贴进原图

应明确要求模型:

  • 输出结果必须像一张完整原生图像
  • 不能像主体替换贴图

2. 先保留参考图的视觉重点,再做内容置入

应明确要求模型:

  • 优先识别参考图为什么成立
  • 区分“可替换内容”和“不可丢骨架”

3. 当参考图的服装、身份、姿态、叙事位是重点时,应优先做等价融入

应明确要求模型:

  • 新主体应继承这些重点
  • 不是只保留背景或色调

4. 当原始提示词显式限制主体形态时,应收紧自由解释

应明确要求模型:

  • 用户明确反对拟人化时,不要自作主张
  • 用户明确要求真实动物形态时,不要强行做角色化改写

5. 输出结果应像“融合后的重建指令”

最终结果不应是:

  • 参考图风格总结
  • 抽象的风格词堆砌
  • 机械替换说明

而应是:

  • 一份可以直接生成“融合后结果图”的结构化指令

八、正反例建议

以下样例适合作为后续提示词优化与低成本验证时的边界集。

正例 1:华丽人物 -> 猫

参考图:

  • 衣着华丽的古典女子肖像

原始提示词:

  • 一只猫

期望:

  • 生成结果应偏华丽、角色化、可能拟人化
  • 猫应吸收服饰感、身份感、姿态感
  • 不应只是普通猫 + 原背景

正例 2:主播 -> 柴犬

参考图:

  • 主播台上的角色图

原始提示词:

  • 一只白色柴犬

期望:

  • 应成为主播柴犬
  • 保留主播位、服装、镜头、演播室结构

正例 3:双视图角色设定 -> 小猫

参考图:

  • 双视图人物设定图

原始提示词:

  • 一只橘白色的小猫,双视图角色设定图

期望:

  • 保留双视图版式
  • 猫进入同一种角色设定语法

正例 4:西游记插图 -> 女高中生

参考图:

  • 古典叙事插图

原始提示词:

  • 一名女高中生

期望:

  • 女高中生成为这个叙事世界里的角色
  • 保留山路、古建、笔墨、叙事关系

反例 1:用户明确禁止拟人化

参考图:

  • 华丽人物图

原始提示词:

  • 一只真实四足猫,不拟人化,不穿衣服

期望:

  • 不得强行生成拟人猫
  • 只能保留原图氛围、构图、材质感,并按真实猫重建

反例 2:用户明确覆盖服装

参考图:

  • 西装主播角色图

原始提示词:

  • 一只穿黄色雨衣的柯基

期望:

  • 服装应按原始提示词改写
  • 不能因为参考图是西装就忽略显式覆盖项

九、低成本验证建议

考虑到真实文生图成本较高,后续建议采用分层验证。

1. 第一层:文字契约验证

优先看模型输出的结构化 prompt 是否满足:

  • 明确保留了参考图的视觉重点
  • 没有退化成抽象风格总结
  • 没有变成生硬的主体剪贴说明
  • 变量聚焦在用户最可能替换的内容上

2. 第二层:多模态理解回判

可用较低成本模型做判定:

  • 输出更像“融合重建”
  • 还是更像“机械替换”

重点看:

  • 主体是否继承参考图角色位
  • 主体是否与服装、姿态、道具、场景关系一致
  • 是否保住了版式或叙事骨架

3. 第三层:少量终验生图

只保留 2 到 3 个金样例做终验:

  • 角色融合型
  • 模板保留型
  • 世界重建型

每类 1 张即可,不做大规模扩散测试。


十、结论

当前参考图迁移的真正问题,不是“替换得够不够准”,而是:

替换之后是否仍然像同一个视觉世界中的完整图像。

因此后续迁移 prompt 的优化目标,不应继续停留在:

  • 保留风格
  • 吸收构图
  • 替换主体

而应更明确地收敛为:

识别参考图的视觉重点,保留不可丢的骨架,让原始提示词中的新内容以自然、连贯、世界内成立的方式完成融入。

这比“简单替换”更符合大众对参考图迁移的理解,也更接近产品真正可感知的价值。