融合式风格迁移设计说明

文档目的

这份文档专门回答一个在参考图迁移里非常关键、但之前没有被明确写下来的问题：

当原始提示词把参考图中的主体替换成另一个对象时，系统到底应该做“直接替换”，还是应该做“自然融入”？

当前结论是：

参考图迁移 不应默认理解成“把原主体删掉，再放入一个新主体”。

更准确的定义应是：

参考图迁移 = 参考图骨架识别 + 原始内容置入 + 世界内自然重建

其中真正决定用户体验的是最后一步：

世界内自然重建

也就是让新主体像本来就属于这张图，而不是像后贴进去的图层。

一、问题背景

在已有的参考图迁移讨论中，我们已经确认：

这条链路不是纯粹的“风格词提取”。
也不是把参考图变成抽象风格标签后，再套回原始提示词。
它更接近“把原始提示词的内容置入参考图提供的模板图中”。

但在真实理解和真实生图样例里，又出现了一个更细的分歧：

如果参考图是一个衣着华丽的女子，而原始提示词是“猫”，
系统是应该直接把人删掉换成一只普通猫，
还是应该生成一只保留华丽服饰逻辑、姿态逻辑和身份感的“拟人化猫角色”？

从用户真实预期来看，后者更符合“风格迁移”的直觉。

因为用户想保留的通常不是“背景还在”，而是：

这张图为什么成立；
这张图最有辨识度的视觉重点是什么；
新主体进入后，是否仍然像同一张图、同一种叙事、同一个视觉世界里的东西。

二、核心结论

1. 默认不应采用“硬替换优先”

如果系统只做硬替换，很容易出现以下问题：

主体和服装、动作、道具、构图关系脱节；
新主体像是后期拼上去的；
参考图保留下来的只剩背景或色调；
最终结果更像“PS 替换”，不像“迁移”。

这类结果即使 technically 完成了替换，也通常不符合用户对“参考图迁移”的理解。

2. 默认应采用“融合优先”

所谓 融合优先，不是无限度美化，而是：

先识别参考图最重要的视觉重点；
再把原始提示词的主体内容按这个视觉重点重新解释；
最终让新主体在这张图里自然成立。

例如：

华丽古典女子图 + 猫
- 默认应偏向：华丽、角色化、可能拟人化的猫
- 而不是：在原图位置放一只普通四足猫
新闻主播角色图 + 白色柴犬
- 默认应偏向：主播柴犬
- 而不是：演播室桌上突然坐着一只普通狗
西游记插图 + 女高中生
- 默认应偏向：西游记视觉世界中的女高中生
- 而不是：古风背景里贴一个现代人物照

3. 这仍然不是“永远拟人化”

融合优先并不意味着永远都要把动物做成人形角色。

如果用户显式要求：

真实四足猫
不要拟人化
不要衣服
保留动物本体

那么系统就应该收紧解释空间：

保留参考图的氛围、构图、材质和叙事位置；
但不要把猫强行改写成拟人角色。

也就是说，默认规则应该是：

用户未显式限制时：融合优先
用户显式限制时：按限制收紧

三、产品语义的重新定义

为了避免系统实现偏向“机械替换”，建议把参考图迁移的产品语义重新定义为：

参考图提供视觉世界与模板骨架，原始提示词提供要置入的核心内容，系统负责让新内容在这个视觉世界中自然成立。

这里有三个关键词：

1. 视觉世界

不仅仅是“画风”，还包括：

角色身份感
服装逻辑
场景气质
道具语言
叙事关系
世界观类型

2. 模板骨架

不仅仅是“背景还在”，而是：

构图方式
角色位
前后景关系
版式逻辑
姿态语言
媒介表现方式

3. 自然成立

新主体进入后，应让用户感觉：

这是同一张图的变体
不是另一张图借了点配色
更不是后贴进来的外来物

四、迁移时应先识别什么

参考图迁移不应一上来就替换主体，而应先识别参考图的 视觉重点。

建议把视觉重点划分为以下五类。

1. 角色造型重点

包括：

服装
发型
姿态
身份感
人设逻辑
角色外观风格

这类图片里，新主体通常要吸收原角色的“造型逻辑”。

2. 场景重点

包括：

场景环境
道具
空间关系
场景氛围
景别与机位

这类图片里，新主体通常要成为这个场景中的合理角色，而不是脱离场景的单独物件。

3. 构图重点

包括：

双视图
海报式布局
中轴构图
多角色关系位
封面感
留白关系

这类图片里，骨架本身比画风更关键。

4. 媒介重点

包括：

水墨
工笔
双重曝光
拼贴
3D 角色设定
摄影棚拍

这类图片里，新主体要先被翻译成这种媒介中的存在，而不是仅仅替换名词。

5. 叙事重点

包括：

主播
贵族肖像
角色设定卡
冒险插图
时尚大片
宣传海报

这类图片里，新主体应继承叙事角色位，而不是只继承局部视觉词。

五、建议的决策规则

1. 先判断：原始提示词是否显式覆盖某个槽位

原始提示词一旦明确写出：

主体身份
物种
数量
年龄性别
服装
道具
动作
场景
是否拟人化
是否保留真实动物形态

这些内容应视为显式覆盖项。

2. 再判断：参考图的哪些槽位是强重点

如果某个槽位是这张图成立的核心，例如：

华丽服饰
主播台身份
双视图版式
水墨叙事世界

那么即使原始提示词没有点名，也应尽量保留。

3. 最后决定采用哪种迁移方式

建议在内部按以下三种模式理解，而不是全部混在一起。

A. 直接替换

适用情况：

原始提示词和参考图主体同属同一表达范式
原始提示词显式要求保留主体本体，不要做角色化改写

例如：

一张真实产品广告图 + “把耳机换成音箱”
一张动物照 + “把金毛换成柴犬”

B. 等价融入

适用情况：

原始主体和参考主体跨物种、跨身份、跨时代
但参考图的角色逻辑、服装逻辑或身份位是强重点

例如：

华丽人物图 + 猫
主播角色图 + 柴犬
时尚模特图 + 小狐狸

这里系统应做的是“让新主体在原有角色位上成立”，不是简单替换轮廓。

C. 世界内重建

适用情况：

参考图最强的是叙事世界、媒介世界或视觉世界
原始提示词提供的是要置入的核心角色

例如：

西游记插图 + 女高中生
水墨山水图 + 机器人
赛博都市双重曝光图 + 男孩侧脸

这里不应只学风格词，而是要让新主体成为这个视觉世界中的合理存在。

六、推荐的默认偏置

建议系统默认偏置为：

1. 融合优先，而不是剪贴替换优先

如果用户没有明确限制：

优先让主体继承参考图的角色位、服饰逻辑、姿态逻辑和叙事位置；
让结果看起来像同一张图的自然变体。

2. 完整性优先，而不是字面替换优先

如果“字面替换”会导致图像完整性明显下降：

宁可做合理的艺术化重建；
也不要做生硬替换。

3. 原始提示词的显式要求高于默认融合

但如果用户明确要求：

不拟人化
不穿衣
保持真实动物
不保留原角色服装

则应服从原始提示词。

七、建议加入迁移契约的关键表述

如果后续要改写迁移 prompt，建议加入以下思想，而不一定逐字写成下面这样。

1. 不要把新主体当成外来物贴进原图

应明确要求模型：

输出结果必须像一张完整原生图像
不能像主体替换贴图

2. 先保留参考图的视觉重点，再做内容置入

应明确要求模型：

优先识别参考图为什么成立
区分“可替换内容”和“不可丢骨架”

3. 当参考图的服装、身份、姿态、叙事位是重点时，应优先做等价融入

应明确要求模型：

新主体应继承这些重点
不是只保留背景或色调

4. 当原始提示词显式限制主体形态时，应收紧自由解释

应明确要求模型：

用户明确反对拟人化时，不要自作主张
用户明确要求真实动物形态时，不要强行做角色化改写

5. 输出结果应像“融合后的重建指令”

最终结果不应是：

参考图风格总结
抽象的风格词堆砌
机械替换说明

而应是：

一份可以直接生成“融合后结果图”的结构化指令

八、正反例建议

以下样例适合作为后续提示词优化与低成本验证时的边界集。

正例 1：华丽人物 -> 猫

参考图：

衣着华丽的古典女子肖像

原始提示词：

一只猫

期望：

生成结果应偏华丽、角色化、可能拟人化
猫应吸收服饰感、身份感、姿态感
不应只是普通猫 + 原背景

正例 2：主播 -> 柴犬

参考图：

主播台上的角色图

原始提示词：

一只白色柴犬

期望：

应成为主播柴犬
保留主播位、服装、镜头、演播室结构

正例 3：双视图角色设定 -> 小猫

参考图：

双视图人物设定图

原始提示词：

一只橘白色的小猫，双视图角色设定图

期望：

保留双视图版式
猫进入同一种角色设定语法

正例 4：西游记插图 -> 女高中生

参考图：

古典叙事插图

原始提示词：

一名女高中生

期望：

女高中生成为这个叙事世界里的角色
保留山路、古建、笔墨、叙事关系

反例 1：用户明确禁止拟人化

参考图：

华丽人物图

原始提示词：

一只真实四足猫，不拟人化，不穿衣服

期望：

不得强行生成拟人猫
只能保留原图氛围、构图、材质感，并按真实猫重建

反例 2：用户明确覆盖服装

参考图：

西装主播角色图

原始提示词：

一只穿黄色雨衣的柯基

期望：

服装应按原始提示词改写
不能因为参考图是西装就忽略显式覆盖项

九、低成本验证建议

考虑到真实文生图成本较高，后续建议采用分层验证。

1. 第一层：文字契约验证

优先看模型输出的结构化 prompt 是否满足：

明确保留了参考图的视觉重点
没有退化成抽象风格总结
没有变成生硬的主体剪贴说明
变量聚焦在用户最可能替换的内容上

2. 第二层：多模态理解回判

可用较低成本模型做判定：

输出更像“融合重建”
还是更像“机械替换”

重点看：

主体是否继承参考图角色位
主体是否与服装、姿态、道具、场景关系一致
是否保住了版式或叙事骨架

3. 第三层：少量终验生图

只保留 2 到 3 个金样例做终验：

角色融合型
模板保留型
世界重建型

每类 1 张即可，不做大规模扩散测试。

十、结论

当前参考图迁移的真正问题，不是“替换得够不够准”，而是：

替换之后是否仍然像同一个视觉世界中的完整图像。

因此后续迁移 prompt 的优化目标，不应继续停留在：

保留风格
吸收构图
替换主体

而应更明确地收敛为：

识别参考图的视觉重点，保留不可丢的骨架，让原始提示词中的新内容以自然、连贯、世界内成立的方式完成融入。

这比“简单替换”更符合大众对参考图迁移的理解，也更接近产品真正可感知的价值。