docs/workspace/image-reference-prompt-optimization/fusion-style-migration-design.md
这份文档专门回答一个在参考图迁移里非常关键、但之前没有被明确写下来的问题:
当前结论是:
参考图迁移 不应默认理解成“把原主体删掉,再放入一个新主体”。
更准确的定义应是:
参考图迁移 = 参考图骨架识别 + 原始内容置入 + 世界内自然重建
其中真正决定用户体验的是最后一步:
世界内自然重建
也就是让新主体像本来就属于这张图,而不是像后贴进去的图层。
在已有的参考图迁移讨论中,我们已经确认:
但在真实理解和真实生图样例里,又出现了一个更细的分歧:
从用户真实预期来看,后者更符合“风格迁移”的直觉。
因为用户想保留的通常不是“背景还在”,而是:
如果系统只做硬替换,很容易出现以下问题:
这类结果即使 technically 完成了替换,也通常不符合用户对“参考图迁移”的理解。
所谓 融合优先,不是无限度美化,而是:
例如:
华丽古典女子图 + 猫
新闻主播角色图 + 白色柴犬
西游记插图 + 女高中生
融合优先并不意味着永远都要把动物做成人形角色。
如果用户显式要求:
真实四足猫不要拟人化不要衣服保留动物本体那么系统就应该收紧解释空间:
也就是说,默认规则应该是:
为了避免系统实现偏向“机械替换”,建议把参考图迁移的产品语义重新定义为:
参考图提供视觉世界与模板骨架,原始提示词提供要置入的核心内容,系统负责让新内容在这个视觉世界中自然成立。
这里有三个关键词:
不仅仅是“画风”,还包括:
不仅仅是“背景还在”,而是:
新主体进入后,应让用户感觉:
参考图迁移不应一上来就替换主体,而应先识别参考图的 视觉重点。
建议把视觉重点划分为以下五类。
包括:
这类图片里,新主体通常要吸收原角色的“造型逻辑”。
包括:
这类图片里,新主体通常要成为这个场景中的合理角色,而不是脱离场景的单独物件。
包括:
这类图片里,骨架本身比画风更关键。
包括:
这类图片里,新主体要先被翻译成这种媒介中的存在,而不是仅仅替换名词。
包括:
这类图片里,新主体应继承叙事角色位,而不是只继承局部视觉词。
原始提示词一旦明确写出:
这些内容应视为显式覆盖项。
如果某个槽位是这张图成立的核心,例如:
那么即使原始提示词没有点名,也应尽量保留。
建议在内部按以下三种模式理解,而不是全部混在一起。
适用情况:
例如:
适用情况:
例如:
这里系统应做的是“让新主体在原有角色位上成立”,不是简单替换轮廓。
适用情况:
例如:
这里不应只学风格词,而是要让新主体成为这个视觉世界中的合理存在。
建议系统默认偏置为:
如果用户没有明确限制:
如果“字面替换”会导致图像完整性明显下降:
但如果用户明确要求:
则应服从原始提示词。
如果后续要改写迁移 prompt,建议加入以下思想,而不一定逐字写成下面这样。
应明确要求模型:
应明确要求模型:
应明确要求模型:
应明确要求模型:
最终结果不应是:
而应是:
以下样例适合作为后续提示词优化与低成本验证时的边界集。
参考图:
原始提示词:
一只猫期望:
参考图:
原始提示词:
一只白色柴犬期望:
参考图:
原始提示词:
一只橘白色的小猫,双视图角色设定图期望:
参考图:
原始提示词:
一名女高中生期望:
参考图:
原始提示词:
一只真实四足猫,不拟人化,不穿衣服期望:
参考图:
原始提示词:
一只穿黄色雨衣的柯基期望:
考虑到真实文生图成本较高,后续建议采用分层验证。
优先看模型输出的结构化 prompt 是否满足:
可用较低成本模型做判定:
重点看:
只保留 2 到 3 个金样例做终验:
每类 1 张即可,不做大规模扩散测试。
当前参考图迁移的真正问题,不是“替换得够不够准”,而是:
替换之后是否仍然像同一个视觉世界中的完整图像。
因此后续迁移 prompt 的优化目标,不应继续停留在:
而应更明确地收敛为:
识别参考图的视觉重点,保留不可丢的骨架,让原始提示词中的新内容以自然、连贯、世界内成立的方式完成融入。
这比“简单替换”更符合大众对参考图迁移的理解,也更接近产品真正可感知的价值。