docs/features/conversation/image_generation.md
文字描述一个场景,AI 就能将其变成图像——这是 DALL·E 等 AI 绘图模型带来的神奇能力。GPT Academic 集成了 OpenAI 的 DALL·E 2 和 DALL·E 3 模型,让您无需离开学术工作环境就能快速生成概念图、示意图或创意图像。无论是为演示文稿配图、可视化抽象概念,还是激发创作灵感,这个功能都能派上用场。
图片生成功能依赖 OpenAI 的图像生成 API,因此在使用前请确保:
config.py 或 config_private.py 中配置有效的 API_KEYgpt-3.5-turbo 或 gpt-4o),系统会使用该模型对应的 API 端点进行图像生成!!! warning "关于模型选择" 图片生成功能必须使用 GPT 系列模型。如果当前选择的是国产模型(如通义千问、智谱等),请先切换到 GPT 系列,否则调用图像 API 时会失败。
使用图片生成功能只需三个步骤:
首先,在输入框中输入您想要生成的图像描述。描述越具体、细节越丰富,生成的图像越接近预期。例如:
A futuristic city skyline at sunset, with flying cars and neon lights reflecting off glass skyscrapers, cyberpunk style
然后,在函数插件区找到 对话 分类,点击 🎨图片生成(DALLE2/DALLE3) 插件按钮。系统会弹出配置面板,您可以在此选择模型和参数。
最后,确认配置后等待生成完成。生成的图像会直接显示在对话区,同时保存到本地供您下载。
<!-- IMAGE: feat_conv_01_image_gen.png --> <!-- 描述: 图片生成插件的配置界面和生成结果 --> <!-- 标注: ① 输入框中的图像描述(英文)② 插件配置面板,包含模型选择和分辨率设置 ③ 对话区显示的生成结果图片 --> <!-- 尺寸建议: 1000px -->点击插件后弹出的配置面板提供了以下选项:
| 参数 | 说明 |
|---|---|
| 模型 | 选择 DALL·E 2 或 DALL·E 3,详见下方对比 |
| 分辨率 | 生成图像的尺寸,不同模型支持的选项不同 |
| 质量(仅 DALL·E 3) | standard 标准质量 或 hd 高清质量 |
| 风格(仅 DALL·E 3) | vivid 生动风格(更鲜艳、戏剧性)或 natural 自然风格(更真实、柔和) |
两个版本的 DALL·E 各有特点,您可以根据需求选择:
| 特性 | DALL·E 2 | DALL·E 3 |
|---|---|---|
| 图像质量 | 良好 | 优秀,细节更丰富 |
| 提示词理解 | 基础 | 优秀,能理解复杂描述 |
| 支持分辨率 | 256×256, 512×512, 1024×1024 | 1024×1024, 1792×1024, 1024×1792 |
| 生成速度 | 较快 | 稍慢 |
| API 费用 | 较低 | 较高 |
| 额外参数 | 无 | 支持质量和风格调节 |
选择建议:
图像生成的效果很大程度上取决于您的描述质量。以下是一些提升生成效果的技巧:
虽然系统支持中文输入,但 DALL·E 模型对英文的理解更准确。如果中文描述生成的结果不理想,尝试用英文重新描述往往能获得更好的效果。
模糊的描述会得到模糊的结果。与其说"画一只猫",不如说:
A fluffy orange tabby cat sitting on a windowsill, looking out at a rainy day, soft natural lighting, photorealistic style
明确说明您期望的艺术风格会让结果更符合预期。常用的风格描述包括:
photorealistic — 照片级写实oil painting style — 油画风格watercolor — 水彩画digital art — 数字艺术anime style — 动漫风格minimalist — 极简风格cyberpunk — 赛博朋克专业的图像往往有讲究的构图和光线。您可以在描述中加入:
..., golden hour lighting, dramatic shadows, shot from below, wide angle lens
除了从零生成图像,GPT Academic 还提供了基于 DALL·E 2 的图片修改功能( 🎨图片修改_DALLE2 插件)。这个功能允许您上传一张图片,指定需要修改的区域,然后让 AI 根据您的描述重新生成该区域的内容。
!!! info "分辨率限制" 图片修改功能仅支持 256×256、512×512 和 1024×1024 三种分辨率。上传的图片会被自动调整为正方形。
生成完成后,您将在对话区看到以下信息:
生成的图片保存在 gpt_log/image_gen/ 目录下,文件名格式为 Image{时间戳}.png,便于后续查找和使用。
???+ question "提示'请切换到GPT系列模型'" 图片生成功能必须使用 OpenAI 的 API 端点。请在界面左上角的模型下拉菜单中切换到任意 GPT 系列模型(如 gpt-3.5-turbo、gpt-4o 等)后重试。
???+ question "生成的图片与描述不符" 可能的原因和解决方法:
- 描述过于模糊:增加具体细节,如颜色、风格、光线等
- 使用了中文:尝试用英文重新描述
- 描述过长或过于复杂:简化描述,突出关键元素
- 模型局限性:某些概念模型可能无法准确理解,尝试换一种表达方式
???+ question "调用失败,提示 API 错误" 请检查:
- API Key 是否有效且有足够额度
- 网络连接是否正常(国内用户需配置代理)
- 是否超出了 API 调用频率限制
???+ question "DALL·E 3 的分辨率选项为何没有小尺寸?" 这是 OpenAI 的设定。DALL·E 3 专注于生成高质量图像,仅支持 1024 像素及以上的分辨率。如果您需要较小的图片,可以使用 DALL·E 2 或自行缩放 DALL·E 3 生成的图片。
???+ question "生成的图片能商用吗?" 根据 OpenAI 的政策,使用其 API 生成的图像版权归创建者所有,可以商用。但建议您在使用前阅读 OpenAI 最新的使用条款,并确保生成的内容符合相关法规。