Back to Gpt Academic

图片生成

docs/features/conversation/image_generation.md

latest7.2 KB
Original Source

图片生成

文字描述一个场景,AI 就能将其变成图像——这是 DALL·E 等 AI 绘图模型带来的神奇能力。GPT Academic 集成了 OpenAI 的 DALL·E 2 和 DALL·E 3 模型,让您无需离开学术工作环境就能快速生成概念图、示意图或创意图像。无论是为演示文稿配图、可视化抽象概念,还是激发创作灵感,这个功能都能派上用场。


前置条件

图片生成功能依赖 OpenAI 的图像生成 API,因此在使用前请确保:

  1. 已配置 OpenAI API Key:在 config.pyconfig_private.py 中配置有效的 API_KEY
  2. 切换到 GPT 系列模型:在界面左上角的模型下拉菜单中选择任意 GPT 系列模型(如 gpt-3.5-turbogpt-4o),系统会使用该模型对应的 API 端点进行图像生成
  3. 网络连接正常:如在国内使用,需确保代理配置正确

!!! warning "关于模型选择" 图片生成功能必须使用 GPT 系列模型。如果当前选择的是国产模型(如通义千问、智谱等),请先切换到 GPT 系列,否则调用图像 API 时会失败。


使用方法

基本流程

使用图片生成功能只需三个步骤:

首先,在输入框中输入您想要生成的图像描述。描述越具体、细节越丰富,生成的图像越接近预期。例如:

A futuristic city skyline at sunset, with flying cars and neon lights reflecting off glass skyscrapers, cyberpunk style

然后,在函数插件区找到 对话 分类,点击 🎨图片生成(DALLE2/DALLE3) 插件按钮。系统会弹出配置面板,您可以在此选择模型和参数。

最后,确认配置后等待生成完成。生成的图像会直接显示在对话区,同时保存到本地供您下载。

<!-- IMAGE: feat_conv_01_image_gen.png --> <!-- 描述: 图片生成插件的配置界面和生成结果 --> <!-- 标注: ① 输入框中的图像描述(英文)② 插件配置面板,包含模型选择和分辨率设置 ③ 对话区显示的生成结果图片 --> <!-- 尺寸建议: 1000px -->

配置选项详解

点击插件后弹出的配置面板提供了以下选项:

参数说明
模型选择 DALL·E 2 或 DALL·E 3,详见下方对比
分辨率生成图像的尺寸,不同模型支持的选项不同
质量(仅 DALL·E 3)standard 标准质量 或 hd 高清质量
风格(仅 DALL·E 3)vivid 生动风格(更鲜艳、戏剧性)或 natural 自然风格(更真实、柔和)

DALL·E 2 与 DALL·E 3 对比

两个版本的 DALL·E 各有特点,您可以根据需求选择:

特性DALL·E 2DALL·E 3
图像质量良好优秀,细节更丰富
提示词理解基础优秀,能理解复杂描述
支持分辨率256×256, 512×512, 1024×10241024×1024, 1792×1024, 1024×1792
生成速度较快稍慢
API 费用较低较高
额外参数支持质量和风格调节

选择建议

  • 如果只是快速验证想法或对质量要求不高,DALL·E 2 经济实惠
  • 如果需要高质量的图像用于正式用途,推荐 DALL·E 3
  • 需要非正方形图像(如横版海报、竖版手机壁纸)时,只能使用 DALL·E 3

撰写有效的图像描述

图像生成的效果很大程度上取决于您的描述质量。以下是一些提升生成效果的技巧:

使用英文描述

虽然系统支持中文输入,但 DALL·E 模型对英文的理解更准确。如果中文描述生成的结果不理想,尝试用英文重新描述往往能获得更好的效果。

描述要具体

模糊的描述会得到模糊的结果。与其说"画一只猫",不如说:

A fluffy orange tabby cat sitting on a windowsill, looking out at a rainy day, soft natural lighting, photorealistic style

指定风格

明确说明您期望的艺术风格会让结果更符合预期。常用的风格描述包括:

  • photorealistic — 照片级写实
  • oil painting style — 油画风格
  • watercolor — 水彩画
  • digital art — 数字艺术
  • anime style — 动漫风格
  • minimalist — 极简风格
  • cyberpunk — 赛博朋克

描述构图和光线

专业的图像往往有讲究的构图和光线。您可以在描述中加入:

..., golden hour lighting, dramatic shadows, shot from below, wide angle lens

图片修改功能

除了从零生成图像,GPT Academic 还提供了基于 DALL·E 2 的图片修改功能( 🎨图片修改_DALLE2 插件)。这个功能允许您上传一张图片,指定需要修改的区域,然后让 AI 根据您的描述重新生成该区域的内容。

使用步骤

  1. 准备图片:将需要修改的区域用纯白色(RGB 255,255,255)涂抹覆盖,保存为 PNG 格式
  2. 上传图片:将处理好的图片上传到系统
  3. 点击插件:选择 🎨图片修改_DALLE2 插件
  4. 按提示操作:依次输入分辨率和修改需求

!!! info "分辨率限制" 图片修改功能仅支持 256×256、512×512 和 1024×1024 三种分辨率。上传的图片会被自动调整为正方形。


输出结果

生成完成后,您将在对话区看到以下信息:

  • 中转网址预览:OpenAI 返回的临时图片链接,可直接在浏览器中打开
  • 本地文件预览:系统自动下载并保存到本地的图片

生成的图片保存在 gpt_log/image_gen/ 目录下,文件名格式为 Image{时间戳}.png,便于后续查找和使用。


常见问题

???+ question "提示'请切换到GPT系列模型'" 图片生成功能必须使用 OpenAI 的 API 端点。请在界面左上角的模型下拉菜单中切换到任意 GPT 系列模型(如 gpt-3.5-turbo、gpt-4o 等)后重试。

???+ question "生成的图片与描述不符" 可能的原因和解决方法:

- 描述过于模糊:增加具体细节,如颜色、风格、光线等
- 使用了中文:尝试用英文重新描述
- 描述过长或过于复杂:简化描述,突出关键元素
- 模型局限性:某些概念模型可能无法准确理解,尝试换一种表达方式

???+ question "调用失败,提示 API 错误" 请检查:

- API Key 是否有效且有足够额度
- 网络连接是否正常(国内用户需配置代理)
- 是否超出了 API 调用频率限制

???+ question "DALL·E 3 的分辨率选项为何没有小尺寸?" 这是 OpenAI 的设定。DALL·E 3 专注于生成高质量图像,仅支持 1024 像素及以上的分辨率。如果您需要较小的图片,可以使用 DALL·E 2 或自行缩放 DALL·E 3 生成的图片。

???+ question "生成的图片能商用吗?" 根据 OpenAI 的政策,使用其 API 生成的图像版权归创建者所有,可以商用。但建议您在使用前阅读 OpenAI 最新的使用条款,并确保生成的内容符合相关法规。


相关文档