百度开源文生图模型 ERNIE-Image：8B参数跻身第一梯队，消费级显卡就能跑！

开源星探

发布于 2026-05-06 10:57:02

3460

文章被收录于专栏：翩翩白衣少年翩翩白衣少年

文生图模型最近几年的发展真是太快了。

从一开始的 Midjourney、SD，再到现在各种开源模型百花齐放，技术进步的速度让人目不暇接。

但在这个赛道上，有一个痛点一直困扰着很多人：要想用好的开源模型，要么需要昂贵的显卡，要么生成速度太慢，要么在文字渲染、长文本处理上表现不佳。

很多设计师、创作者、开发者都在寻找一个平衡点：既能有高质量的生成效果，又不需要太高的硬件门槛，还能处理文字渲染这种常见需求。

特别是在做海报、表情包、漫画这类需要精确文字的内容时，很多模型都让人头疼。

最近，百度开源了一款新的文生图模型：ERNIE-Image。

这个模型在多个维度上都做到了兼顾，让我们一起来看看它究竟有什么厉害之处。

项目介绍

ERNIE-Image 是百度的开源文本到图像生成模型。

它基于单一流的 Diffusion Transformer (DiT) 架构，并且配套了一个轻量级的 Prompt Enhancer，可以把简短的用户输入扩展成更丰富的结构化描述。

最让人惊讶的是，这个模型只有 8B 的 DiT 参数，却能在多个基准测试中取得开源文生图模型中的顶级表现。

而且，它完全开源，可商用，普通消费者的 24G 显存显卡就能跑起来。

核心亮点

1、紧凑但强大

尽管只有 8B 的参数量，ERNIE-Image 在多个基准测试中的表现都非常出色，完全可以和那些参数量大得多的开源模型相媲美。

根据官方的 GenEval 基准测试，ERNIE-Image 在单对象、双对象、计数、颜色、位置、属性绑定等多个维度上都名列前茅，整体得分甚至超过了 Qwen-Image 和 FLUX.2-klein-9B。

2、超强文字渲染能力

这绝对是 ERNIE-Image 的一大杀器。

在 LongTextBench 基准测试中，它的表现非常突出，在英文和中文长文本渲染上都取得了很高的分数。

无论是密集排版、长文本还是对布局敏感的文字内容，它都能稳定输出高可读性的结果。对于做海报、信息图、UI 类图片这类文字密集的视觉内容来说，这简直是刚需。

3、指令遵循能力出色

ERNIE-Image 能够可靠地遵循涉及多个对象、详细关系和知识密集型描述的复杂提示词。

这意味着你可以给出非常具体、细致的需求，它都能准确理解并执行。

4、结构化生成能力强

对于海报、漫画、故事板、多格构图这类有明确结构要求的视觉任务，ERNIE-Image 特别擅长。这些场景往往需要精确的布局控制，而它在这方面表现出色。

5、风格覆盖全面

ERNIE-Image 支持多种风格的图像生成，包括写实摄影、设计导向的图像和独特的风格化美学。无论是想要真实照片的质感，还是想要插画、漫画的风格，它都能满足。

两个版本：标准与 Turbo

ERNIE-Image 提供了两个版本，用户可以根据自己的需求选择：

📌 ERNIE-Image（标准版）

• 是经过 SFT 训练的模型，通用能力和指令遵循能力更强
• 需要 50 步推理
• CFG（Classifier-Free Guidance）为 4.0
• 适合追求高质量、对速度要求不那么高的场景

⚡ ERNIE-Image-Turbo（Turbo 版）

• 经过 DMD 和 RL 优化，速度更快，美学效果更好
• 仅需 8 步推理！
• CFG 为 1.0
• 适合需要快速生成、追求效率的场景

快速上手

ERNIE-Image 提供了多种使用方式，用户可以根据自己的技术栈和需求选择：

方式一：Diffusers（最简单，适合个人用户）

首先安装最新版本的 diffusers：

pip install git+https://github.com/huggingface/diffusers
cd diffusers
pip install -e .

然后就可以开始使用了，使用 ERNIE-Image（50步）：

import torch
from diffusers import ErnieImagePipeline

pipe = ErnieImagePipeline.from_pretrained(
    "baidu/ERNIE-Image",
    torch_dtype=torch.bfloat16,
).to("cuda")

image = pipe(
    prompt="一只黑白相间的中华田园犬",
    height=1024,
    width=1024,
    num_inference_steps=50,
    guidance_scale=4.0,
    use_pe=True
).images[0]

image.save("output.png")

如果想要更快的生成速度，可以使用 ERNIE-Image-Turbo（8步）：

pipe = ErnieImagePipeline.from_pretrained(
    "baidu/ERNIE-Image-Turbo",
    torch_dtype=torch.bfloat16,
).to("cuda")

image = pipe(
    prompt="一只黑白相间的中华田园犬",
    height=1024,
    width=1024,
    num_inference_steps=8,
    guidance_scale=1.0,
    use_pe=True
).images[0]

方式二：SGLang（适合服务端部署）

SGLang 提供了两种部署方式：

方法 1：一起部署 ERNIE-Image 和 Prompt Enhancer (PE)

首先安装 sglang：

git clone https://github.com/sgl-project/sglang.git

启动服务器：

sglang serve --model-path baidu/ERNIE-Image

然后发送生成请求：

curl -X POST http://localhost:30000/v1/images/generations \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "一只黑白相间的中华田园犬",
    "height": 1024,
    "width": 1024,
    "num_inference_steps": 50,
    "guidance_scale": 4.0
  }' \
  --output output.png

方法 2：分开部署以提升 PE 推理速度

你也可以选择分开部署 ERNIE-Image 和 Prompt Enhancer，这样可以进一步提升 PE 的推理速度。

方式三：ComfyUI（适合图形化操作）

最新版本的 ComfyUI 现在已经支持 ERNIE-Image 了，你可以在 ComfyUI 中找到 ERNIE-Image-Turbo 的工作流模板，用图形化的方式进行创作。