
文生图模型最近几年的发展真是太快了。
从一开始的 Midjourney、SD,再到现在各种开源模型百花齐放,技术进步的速度让人目不暇接。
但在这个赛道上,有一个痛点一直困扰着很多人:要想用好的开源模型,要么需要昂贵的显卡,要么生成速度太慢,要么在文字渲染、长文本处理上表现不佳。
很多设计师、创作者、开发者都在寻找一个平衡点:既能有高质量的生成效果,又不需要太高的硬件门槛,还能处理文字渲染这种常见需求。
特别是在做海报、表情包、漫画这类需要精确文字的内容时,很多模型都让人头疼。
最近,百度开源了一款新的文生图模型:ERNIE-Image。

这个模型在多个维度上都做到了兼顾,让我们一起来看看它究竟有什么厉害之处。
ERNIE-Image 是百度的开源文本到图像生成模型。
它基于单一流的 Diffusion Transformer (DiT) 架构,并且配套了一个轻量级的 Prompt Enhancer,可以把简短的用户输入扩展成更丰富的结构化描述。
最让人惊讶的是,这个模型只有 8B 的 DiT 参数,却能在多个基准测试中取得开源文生图模型中的顶级表现。
而且,它完全开源,可商用,普通消费者的 24G 显存显卡就能跑起来。
尽管只有 8B 的参数量,ERNIE-Image 在多个基准测试中的表现都非常出色,完全可以和那些参数量大得多的开源模型相媲美。
根据官方的 GenEval 基准测试,ERNIE-Image 在单对象、双对象、计数、颜色、位置、属性绑定等多个维度上都名列前茅,整体得分甚至超过了 Qwen-Image 和 FLUX.2-klein-9B。

这绝对是 ERNIE-Image 的一大杀器。
在 LongTextBench 基准测试中,它的表现非常突出,在英文和中文长文本渲染上都取得了很高的分数。

无论是密集排版、长文本还是对布局敏感的文字内容,它都能稳定输出高可读性的结果。对于做海报、信息图、UI 类图片这类文字密集的视觉内容来说,这简直是刚需。
ERNIE-Image 能够可靠地遵循涉及多个对象、详细关系和知识密集型描述的复杂提示词。
这意味着你可以给出非常具体、细致的需求,它都能准确理解并执行。
对于海报、漫画、故事板、多格构图这类有明确结构要求的视觉任务,ERNIE-Image 特别擅长。这些场景往往需要精确的布局控制,而它在这方面表现出色。
ERNIE-Image 支持多种风格的图像生成,包括写实摄影、设计导向的图像和独特的风格化美学。无论是想要真实照片的质感,还是想要插画、漫画的风格,它都能满足。
ERNIE-Image 提供了两个版本,用户可以根据自己的需求选择:
ERNIE-Image 提供了多种使用方式,用户可以根据自己的技术栈和需求选择:
首先安装最新版本的 diffusers:
pip install git+https://github.com/huggingface/diffusers
cd diffusers
pip install -e .然后就可以开始使用了,使用 ERNIE-Image(50步):
import torch
from diffusers import ErnieImagePipeline
pipe = ErnieImagePipeline.from_pretrained(
"baidu/ERNIE-Image",
torch_dtype=torch.bfloat16,
).to("cuda")
image = pipe(
prompt="一只黑白相间的中华田园犬",
height=1024,
width=1024,
num_inference_steps=50,
guidance_scale=4.0,
use_pe=True
).images[0]
image.save("output.png")如果想要更快的生成速度,可以使用 ERNIE-Image-Turbo(8步):
pipe = ErnieImagePipeline.from_pretrained(
"baidu/ERNIE-Image-Turbo",
torch_dtype=torch.bfloat16,
).to("cuda")
image = pipe(
prompt="一只黑白相间的中华田园犬",
height=1024,
width=1024,
num_inference_steps=8,
guidance_scale=1.0,
use_pe=True
).images[0]SGLang 提供了两种部署方式:
方法 1:一起部署 ERNIE-Image 和 Prompt Enhancer (PE)
首先安装 sglang:
git clone https://github.com/sgl-project/sglang.git启动服务器:
sglang serve --model-path baidu/ERNIE-Image然后发送生成请求:
curl -X POST http://localhost:30000/v1/images/generations \
-H "Content-Type: application/json" \
-d '{
"prompt": "一只黑白相间的中华田园犬",
"height": 1024,
"width": 1024,
"num_inference_steps": 50,
"guidance_scale": 4.0
}' \
--output output.png方法 2:分开部署以提升 PE 推理速度
你也可以选择分开部署 ERNIE-Image 和 Prompt Enhancer,这样可以进一步提升 PE 的推理速度。
方式三:ComfyUI(适合图形化操作)
最新版本的 ComfyUI 现在已经支持 ERNIE-Image 了,你可以在 ComfyUI 中找到 ERNIE-Image-Turbo 的工作流模板,用图形化的方式进行创作。
在 AI 生图这个竞争激烈的赛道上,ERNIE-Image 凭借着均衡的表现脱颖而出。
对于创作者来说,这是一个非常好的消息。你不需要投入太多硬件成本,就能获得高质量的文生图能力,特别是在文字渲染这个痛点上,它的表现尤其突出。
如果你正在寻找一个好用的开源文生图模型,不妨试试看 ERNIE-Image。无论是直接在线体验,还是自己动手部署,都能很快上手。
GitHub: https://github.com/baidu/ernie-image