首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >百度开源文生图模型 ERNIE-Image:8B参数跻身第一梯队,消费级显卡就能跑!

百度开源文生图模型 ERNIE-Image:8B参数跻身第一梯队,消费级显卡就能跑!

作者头像
开源星探
发布2026-05-06 10:57:02
发布2026-05-06 10:57:02
3460
举报
文章被收录于专栏:翩翩白衣少年翩翩白衣少年

文生图模型最近几年的发展真是太快了。

从一开始的 Midjourney、SD,再到现在各种开源模型百花齐放,技术进步的速度让人目不暇接。

但在这个赛道上,有一个痛点一直困扰着很多人:要想用好的开源模型,要么需要昂贵的显卡,要么生成速度太慢,要么在文字渲染、长文本处理上表现不佳。

很多设计师、创作者、开发者都在寻找一个平衡点:既能有高质量的生成效果,又不需要太高的硬件门槛,还能处理文字渲染这种常见需求。

特别是在做海报、表情包、漫画这类需要精确文字的内容时,很多模型都让人头疼。

最近,百度开源了一款新的文生图模型:ERNIE-Image

这个模型在多个维度上都做到了兼顾,让我们一起来看看它究竟有什么厉害之处。

项目介绍

ERNIE-Image 是百度的开源文本到图像生成模型。

它基于单一流的 Diffusion Transformer (DiT) 架构,并且配套了一个轻量级的 Prompt Enhancer,可以把简短的用户输入扩展成更丰富的结构化描述。

最让人惊讶的是,这个模型只有 8B 的 DiT 参数,却能在多个基准测试中取得开源文生图模型中的顶级表现。

而且,它完全开源,可商用,普通消费者的 24G 显存显卡就能跑起来。

核心亮点

1、紧凑但强大

尽管只有 8B 的参数量,ERNIE-Image 在多个基准测试中的表现都非常出色,完全可以和那些参数量大得多的开源模型相媲美。

根据官方的 GenEval 基准测试,ERNIE-Image 在单对象、双对象、计数、颜色、位置、属性绑定等多个维度上都名列前茅,整体得分甚至超过了 Qwen-Image 和 FLUX.2-klein-9B。

2、超强文字渲染能力

这绝对是 ERNIE-Image 的一大杀器。

在 LongTextBench 基准测试中,它的表现非常突出,在英文和中文长文本渲染上都取得了很高的分数。

无论是密集排版、长文本还是对布局敏感的文字内容,它都能稳定输出高可读性的结果。对于做海报、信息图、UI 类图片这类文字密集的视觉内容来说,这简直是刚需。

3、指令遵循能力出色

ERNIE-Image 能够可靠地遵循涉及多个对象、详细关系和知识密集型描述的复杂提示词。

这意味着你可以给出非常具体、细致的需求,它都能准确理解并执行。

4、结构化生成能力强

对于海报、漫画、故事板、多格构图这类有明确结构要求的视觉任务,ERNIE-Image 特别擅长。这些场景往往需要精确的布局控制,而它在这方面表现出色。

5、风格覆盖全面

ERNIE-Image 支持多种风格的图像生成,包括写实摄影、设计导向的图像和独特的风格化美学。无论是想要真实照片的质感,还是想要插画、漫画的风格,它都能满足。

两个版本:标准与 Turbo

ERNIE-Image 提供了两个版本,用户可以根据自己的需求选择:

📌 ERNIE-Image(标准版)
  • • 是经过 SFT 训练的模型,通用能力和指令遵循能力更强
  • • 需要 50 步推理
  • • CFG(Classifier-Free Guidance)为 4.0
  • • 适合追求高质量、对速度要求不那么高的场景
⚡ ERNIE-Image-Turbo(Turbo 版)
  • • 经过 DMD 和 RL 优化,速度更快,美学效果更好
  • • 仅需 8 步推理!
  • • CFG 为 1.0
  • • 适合需要快速生成、追求效率的场景

快速上手

ERNIE-Image 提供了多种使用方式,用户可以根据自己的技术栈和需求选择:

方式一:Diffusers(最简单,适合个人用户)

首先安装最新版本的 diffusers:

代码语言:javascript
复制
pip install git+https://github.com/huggingface/diffusers
cd diffusers
pip install -e .

然后就可以开始使用了,使用 ERNIE-Image(50步):

代码语言:javascript
复制
import torch
from diffusers import ErnieImagePipeline

pipe = ErnieImagePipeline.from_pretrained(
    "baidu/ERNIE-Image",
    torch_dtype=torch.bfloat16,
).to("cuda")

image = pipe(
    prompt="一只黑白相间的中华田园犬",
    height=1024,
    width=1024,
    num_inference_steps=50,
    guidance_scale=4.0,
    use_pe=True
).images[0]

image.save("output.png")

如果想要更快的生成速度,可以使用 ERNIE-Image-Turbo(8步):

代码语言:javascript
复制
pipe = ErnieImagePipeline.from_pretrained(
    "baidu/ERNIE-Image-Turbo",
    torch_dtype=torch.bfloat16,
).to("cuda")

image = pipe(
    prompt="一只黑白相间的中华田园犬",
    height=1024,
    width=1024,
    num_inference_steps=8,
    guidance_scale=1.0,
    use_pe=True
).images[0]
方式二:SGLang(适合服务端部署)

SGLang 提供了两种部署方式:

方法 1:一起部署 ERNIE-Image 和 Prompt Enhancer (PE)

首先安装 sglang:

代码语言:javascript
复制
git clone https://github.com/sgl-project/sglang.git

启动服务器:

代码语言:javascript
复制
sglang serve --model-path baidu/ERNIE-Image

然后发送生成请求:

代码语言:javascript
复制
curl -X POST http://localhost:30000/v1/images/generations \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "一只黑白相间的中华田园犬",
    "height": 1024,
    "width": 1024,
    "num_inference_steps": 50,
    "guidance_scale": 4.0
  }' \
  --output output.png

方法 2:分开部署以提升 PE 推理速度

你也可以选择分开部署 ERNIE-Image 和 Prompt Enhancer,这样可以进一步提升 PE 的推理速度。

方式三:ComfyUI(适合图形化操作)

最新版本的 ComfyUI 现在已经支持 ERNIE-Image 了,你可以在 ComfyUI 中找到 ERNIE-Image-Turbo 的工作流模板,用图形化的方式进行创作。

写在最后

在 AI 生图这个竞争激烈的赛道上,ERNIE-Image 凭借着均衡的表现脱颖而出。

对于创作者来说,这是一个非常好的消息。你不需要投入太多硬件成本,就能获得高质量的文生图能力,特别是在文字渲染这个痛点上,它的表现尤其突出。

如果你正在寻找一个好用的开源文生图模型,不妨试试看 ERNIE-Image。无论是直接在线体验,还是自己动手部署,都能很快上手。

GitHub: https://github.com/baidu/ernie-image

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 开源星探 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 项目介绍
  • 核心亮点
    • 1、紧凑但强大
    • 2、超强文字渲染能力
    • 3、指令遵循能力出色
    • 4、结构化生成能力强
    • 5、风格覆盖全面
  • 两个版本:标准与 Turbo
    • 📌 ERNIE-Image(标准版)
    • ⚡ ERNIE-Image-Turbo(Turbo 版)
  • 快速上手
    • 方式一:Diffusers(最简单,适合个人用户)
    • 方式二:SGLang(适合服务端部署)
  • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档