Baiduがイラストも実写風も生成できる画像生成AI「ERNIE-Image」を公開、ローカルで実行可能&ユーザーの入力に自動追記して高品質プロンプトを作る機能も

中国企業のBaidu(百度)が画像生成AIモデル「ERNIE-Image」と「ERNIE-Image-Turbo」を2026年4月15日に公開しました。両モデルは誰でもダウンロードできる状態で公開されており、高品質なイラストや実写風画像を生成できます。
Introducing ERNIE-Image
https://ernie.baidu.com/blog/posts/ernie-image/
GitHub - baidu/ERNIE-Image
https://github.com/baidu/ernie-image
ERNIE-Imageはパラメーター数80億のDiTモデルで、テキストプロンプトをもとに高品質な画像を生成することができます。ERNIE-Image-TurboはERNIE-Imageに強化学習を施して生成ステップ数を50ステップから8ステップに減らしたモデルです。
ERNIE-Imageの作例が以下。実写風画像やイラスト風画像の他に、漫画やポスターなども生成できます。

ERNIE-Imageは文字の描画を得意としているほか、複数のオブジェクトを指示通りに制御できることもアピールされています。以下はERNIE-Imageの作例で、1枚の画像の中に8種類の日本語セリフ付きスタンプが収まっています。ただし、プロンプトで「ごめんなさい」と指示されていた部分が「ごんんね」になっていたり、「楽しみ!」が「またね!」に変化していたりと複数のミスがあります。

クリックでプロンプトを展開
一张动漫插画风格的LINE表情包合集(Sticker sheet)设计图。正方形画幅,采用 4行2列 的网格布局均匀排列着8个独立的表情贴纸。背景为干净的纯白色。每个贴纸中的人物和文字外围都带有一圈白色的粗描边以及淡淡的浅灰色投影,呈现出典型的数字贴纸效果。
画面中所有贴纸的主角为同一个人物:一名日本二次元风格的可爱年轻女孩,留着棕色短波波头,有着琥珀色的大眼睛,穿着浅黄色的针织毛衣,内搭白色衬衫,领口系着红色的细丝带。
8个贴纸的具体内容自上而下、从左到右详细如下:
1. 左上角贴纸:女孩元气满满地微笑着,举起右手开心挥手打招呼。人物左侧有黄色带描边的粗体日文文字 'おはよう'。
2. 右上角贴纸:女孩闭着眼睛,脸颊泛着红晕,双手在胸前合十,表情充满感激。人物下方有粉色带描边的粗体日文文字 'ありがとう',周围飘浮着几颗粉色小爱心。
3. 第二行左侧贴纸:女孩带着温柔治愈的微笑,双手向前递出一杯冒着热气的绿茶。人物上方有绿色带描边的粗体日文文字 'お疲れ様'。
4. 第二行右侧贴纸:女孩调皮地闭起左眼做Wink,右臂向前伸出并比出“OK”的手势。人物旁边有蓝色带描边的粗体英文文字 'OK!'。
5. 第三行左侧贴纸:女孩眉头微蹙呈八字眉,双手合十放在额头前,微微低头做出抱歉的姿态,额角挂着一滴蓝色的汗珠。人物右侧有紫色带描边的粗体日文文字 'ごめんなさい'。
6. 第三行右侧贴纸:女孩双眼闪闪发光,双手握拳举在下巴处,身体微微前倾,充满期待。人物下方有橙色带描边的粗体日文文字 'よろしく'。
7. 左下角贴纸:女孩闭着眼睛,头歪向一侧,双手抱着一个白色的软枕头,脸颊旁有深蓝色的月亮和星星小图标。人物上方有深蓝色带描边的粗体日文文字 'おやすみ'。
8. 右下角贴纸:女孩开心地将双臂高高举起,嘴巴张开大笑,周围有黄色的闪亮光芒特效。人物下方有红色带描边的粗体日文文字 '楽しみ!'。
整体画风明亮、柔和、充满活力,采用日系赛璐璐平涂上色风格,色彩饱和度适中,线条清晰流畅。
一般的に画像生成AIはプロンプトを詳しく書くほど高品質な画像を生成しやすくなりますが、長いプロンプトを書くのには時間がかかるため、多くのユーザーは短文を入力して画像を生成しています。この問題を解決するべく、ERNIE-Imageには短文プロンプトに追記して長文プロンプトを生成する「プロンプトエンハンサー」が組み込まれています。以下の画像は左から順に「短文プロンプトで生成した漫画」「短文プロンプトをプロンプトエンハンサーで長文プロンプトに変換して生成した漫画」「短文プロンプトをGemini 3.1 Pro Previewで長文プロンプトに変換して生成した漫画」です。長文プロンプトに変換することで出力結果が高品質になっていることが分かります。

変換後の長文プロンプトはこんな感じ。プロンプトエンハンサーはMinistral 3Bをベースにファインチューニングされた30億パラメーターの言語モデルで、別のモデルに置き換えることも可能。ERNIE-Imageの開発を主導したJiaxiang Liu氏は「プロンプトの品質は言語モデルの品質に応じて強化されます。コミュニティがプロンプトエンハンサーをどこまで強化できるか興味深く見守っています」と述べ、今後の性能強化に期待を示しています。

ERNIE-ImageとERNIE-Image-Turboは各種ベンチマークテストでも高いスコアを記録しています。OneIG-Benchで英語プロンプトからの画像生成性能を比較したテストではZ-ImageやGPT Image 1 [High]を上回るスコアを記録しています。

ERNIE-Image-Turboを簡単に試せるデモアプリも公開されているので、実際に画像を生成してみました。まず、以下のリンクをクリックしてデモアプリにアクセスします。
ERNIE Image - a Hugging Face Space by baidu
https://huggingface.co/spaces/baidu/ERNIE-Image-Turbo

「A photorealistic scene of a twin-tailed maid sitting on the ground in a narrow back alley, casually reading a newspaper. The newspaper headline clearly reads "GIGAZINE" in bold letters.(路地裏に座り込んで新聞を読むツインテールのメイドさんの写真。新聞には『GIGAZINE』という見出しが書かれている)」というプロンプトを入力して「Generate」をクリック。

画面右側に指示通りの画像が出力されました。右下にはプロンプトエンハンサーによって追記された長文プロンプトが表示されています。

出力された画像が以下。かなり高品質です。

「A Japanese illustration of a twin-tailed maid sitting on the ground in a narrow back alley, casually reading a newspaper. The newspaper headline clearly reads "GIGAZINE" in bold letters.(路地裏に座り込んで新聞を読むツインテールのメイドさんの日本風イラスト。新聞には『GIGAZINE』という見出しが書かれている)」というプロンプトだとこんな感じ。イラスト風画像も高い品質で生成できます。

日本語で「路地裏に座り込んで新聞を読むツインテールのメイドのイラスト。新聞には『GIGAZINE』という見出しが書かれている。」と入力した結果が以下。路地裏ではなく公園のベンチになりました。日本語もある程度は対応していますがプロンプト追従性は落ちるようです。

ERNIE-ImageとERNIE-Image-Turboは以下のリンク先で無料公開されています。実行するには24GBのVRAMが必要とされています。ライセンスはApache License 2.0です。
baidu/ERNIE-Image · Hugging Face
https://huggingface.co/baidu/ERNIE-Image
baidu/ERNIE-Image-Turbo · Hugging Face
https://huggingface.co/baidu/ERNIE-Image-Turbo
また、すでにComfyUIがERNIE-Imageの実行に対応しており、モデルをダウンロードしてローカル生成することができます。
ERNIE-Image is now in ComfyUI
— ComfyUI (@ComfyUI) April 15, 2026
An open-source 8B DiT text-to-image model from @ErnieforDevs, licensed under Apache-2.0.
Key highlights:
- Open-source under Apache-2.0 license
- Precise multilingual text rendering (EN, ZH, and more)
- Complex instruction following — multi-object,… pic.twitter.com/CcVvpSZqXs
・関連記事
画像生成AIをPCで簡単に実行できる「ComfyUI」のインストール手順&最初の画像を生成するまでの手順まとめ - GIGAZINE
ついに画像生成AI「Z-Image」のベースモデルが登場、「イラストに強い」「いろんな顔や構図が出る」「追加学習にも最適」などなど - GIGAZINE
1秒未満の爆速画像生成AI「FLUX.2[klein]」が登場、VRAM13GBで家庭用PCでも動作可能 - GIGAZINE
画像生成AI「BitDance」をTikTok開発元の研究者らが公開したので使ってみた、Z-Imageより速くて高品質をアピールする自己回帰モデル - GIGAZINE
Googleが画像生成AI「Nano Banana 2」をリリース、より高速に正確な画像を生成可能に - GIGAZINE
Microsoftが画像生成AI「MAI-Image-2-Efficient」を発表、GoogleやOpenAIのモデルより安価で高速 - GIGAZINE
画像生成AI「Qwen-Image-2.0」が登場、実写と文字に強くEditモデルとの統合も果たす - GIGAZINE
・関連コンテンツ
in AI, レビュー, Posted by log1o_hf
You can read the machine translated English article Baidu has released 'ERNIE-Image,' an AI ….







