日本語テキストに特化した画像生成モデルJapanese Stable Diffusionをcolabで試してみた！

2022年9月13日

近年、テキストから画像を生成する技術が盛り上がりを見せています。

最近では、「Midjourney」や「Dream Studio」などがSNSで話題となっていますが、日本語のテキストを学習させたオープンな特化モデルは登場していませんでした。

そのような中ででてきた日本語特化型のモデルをオープンに公開したのが今回試してみた「Japanese Stable Diffusion」になります。

この記事では、次のことが分かります。

Japanese Stable DiffusionのGoogle Colablatoryでの利用方法
生成できる画像について

Japanese Stable Diffusionとは

Japanese Stable Diffusionは、rinna株式会社によって作成された日本語テキストで学習したテキストから画像を生成するモデルです。

rinna株式会社は、これまでにも様々なモデルを公開しています。

それらを活用してチャットボットを作ったり、モデルがどれくらいすごいのか調べたりしているので、興味のある方はこちらもご覧ください。

Japanese Stable Diffusionの使い方

では、さっそくJapanese Stable Diffusionの使い方をみていきましょう。

今回は、無料で誰でもGPUが使えるGoogle Colablatoryでの使い方を見ていきます。

実行環境

Google Colablatoryの無料枠

GPU：Tesla T4

事前に準備が必要なもの

コードを実行する前に次のことを済ませておきます。

Google Colablatoryに登録
Huggingfaceに登録してアクセストークンを発行
モデルの利用規約に同意

hugging faceの登録はこちらにアクセスして「Sign Up」から登録を行ってください。

ログイン後、右上のアイコンから「Settings」→「Access Tokens」をクリックしてトークンを取得してください。

Google Colablatoryについては、こちらからログインしてください。

それから、こちらの利用規約を読んだ後に「Access repository」をクリックしてください。

Japanese Stable Diffusionのインストール

pip install git+https://github.com/rinnakk/japanese-stable-diffusion

上記のコードを実行するとインストールされます。

インポートもついでに行いましょう。

import torch
from torch import autocast
from diffusers import LMSDiscreteScheduler
from japanese_stable_diffusion import JapaneseStableDiffusionPipeline

Hugging faceにログイン

!huggingface-cli login

上記のコードを実行すると次のようなテキストが出てくるので、Token:のところにアクセストークンを入力してください。

成功すると、Login successfulと表示されます。

また、git config --global credential.helper storeを実行しようねという感じのテキストが出てくる方は、その文に従って実行しましょう。

!git config --global credential.helper store

モデルの読み込み

次にモデルを読み込みましょう。

model_id = "rinna/japanese-stable-diffusion"
device = "cuda"
scheduler = LMSDiscreteScheduler(beta_start=0.00085, beta_end=0.012, beta_schedule="scaled_linear", num_train_timesteps=1000)
pipe = JapaneseStableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, use_auth_token=True)
pipe = pipe.to(device)

パラメータ設定

#@markdown ###**Inference Setting:**
prompt = '' #@param{type: 'string'}
# 生成される画像の数
n_samples = 2 #@param{type: 'integer'}
# 画像がどの程度プロンプトに似るかを調整する
guidance_scale = 7.5 #@param {type:"number"}
# step数
steps = 150 #@param{type: 'integer'}
# 生成される画像の横幅
width = 512 #@param{type: 'integer'}
# 生成される画像の高さ
height = 512 #@param{type: 'integer'}
# 画像の生成に使用するシード
seed = 'random' #@param{type: 'string'}

画像の生成

次のコードで画像が生成できます。

if seed == "random":
    generator = None
else:
    generator = torch.Generator(device=device).manual_seed(int(seed))

with autocast(device):
    images = pipe(
        prompt=[prompt] * n_samples,
        guidance_scale=guidance_scale,
        num_inference_steps=steps,
        height=height,
        width=width,
        generator=generator
    )["sample"]

images[0]

画像の保存

画像を保存したい場合は、次のコードを実行しましょう。

images[0].save("output.png")

画像を生成してみた

日本語のテキストと画像のペアで学習させたということで、日本語特有のテキストで画像生成を行ってみました。

ぐっすり眠る赤ちゃん

ぐっすり眠っていますね。

きらきら光る星

星形になっていますが、きらきら光っていますね。

次に、食べ物も生成してみました。

天才料理家の独創的なカレー

独創的かは分かりませんが、お肉が入っていて美味しそうです。

天才料理家に作られた和食

和食っぽいですね。

まとめ

今回は日本語から画像を生成できる「Japanese Stable Diffusion」を試してみました。

触った感じ「Dream Studio」の方が良さげな画像を生成してくれる印象です。

この記事が気に入ったら
フォローしてね！

Follow @note_zan_

よかったらシェアしてね！

URLをコピーしました！

マルチモーダルAIを学ぶ上で読んでほしい書籍『深層学習からマルチモーダル情報処理へ』

「BERT/GPT-3/DALL-E 自然言語処理・画像処理・音声処理人工知能プログラミング実践入門」を読んで

「Python実践100本ノックシリーズ」を読んで｜どんな人におすすめなのか

日本語テキストに特化した画像生成モデルJapanese Stable Diffusionをcolabで試してみた！

Japanese Stable Diffusionとは

Japanese Stable Diffusionの使い方

実行環境

事前に準備が必要なもの

Japanese Stable Diffusionのインストール

Hugging faceにログイン

モデルの読み込み

パラメータ設定

画像の生成

画像の保存

画像を生成してみた

ぐっすり眠る赤ちゃん

きらきら光る星

天才料理家の独創的なカレー

天才料理家に作られた和食

まとめ

コメント

コメントするコメントをキャンセル

マルチモーダルAIを学ぶ上で読んでほしい書籍『深層学習からマルチモーダル情報処理へ』

「BERT/GPT-3/DALL-E 自然言語処理・画像処理・音声処理人工知能プログラミング実践入門」を読んで

「Python実践100本ノックシリーズ」を読んで｜どんな人におすすめなのか

マルチモーダルAIを学ぶ上で読んでほしい書籍『深層学習からマルチモーダル情報処理へ』

「BERT/GPT-3/DALL-E 自然言語処理・画像処理・音声処理 人工知能プログラミング実践入門」を読んで

「Python実践100本ノックシリーズ」を読んで｜どんな人におすすめなのか

日本語テキストに特化した画像生成モデルJapanese Stable Diffusionをcolabで試してみた！

Japanese Stable Diffusionとは

Japanese Stable Diffusionの使い方

実行環境

事前に準備が必要なもの

Japanese Stable Diffusionのインストール

Hugging faceにログイン

モデルの読み込み

パラメータ設定

画像の生成

画像の保存

画像を生成してみた

ぐっすり眠る赤ちゃん

きらきら光る星

天才料理家の独創的なカレー

天才料理家に作られた和食

まとめ

コメント

コメントする コメントをキャンセル

マルチモーダルAIを学ぶ上で読んでほしい書籍『深層学習からマルチモーダル情報処理へ』

「BERT/GPT-3/DALL-E 自然言語処理・画像処理・音声処理 人工知能プログラミング実践入門」を読んで

「Python実践100本ノックシリーズ」を読んで｜どんな人におすすめなのか

「BERT/GPT-3/DALL-E 自然言語処理・画像処理・音声処理人工知能プログラミング実践入門」を読んで

コメントするコメントをキャンセル

「BERT/GPT-3/DALL-E 自然言語処理・画像処理・音声処理人工知能プログラミング実践入門」を読んで