Llama-2が登場!8bit+LoRAでRLHFファインチューニングを試す方法はこちら

日本語版GPTにおけるzero shot, one shot, few shotでは、どのようにプロンプトを設定すればよいのか?いろいろと試してみた

昨今の自然言語処理の分野における進歩は著しく、今後も発展していくと考えられます。それらの流れの中でGPT-3、GLaM、LaMDAなど様々な大規模言語モデルが発表されており、これらのモデルのように大規模なモデルではそのモデルだけでいくつものタスクをこなせることが分かっています。そこで、rinna社が公開した13億のパラメータを持つGPTを用いて、どのようなプロンプトで推論すればいいのかを検証していきたいと思います。

目次

zero shot, one shot, few shotとは

zero shotとは、推論時にはタスクに関する説明のみが与えられ、例は全く与えられないケースです。

# zero shot
Translate English to Japanese:
Cheese =>

一方でone shotとは、推論時にはタスクに関する説明と1つの例が与えられるケースです。

# one shot
Translate English to Japanese:
Tomato => とまと
Cheese => 

以上の説明からも分かる通りfew shotは、推論時にはタスクに関する説明と2つ以上の例が与えられるケースのことを指します。

# few shot
Translate English to Japanese:
Tomato => とまと
Cheese => チーズ
King => 

rinnaのGPT

rinnaが公開したGPTについてはこちらにまとめています。こちらでは、ポジネガ判定・Question and Answer・足し算のタスクを試しています。

あわせて読みたい
rinna社が大規模な13億ものパラメータを持つGPTを公開!これまでのモデルサイズと性能は違うのか?zero ... これまでもGPT-2やBERTの事前学習モデルがrinna社より公開されていますが、さらに大規模なモデルが公開されたということで性能が気になります。こちらにGPTに入力するテキストを工夫することで文章生成、分類、翻訳などの出力を得ることができると書かれているので、zero shot, one shotぽいことをして性能を検証してみようと思います。

適切なプロンプトを考える

タスクは上記の記事でまだやっていない翻訳を試していきます。また、それぞれのプロンプトにおいて例を1つずつ増やしていき、10回試してどれくらい正解できるのかを見ていきます。最大で9個まで例を増やし、9個まで増やした場合の例の順番は次の通りに固定します。

"""
英語から日本語に翻訳して:
Cheese => チーズ
Apple => りんご
King => 王様
September => 9月
Winter => 冬
Night => 夜
Dog => 犬
Chair => 椅子
Car => 車
egg =>
"""

さらに、GPTに何のタスクなのかを認識させるために「英語から日本語に翻訳して」という文を入れています。今回は固定して検証していますが、この部分を変更しても精度は変化すると思います。

英語モデルと同じプロンプト

まずは英語モデルにおけるプロンプトをマネして次のように推論してみます。

"""
英語から日本語に翻訳して:
Cheese => チーズ
Apple => りんご
King => 王様
September => 9月
Winter => 冬
Night => 夜
Dog => 犬
Chair => 椅子
Car => 車
egg =>
"""

結果はこちらです。

exampleaccuracy
00
10
20
30
40.1
50.1
60.7
70.2
80.4
90.2

=>を=にしたプロンプト

=>だと何だか冗長なので=にして推論してみます。

"""
英語から日本語に翻訳して:
Cheese = チーズ
Apple = りんご
King = 王様
September = 9月
Winter = 冬
Night = 夜
Dog = 犬
Chair = 椅子
Car = 車
egg =
"""

結果はこちらです。

exampleaccuracy
00
10
20.1
30
40.5
50.7
60.8
70.4
80.4
90.2

=の両側にある空白を取り除いたプロンプト

日本語を考えたときに英語のような空白の使われ方はしてないので、思い切って=の両側にある空白を取り除いて推論してみます。

"""
英語から日本語に翻訳して:
Cheese=チーズ
Apple=りんご
King=王様
September=9月
Winter=冬
Night=夜
Dog=犬
Chair=椅子
Car=車
egg=
"""

結果はこちらです。

exampleaccuracy
00
10.9
20.7
30
40.7
50.6
61
70.6
80.8
90.6

=を→にしたプロンプト

では、=ではなく→にした場合も試してみます。

"""
英語から日本語に翻訳して:
Cheese→チーズ
Apple→りんご
King→王様
September→9月
Winter→冬
Night→夜
Dog→犬
Chair→椅子
Car→車
egg→
"""

結果はこちらです。

exampleaccuracy
00
10.5
20.3
30
40.3
50.3
60.7
70.5
80.6
90.4

日本語で関係を教えるプロンプト

日本語なのだから日本語で教えるべき!ということで=などの意味合いを日本語で教えてみます。

"""
英語から日本語に翻訳して:
Cheeseは日本語でチーズ
Appleは日本語でりんご
Kingは日本語で王様
Septemberは日本語で9月
Winterは日本語で冬
Nightは日本語で夜
Dogは日本語で犬
Chairは日本語で椅子
Carは日本語で車
eggは日本語で
"""

結果はこちらです。

exampleaccuracy
00
10.4
20
30
40.1
50.3
61
70.7
80.4
90.5

より丁寧に日本語で教えるプロンプト

さらに、丁寧な日本語で教えたらどうなるのか見てみます。

"""
英語から日本語に翻訳して:
Cheeseの日本語での意味はチーズ
Appleの日本語での意味はりんご
Kingの日本語での意味は王様
Septemberの日本語での意味は9月
Winterの日本語での意味は冬
Nightの日本語での意味は夜
Dogの日本語での意味は犬
Chairの日本語での意味は椅子
Carの日本語での意味は車
eggの日本語での意味は
"""

結果はこちらです。

exampleaccuracy
00
10.3
20.3
30
40.3
50.8
60.6
70.8
80.4
90.4

検証結果

  • 英語モデルと同じプロンプト
  • =>を=にしたプロンプト
  • =の両側にある空白を取り除いたプロンプト
  • =を→にしたプロンプト
  • 日本語で関係を教えるプロンプト
  • より丁寧に日本語で教えるプロンプト
example
0000000
1000.90.50.40.3
200.10.70.300.3
3000000
40.10.50.70.30.10.3
50.10.70.60.30.30.8
60.70.810.710.6
70.20.40.80.50.70.8
80.40.410.60.40.4
90.20.20.60.40.50.4

考察

すべてのプロンプトにおいてone shot, three shotは翻訳が全く出来ていません。理由として、one shotの場合は、そもそもタスクを認識できていないためであり、three shotの場合は、解答が9月という数字が含まれていためではないかと考えられます。また、③のプロンプトが大体のexample数において良い結果が残せているのは、日本語における空白の表現が英語の表現と違っているからではないかと感じました。つまり、英語の場合では必要でも日本語の場合は邪魔な存在だと考えられます。さらに、日本語で説明した⑤、⑥と比べて少ないexample数で良い結果が出ているのは、=という文字の説明力の方が日本語の説明力を上回ったためではないかと考えられます。この意味では、④において使っている→の説明力よりも=の説明力の方が高いと言えると思います。

まとめ

今回は、プロンプトの違いは、どのような影響を及ぼすのかを検証していきました。タスクとしては、翻訳のみの検証だったので他のタスクでも同じような結果になるとは限りません。また、毎回推論結果は変化するため実際は考察が違っていることもあり得ますので、一つの結果として見ていただければ幸いです。

この記事が気に入ったら
フォローしてね!

よかったらシェアしてね!
  • URLをコピーしました!

コメント

コメントする

目次