watsonx.aiのプロンプトラボでは複数の基盤モデルが提供されています。とはいえ初見ではモデルの名前を見ても特徴が分からないので各モデルの特徴をまとめました。

watsonx.aiで提供されている基盤モデル
watsonx.aiで提供(予定を含む)されている基盤モデルは以下になります。
モデル | サイズ | Instruction-tuned | アーキテクチャー | コンテキスト長 |
---|---|---|---|---|
flan-t5-xxl-11b | 11B | ○ | encoder-decoder | 4096 |
flan-ul2-20b | 20B | ○ | encoder-decoder | 4096 |
gpt-neox-20b | 20B | × | decoder-only | 8102 |
mpt-7b-instruct2 | 7B | ○ | decoder-only | 2048 |
mt0-xxl-13b | 13B | ○ | encoder-decoder | 4096 |
表の各項目の意味は以下の通りです。
サイズは基盤モデルのパラメータ数を表しています。BはBillion(10億)の略です。
現在のところサイズが大きいモデルほど性能が比例して向上するということが知られています。
Instruction-tunedは特定のタスクを解くようにモデルを学習させるのではなく、指示を含んだ入力と理想的な出力の組で構成されるデータセットを使ったチューニングのことで、未知のタスクに対して汎化するための技術です。
アーキテクチャーは学習モデルの構成を表します。いずれのモデルもTransformerという学習モデルをベースにしていて、Transformerではいくつかの構成パターンがあります。
コンテキスト長は入力と出力のトークン(単語・文字)の和の最大許容値です。コンテキスト長が大きいほど長く複雑な指示の入力や出力が可能となります。
各モデルの概要は以下の通りです。
flan-t5とflan-ul2
FLAN(Finetuned LAnguage Net)とは様々なタスクのデータセットを用いてInstruction-tuneをしたモデルを指します。つまりflan-t5とflan-ul2は、それぞれt5とul2をベースとした改良モデルです。
t5もul2もencoder-decoder構成のTransformerである学習モデルで、要約・質問応答・機械翻訳など入力と出力が強く関連を持つタスクに対して有効です。
t5はencoder-decoder構成のさきがけとも言えるモデルで、ul2のほうが新しいモデルですね。

FLANによって多数のタスクにおいてゼロショットタスク(何の前提もモデルに与えずに質問をすること)において性能の向上があったと報告されています。
mt0
mt0はmt5をファインチューニングしたモデルで、mt5(multilingual t5)は名前の通り多言語版のt5モデルです。
先程のflan-t5とflan-ul2と同じencoder-decoder構成のモデルで、多言語に対応しているモデルという立場とみなせます。モデル情報によると、mt0は日本語を含む101の言語に対応しているようです。
gpt-neox
gpt-neoxはChatGPTで有名なOpenAIが提供しているGPT-3を模したオープンソースの学習モデルです。
decoder構成の学習モデルで、入力に続くテキストを生成するタスクを得意とするモデルです。
mpt
MPT(Mosaic Pretrained Transformer)はテキストとコードをあわせた1兆個(1T)のトークンから学習したdecoder構成の学習モデルです。
通常のmptは入力に続くテキストを生成し続けるモデルであるのに対して、watsonx.aiで採用されているmpt-7b-instructは短い指示から適切な出力を出すようにファインチューニングしたモデルです。
適切な基盤モデルの選び方
学習モデルの概要を紹介しましたが、結局自分のタスクに対してどのモデルを選ぶべきかは難しい問題です。
最終的にはモデルをテストして結果を検証する必要がありますが、モデル選定のための考慮事項を最後に紹介します。
考慮事項 | 詳細 |
---|---|
ライセンス | プロプライエタリかオープンソースか |
サポートされるプログラミング言語 | コード要約や生成タスクを検討している場合はモデルの事前学習データに含まれるプログラミング言語はユースケースに合致しているか |
サポートされている言語 | 多くのモデルは英語をベースに学習しているため、ユースケースに必要な言語に対応しているか |
ファインチューニング | ファインチューニングによるカスタマイズは可能か、学習に必要なデータ量と質 |
事前学習データと日時 | 事前学習以降のデータはモデルは知らない |
運用コスト | どのGPU・チップで推論が必要か |
モデルサイズとレイテンシ | モデルサイズが大きいほど回答精度は高くなるが、推論のための計算コストも多くくなるためレイテンシも大きくなる |
まとめ
watsonx.aiの基盤モデルの特徴と適切なモデルを選ぶための指針を紹介しました。
非常に変化の早い領域ですが、新参者としては変わることと変わらないことが何かを見つけられるようにしていきたいですね。
コメント