watsonx.aiの基盤モデルの特徴と適切なモデルのを選ぶ方針

watsonx.aiのプロンプトラボでは複数の基盤モデルが提供されています。とはいえ初見ではモデルの名前を見ても特徴が分からないので各モデルの特徴をまとめました。

スポンサーリンク

watsonx.aiで提供されている基盤モデル

watsonx.aiで提供(予定を含む)されている基盤モデルは以下になります。

本情報は2023/8時点のもので、watsonxドキュメントを参考にしています。

モデルサイズInstruction-tunedアーキテクチャーコンテキスト長
flan-t5-xxl-11b11Bencoder-decoder4096
flan-ul2-20b20Bencoder-decoder4096
gpt-neox-20b20B×decoder-only8102
mpt-7b-instruct27Bdecoder-only2048
mt0-xxl-13b13Bencoder-decoder4096

表の各項目の意味は以下の通りです。

サイズは基盤モデルのパラメータ数を表しています。BはBillion(10億)の略です。
現在のところサイズが大きいモデルほど性能が比例して向上するということが知られています。

Instruction-tunedは特定のタスクを解くようにモデルを学習させるのではなく、指示を含んだ入力と理想的な出力の組で構成されるデータセットを使ったチューニングのことで、未知のタスクに対して汎化するための技術です。

アーキテクチャーは学習モデルの構成を表します。いずれのモデルもTransformerという学習モデルをベースにしていて、Transformerではいくつかの構成パターンがあります。

コンテキスト長は入力と出力のトークン(単語・文字)の和の最大許容値です。コンテキスト長が大きいほど長く複雑な指示の入力や出力が可能となります。

各モデルの概要は以下の通りです。

flan-t5とflan-ul2

FLAN(Finetuned LAnguage Net)とは様々なタスクのデータセットを用いてInstruction-tuneをしたモデルを指します。つまりflan-t5とflan-ul2は、それぞれt5とul2をベースとした改良モデルです。

t5もul2もencoder-decoder構成のTransformerである学習モデルで、要約・質問応答・機械翻訳など入力と出力が強く関連を持つタスクに対して有効です。

t5はencoder-decoder構成のさきがけとも言えるモデルで、ul2のほうが新しいモデルですね。

Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyondより引用

FLANによって多数のタスクにおいてゼロショットタスク(何の前提もモデルに与えずに質問をすること)において性能の向上があったと報告されています。

mt0

mt0はmt5をファインチューニングしたモデルで、mt5(multilingual t5)は名前の通り多言語版のt5モデルです。

先程のflan-t5とflan-ul2と同じencoder-decoder構成のモデルで、多言語に対応しているモデルという立場とみなせます。モデル情報によると、mt0は日本語を含む101の言語に対応しているようです。

gpt-neox

gpt-neoxはChatGPTで有名なOpenAIが提供しているGPT-3を模したオープンソースの学習モデルです。

decoder構成の学習モデルで、入力に続くテキストを生成するタスクを得意とするモデルです。

mpt

MPT(Mosaic Pretrained Transformer)はテキストとコードをあわせた1兆個(1T)のトークンから学習したdecoder構成の学習モデルです。

通常のmptは入力に続くテキストを生成し続けるモデルであるのに対して、watsonx.aiで採用されているmpt-7b-instructは短い指示から適切な出力を出すようにファインチューニングしたモデルです。

適切な基盤モデルの選び方

学習モデルの概要を紹介しましたが、結局自分のタスクに対してどのモデルを選ぶべきかは難しい問題です。

最終的にはモデルをテストして結果を検証する必要がありますが、モデル選定のための考慮事項を最後に紹介します。

考慮事項詳細
ライセンスプロプライエタリかオープンソースか
サポートされるプログラミング言語コード要約や生成タスクを検討している場合はモデルの事前学習データに含まれるプログラミング言語はユースケースに合致しているか
サポートされている言語多くのモデルは英語をベースに学習しているため、ユースケースに必要な言語に対応しているか
ファインチューニングファインチューニングによるカスタマイズは可能か、学習に必要なデータ量と質
事前学習データと日時事前学習以降のデータはモデルは知らない
運用コストどのGPU・チップで推論が必要か
モデルサイズとレイテンシモデルサイズが大きいほど回答精度は高くなるが、推論のための計算コストも多くくなるためレイテンシも大きくなる

まとめ

watsonx.aiの基盤モデルの特徴と適切なモデルを選ぶための指針を紹介しました。
非常に変化の早い領域ですが、新参者としては変わることと変わらないことが何かを見つけられるようにしていきたいですね。

参考資料

コメント