適した生成AIを選ぼう:要約編

生成AIを活用したシステムを作っていく中で、適切なモデルを選ぶ必要性が有ることは知られている人が多いと思います。
でも、実際にどのモデルが適しているの?どういった指標で判断するの?と言ったところは色々なデータを調べる必要があります。

システム開発者でなくてもGPT-3.5やGPT-4を選ぶことが出来るので、今回は安くて速いGPT3.5の方が良いのでは?と言った判断ができるような情報をまとめようと思います。

忙しい人向けまとめ

先に忙しい人向けの結論を書きます。
要約程度であればGPT3.5で十分です。
むしろ、安くて速いのでGPT3.5系の方が向いている。

要約能力の比較

要約関連の論文を元に説明する

下記のベンチマーク結果の論文抜粋を見ていただければわかるのですが、英語や日本語などの日々利用する確率が高い言語において、GPT-3.5とGPT-4では要約能力には大きな差が見られません。
その事からも、要約をさせる程度のタスクであれば、速度が速くて値段も安いGPT-3.5を利用するのがベターな選択であると言えます。学習に利用されているデータに少ない言語を利用対象とする場合は、GPT-4を選ぶのが良いとも言えます。
※ROUGEはステムにより自動生成された要約や翻訳と、人間が作成した要約や翻訳を比較し、その質を評価する手法です。

参考文献:https://arxiv.org/pdf/2303.12528.pdf

処理可能なトークン量との関係について

そうはいっても、性能に差が無くてもGPT-4のトークン量が増えている事を考えると、巨大な文章を投げて要約させられるのだから、GPT-4の方が性能が高い!優れているという安直な考えが出てくると思います。
そこで、改めて冷静になって仕組みを考え直してみてください。LLMはプロンプトとして与える文章量が増える事で、処理コストが上がり精度がどんどん低下していくことは良く知られており、現状では避けられないです。その対策として、過去の内容を圧縮したり捨ててしまう事で一定以上の精度を保とうという手法が取られている事が多いです。

また、そもそも生成系AIは検索エンジンじゃなくて、文書生成AIであることを理解して何でもかんでも生成系AIに行わせるのは適格だと思いません。
生成系AIに、検索に必要な補助を行わせ、検索精度を向上させるなどの方向への活用を行うべきです。適していない複雑な処理をさせるのではなく、適材適所でやらせることを考えるべきです。
大きな文章を要約して目的の内容を取り出したいのであれば、そもそもRAGを行うべきです。
最先端を進んでいるOpenAIですら、GPTsでもKnowledgeと言う機能でドキュメントを取り込み、ベクトル化して、適宜呼び出してドキュメントの断片を利用するという手法を取っています。

余談

そもそもで疑問に思うのが、なんでも間でもGPT-4すげぇ!と言う感覚が良く分からないのです。凄そうに見せる広告収入目的のインフルエンサーを目指している人たちに踊らされて、エンジニアであるはずの人達が、感覚論で騒いでいるように見受けられます。せめて、下記のベンチマーク結果などをベースに、数値的にどの程度、なんのタスクに置いて優れているかを語ってほしいなと思っている今日この頃です。
https://cdn.openai.com/papers/gpt-4.pdf
それに、正直GPT-3.5でも仕組みを理解して、適切なプロンプトを入れれば結構便利に色々な事をさせられるので、最低限以上の能力を持っているモデルを利用すれば、プロンプトエンジニアリング力で大きく結果が変わると思っています。
頭使わないで、モデルの性能だけで解決しようとするのは浅はかすぎて、エンジニアとしてダメだとも思ってしまいます。