ChatGPTの学習データ量はまだ少ない？！

０－表紙－ChatGPTの学習データ

ChatGPTの学習データ量から、今のChatGPTの現状などを考察してみようという記事です。まだ突っ込み所満載なのですが、お暇ならお付き合いください。

1.ChatGPTの学習データ

ChatGPTの学習データ量

世界の公開データ量と比べる

2.形式知と暗黙知から

世界のデータ内訳を推定する

形式知は全体の１０％

3.形式知でAIが利用可能なデータ量

世界データの６１％は画像データ？

4.おわりに

1.ChatGPTの学習データ

ChatGPTの学習データは、インターネット上に公開されている大量のテキストデータを使用していると言われます。具体的な例として、Wikipediaやウェブページ、書籍、ニュース記事、雑誌、論文などの公開されているデジタル化されたテキストテータになります。

１－１－ChatGPTの学習データについて

ChatGPTの学習データ量

そのテキストデータ量は、GPT-3.5で45TB、それ以降は非公開となっています。

45TBというのは、45,000,000,000,000Bという膨大な量です。

また、GPT-3.5は1750億のパラメータを持つ公開当時は最大のモデルとしても知られています。現在はGPT-4も有料で公開されていますが、そちらはさらに多くのパラメーターを持っていることでしょう。（パラメーター数は非公開）

一方で、この数字は１TBのハードディスク45台分ともいえます。これを多いとみるか、少ないとみるかは意見の分かれる所でしょう。

さて、収集したデータの内容からも見てみましょう。

たとえば、Wikipediaの全記事のファイルサイズは英語版で95GB、日本語版で20GBです。このデータがすべて学習データとなっていることが想像されます。Wikipediaのデータって意外と？少ない。

そして、Common Crawlデータとは、Webサイトなどで公開されているホームページを巡回（クロール）して得たサイトの基本データのことです。現在世界には約19億サイトが存在していますが、その内有効なサイトは25％程度と言われており、約5億サイトになります。そのうちの何割かのデーターを利用しているようです。データ量では９TBだそうです。こちらも9TBを5億サイトで割ると１サイト辺りでは18KBのテキストデータです。日本語だと、9,000文字に相当します。テキストだけだとこんな分量なのかもしれません。

これらの他に独自のデータなどを加えた45TBのデータとなります。

世界の公開データ量と比べる

一方で、こうしたChatGPTの学習データ量を、世界の公開データ量から比較してみます。

公開データは、総務省が出している情報通信白書に2020年のデータ総量が乗っていました。59ZBとなっています。ちなみにChatGPT3.5は2021年9月までのデータを利用していると言われるので、世界のデータ量も増えていると思いますが、その点は今回は無視することにしました。2021年のデータが見つかったら訂正します。

いずれにしろ、世界のデータ量は、2010年の988EBから10年で59ZBと、60倍になっているほどの急速な拡大をしていることには驚きました。

１－１－データ総量の推移2000年から2020年まで