AIモデルの改良と進化は違う?

2024年12月26日

はじめに
 2024年のノーベル賞(物理学)は、ニューラルネットワークの基礎を築いた二人の研究者が受賞しました。一般のビジネス領域でも生成AIの利用は飛躍的に拡大しています。ビジネスに限らず、たとえば一般人が投資を行う際にAIのお世話になることも少なくないのではないでしょうか。私も、生成AIを利用した際に引用された判決が、実は存在しなかったことが判決判決のデータベースを調べて分かったことがあります。これは、生成AIの「ハルシネーション(幻覚)」問題で、生成AIが事実に基づかない情報や存在しない内容を生成することを言います。昨年6月に米国のニューヨーク州南部地区の連邦地方裁判所が、Open AIが開発したAIチャットボット「ChatGPT」が出力した存在しない判例を引用した裁判資料を提出したとして、弁護士に対して、5,000ドル(約72万円)の罰金の支払いを命じたことが報道されました。
 AI がハルシネーションを起こす原因はいくつかあります。まず、モデルの設計やアルゴリズムの限界があります。これは、AIの構造の問題です。また、学習データの不足は、特定のデータに過剰反応したり(過学習)、文脈を正しく理解できない(文脈の誤解)ことも原因となります。そして、誤った情報やバイアスを含むデータは、一般に「ノイズデータ」としてAIモデルの学習用には不適切とされます。他方でノイズデータを利用することは、AIの過学習を回避するために有効な場合があるとされます。具体的には、訓練データにノイズを加えることで、データの多様性を高め、モデルが一般的なパターンを学習しやすくなったり、実際のデータにはノイズが含まれることが多いため、ノイズを含む訓練データで学習することで、モデルの汎化性能(新しいデータに対する適応力)を向上させる効果があるとされます。
 元のデータにランダムなノイズを繰り返し追加する過程を学習し、その逆方向で「ノイズだらけのデータ」から徐々にノイズを除去するAIモデルに「拡張モデル」(Diffusion Models)があります。AIの発展は、精度の「量的な向上」と捉えがちですが、拡張モデルは、AIを「質的な進化」を遂げる存在に転化させるのでしょうか。シンギュラリティ(技術的特異点)は一般に、AIが人間の知能を超える転換点を指すといわれます。ここで、「知能を超える」とはどのようなことをいうのでしょうか、これによりハルシネーション問題は乗り越えられるのでしょうか。

ニューラルネットワーク
 AIモデルは、一般的には入力データに対する結果を予測するための数学的な枠組みを指します。この中には、線形回帰やロジスティック回帰などのシンプルなモデルから、ニューラルネットワークのような複雑なモデルまでが含まれます。これらは、入力に基づいて目的関数(損失関数)を最小化するために最適化されています。ニューラルネットワークは、人の脳の神経回路を模倣した機械学習モデルです。これは、入力データから特徴量(特徴的なパターン)を自律的に学習します。その仕組みは、ニューロン(神経細胞)の相互接続を数理モデル化し、データからパターン学習・認識するものです。
 ディープラーニングは、多層化と活性化関数の利用により非線形性を導入し、複雑な問題を解けるようにしたものです。ニューラルネットワークは、それを多層化する(層を積み重ねる)ことで、ネットワークが学習できる表現の複雑さを増します。各層の間で「線形変換」を行うだけでは、単一の線形モデルと本質的に変わらないことから、人手によるハイパーパラメータである「活性化関数」を用いて非線形性を導入します。これにより、非線形の複雑な問題(例えば画像認識や自然言語処理)を学習できるようになります。

パラメータ
 AIモデルを組成するに際して、人が設定する値にハイパーパラメータがあります。これによりモデルの学習方法が設定され、活性化関数もその一つです。これに対し、人の設定によらずAIが自動生成するパラメータは、モデルが学習する過程で調整される変数となります。これは入力データを処理し、出力を生成する際に使用される重要な要素となります。ニューラルネットワークがデータの学習による自動的に生成する主要なパラメータに、重み (𝑤)とバイアス(𝑏)があります。重みは変数の係数であり、いわば変数の評価値です。これに対しバイアスはモデルが出力を調整するための数学的なオフセット値で、基準となる値からの調整や補正を表すパラメータです。
 これらのパラメータはモデルがデータから自動的に学習し、抽出・調整されます。この調整がモデルの学習であり、パラメータをデータに適合するように最適化するものです。一般的なモデルでは、重みやバイアスの更新により損失を最小化するプロセスが行われます。調整手法の一つである誤差逆伝播(Backpropagation)は学習プロセスの一部で、予測値と正解値とのズレ(損失関数)を計算し、そのズレを逆方向に伝播させて重みとバイアスを更新する手法を指します。勾配降下法(Gradient Descent)を用いて、誤差の傾きに基づきパラメータを調整します。
 このようなニューラルネットワークにおける変数の重みづけやバイアスは、人の認知と似ています。人が対象を認知する場合、対象の特徴を捉え、その重要性を評価します。これがAiでは重みづけに当たります。人のバイアスは、過去の経験やスキーマ(知識構造)を基に情報処理をショートカットするものです。これは、主観過去の経験やスキーマ(知識構造)に基づもので、人の判断に無意識に影響します。これに対しAIのバイアスは、モデルの出力を調整するオフセット値で、学習データに基づいて自動的に計算されます。AIのバイアスは自動化された情報処理である点で、無意識での自動化された情報処理(ショートカット)である人のバイアスに似ています。

学習データの質
 モデルの学習には、データが用いられます。一般には、適正な量と良質なデータの必要が言われます。しかし最近のAI研究では、AIの学習用データは、有効なデータだけでなく必ずしも有効と判断されないデータの有用性が言われます。いわゆる「ノイズ」データです。これは入力データに含まれる無関係または有害な情報を指します。たとえば、画像認識におけるランダムなピクセル変化やラベルの誤りなどがこれに当たります。
 これまでノイズはモデルの性能を低下させるものと考えられていました。しかし、また、ノイズデータを使って学習することで、モデルは「データに含まれる重要な特徴」と「無関係な特徴(ノイズ)」を区別する能力を向上させるとの指摘がなされます。これは、データの多様性を高めることで、過学習(訓練データに過度に適合してしまう状態)を防ぐ効果もあります。また、ノイズデータの活用は、モデルの汎化性能を向上が認められます。特に、画像認識におけるラベルノイズやデータ拡張がその具体例として挙げられます。ノイズが過剰に追加された場合、学習プロセスを阻害する可能性難点として指摘されます。これはAIモデルの汎化性能の向上とトレードオフの関係にあると言えます。

拡散モデル
 拡散モデルは、元のデータにランダムなノイズを繰り返し追加する過程を学習し、その逆方向で「ノイズだらけのデータ」から徐々にノイズを除去するものです。画像データを例にとれば、ノイズを追加して劣化させ、その復元プロセスを学習することで新しい画像を生成するモデルです。これを進化的アルゴリズム(Evolutionary Algorithms)の一つ捉える考え方があります。その代表的な手法に、遺伝的アルゴリズム(Genetic Algorithm)があります。
遺伝的アルゴリズムは、複雑なタスクの解となるデータを生物の遺伝子に見立て、近似解を探索するアルゴリズムです。候補となる多様な解(データ)の中から、適応度の高いもの同士を組み合わせ(交配)、データの一部を変化させ(突然変異)、より優れたデータを選択していきます。この過程を繰り返すことで、最終的に実用的な解を得る仕組みと捉える考え方が示されます。これは、生物が世代を超えて進化し、環境に適応した形態に収束する過程に似るとするものです。これは拡散モデルにおけるランダムノイズの追加を遺伝的アルゴリズムにおける「突然変異」、ノイズの除去は「選択」にそれぞれ相当すると考えます。拡散モデルは、本質的に進化的アルゴリズム(遺伝的アルゴリズム)を実行していると捉える考え方です。
拡散モデルと遺伝的アルゴリズムの特性を組み合わせたアプロ―チとして「拡散進化法(Diffusion Evolution Method)」という進化的アルゴリズムが提案されます。これは、反復的なノイズ除去を行うことでパラメータ空間の解を求めるものです。通常は一つの解に収束する従来の進化的アルゴリズムとは異なり、複数の優れた解を同時に見つけることができるとするものです。
 他方で、拡散モデルは、生成モデルの一種で、逐次的にノイズを除去してデータを生成する手法で、遺伝的アルゴリズム(Genetic Algorithms)は、進化生物学の概念を用いた探索アルゴリズムで、解空間の探索方法としての設計意図が異なるとの批判がなされます。また、拡散モデルにおける「ノイズの追加」を遺伝的アルゴリズムの「突然変異」に対応させるのは、抽象的な比喩としては成り立つものの、両者は設計目的もアルゴリズムの動作原理も異なる点で技術的には不正確との指摘がなされます。更に、拡散モデルはデータ生成のためのモデルであり、遺伝的アルゴリズムは解空間探索のアルゴリズムであることから、これらを「等価」とする記述は過剰な一般化であるとの指摘もあります。
 
おわりに
AIが自己改良を行うことで加速度的な改良が進みます。AIは、機械学習とディープラーニングの登場で、特徴量、重み付け、バイアスについて自動抽出が可能となった。人手による活性化関数、損失関数や、層の数などのハイパーパラメータとされてきたものについても、AIによる最適化が進みます。また拡散モデルを基盤とする拡散進化法は、ノイズ除去を通じて非常にリアルで詳細なデータ生成が可能とします。また、同じ条件下でも異なる結果を生成でき、多様な解を探索する能力を備えます。そして、拡散プロセスの段階的な進行により、学習が安定しやすく、モデル開発のリスクが低減されます。
これは精度の量的向上をいうものです。しかし、AIの発展を精度の向上という量的変化から進化という質的改良で捉えることは、シンギュラリティの理解が異なります。本質的に進化的アルゴリズム(遺伝的アルゴリズム)を実行しているとする拡散モデルの考え方を推し進めれば、AIも、生命体が、細菌や古最近のような幻覚細菌から単細胞のアメーバ、更に、複雑な細胞構造を持つヒトなどへの変化が、知能の面で質的な変化を遂げることもあながち「夢物語」とは言えなくもありません。AIの進化が、「ドラえもん」は無理としても、「鉄腕アトムのような知能を具えることができるようになるのでしょうか。ただ、人も、無意識に「ハルシネーション」を起こします。AIがヒトの神経回路をまねたものである以上、いくら進化を遂げてもハルシネーションは避けられないかもしれませんね。