※ネタバレを含むのでご注意ください。

現在放送されているソードアートオンライン (以下SAO) というアニメはアリシゼーション編であり、合計1年にわたって放送されます。ストーリーが現実とマッチしていて面白いなと思ったのと、アニメだけではアリシゼーションの説明が少ない気がしたので小説を買いました。アリシゼーション編は小説第9巻からです。

1. アリシゼーション計画

まずは「アリシゼーション」が何を指すかについてですが、もともとは "A L I C E" から来ています。これは "Artificial Labile Intelligent Cyberneted Existence" の略称であり、日本語にすると「人工高適応型知的自律存在」というみたいです。簡単な話、「知性をもった人工知能を作る」というプロジェクトです。

しかし、「え、人工知能って完成してるじゃん。どこもかしこも AI AI と言って使ってるよ。」と思うかもしれませんが、残念ながら知性を持っていません。現在実装されている人工知能は確かに「知性」を持っているようなふるまいをしています。しかし、それは特定の問題を解決するという意味でしかありません。

現在、人工知能 (AI) と呼ばれるものは深層学習を指すものが多いです。深層学習は構築された多層（4層以上）のニューラルネットワークを用いて学習を繰り返し、最適なパラメータに調整することで分類や予測を可能とする技術です。学習には大量のデータが必要であり、画像データを分類するのにも何千、何万枚という画像データを入力するわけです。入力されたデータに対して出力するものは1つ、すなわち「最適解」なのでそれこそ精度は人間をも超えますが、柔軟性はありません。（ちなみに画像分類は2015年に人間より低いエラー率をたたき出しています。）

アリシゼーション計画は知性を発生させる、つまり「精度を高めるのではなく、柔軟性（＝高適応性）を高めること」です。この計画を立案したのが菊岡誠二郎が率いる RATH(ラース) というベンチャー企業です。ちなみに「知性を発生させて終わり」ではなく、これはある目的を達成するための過程です。

f:id:takunology:20200722001044p:plain

画像右側が菊岡誠二郎、左側が比嘉タケル（主任技術者・研究員）です。

2. 知性を発生させるにはどうするか

従来（現実）の人工知能は学習データをもとに最適解をはじき出すものです。これは 問題があって、その問題を解決する手法であり、トップダウン型人工知能といいます。逆に、人間の脳を再現して学習していない状態から知性（知能）を発生させる方法をボトムアップ型人工知能といいます。

人間の脳は約1千億個のニューロンという脳神経細胞が複雑に連結しており、成長するとともに様々な知識や経験を得ます。トップダウンと違うのは、あらかじめ問題が設定されているわけではなく、環境に応じて問題点を列挙し、それを解決するための知恵を模索していく ことです。つまり問題点すらAIに気づかせるということです。ただニューラルネットワークを構築しただけでは何も起きないので、人間のように「生物学的な本能や環境適応能力」を備えている必要があります。

そこで、RATHは人間の脳をフルコピーする技術を開発しました。これをソウルトランスレータ (STL) と言い、魂を読み書き（翻訳）するための装置です。知性の発生源は魂であり、それを形作っているのは脳であることになります。さらに、脳内で連結されたニューロン内を移動する光こそが人間の魂です。光子は情報伝達する粒子として考えられ、この光子に対して作用させることで記憶をも操作できるようになります。

魂のことをフラクトライトといい、これを全て ALICE（人工高適応型知的自律存在）へと変化させるプロジェクトだからこそ「プロジェクト・アリシゼーション」というわけです。これを達成するには先ほど記載した「生物学的な本能や環境適応能力」と「学習していない（未使用の）脳構造」が必要です。つまり、生まれたばかりの新生児の脳をフルコピーし、仮想世界で時間をかけて育てていくことになります。

3. 魂を保存するデバイス

人間の魂をそこら辺の保存用デバイス（記憶装置）に保存しておくことはできません。ちなみに人間の魂の容量は 100億キュービット[qbit] だそうです。私たちが普段使用しているコンピュータの容量の単位 1ビットとは違います。キュービットは量子ビットといい、0 か 1 かの 2パターンではなく観測するまでその状態を併せ持ちます。

便宜的にブラケット記号を定義しておきます。ブラケット記号は行列を簡単に表現でき、ブラは行ベクトル、ケットは列ベクトルに分類できます。量子計算をするにあたって後者のほうが都合がいいので、こちらだけ紹介します。ケットはそれぞれ2通りあるので

$\displaystyle{ |0\rangle = \begin{pmatrix} 1 \\ 0 \end{pmatrix} 　 |1\rangle = \begin{pmatrix} 0 \\ 1 \end{pmatrix} }$

と表現できます。この2つは複素ベクトルにおける直交基底であり、どの程度の重みかを意味します。複素ベクトルなので、これらを実数へ戻すには2乗すればいいことになります。

$\displaystyle{ |\Psi \rangle = |0\rangle^{2} + |1\rangle^{2} = 1 }$

全ての観測結果は 1 (100%) となります。量子の世界では離散データに対しても波（確率分布）として考える必要があるので、複素確率振幅と呼ばれています。さて、この式を見ると 0 になる確率と 1 になる確率を足して 1 (100%) なのでそれぞれ 50% で結果を得られます。ちゃんと書くと

$\displaystyle{ |\Psi \rangle = \frac{1}{2} + \frac{1}{2} = 1 }$

です。ただし、これは2乗した結果の値なので元に戻す（2乗をとる）と

$\displaystyle{ |\Psi \rangle = \frac{1}{\sqrt{2}} + \frac{1}{\sqrt{2}} \\ = \frac{|0\rangle}{\sqrt{2}} + \frac{ |1\rangle}{\sqrt{2}} \\ = \frac{1}{\sqrt{2}} (|0\rangle + |1\rangle) }$

となります。これをさらに行列にもどすと

$\displaystyle{ \frac{1}{\sqrt{2}} \begin{pmatrix} 1 \\ 1 \end{pmatrix} }$

となり、実際には $\frac{1}{\sqrt{2}}$ ずつの確率を得られることになります。

では、2量子ビットではどうなるかというと、これは重ね合わせになるのでテンソル積を用いて表現します。先ほどの結果を用いて

$\displaystyle{ \begin{pmatrix} \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} \end{pmatrix} \otimes \begin{pmatrix} \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} \end{pmatrix} = \begin{pmatrix} \frac{1}{2} \\ \frac{1}{2} \\ \frac{1}{2} \\ \frac{1}{2} \end{pmatrix} }$

つまり、2量子ビットでは 00, 01, 10, 11 の4通りを1つの重ね合わせとして持っているので、

$\displaystyle{ |\Psi \rangle = |00\rangle^{2} + |01\rangle^{2} + |10\rangle^{2} + |11\rangle^{2} = 1 }$

となります。これも丁寧に書くと、先ほどと同じように2乗して、

$\displaystyle{ |\Psi \rangle = \frac{1}{4} + \frac{1}{4} + \frac{1}{4} + \frac{1}{4} = 1 }$

となります。これ以上深い話（ユニタリ行列やらアダマール行列やら）は長くなるのでやめます...。

量子ビットはそれぞれの状態を保持しているため、量子ビット状態数の分だけ並列処理できます。ということは、1量子ビットでは 50% の確率の重ね合わせなので2通りを並列処理、2量子ビットでは 25% の重ね合わせなので4通りを並列処理できます。つまり、 $2^{n}$ を同時に表現できることになります。これが 100億なんていったら2の100億乗通りの並行処理...うへぇ...。

これだけの情報量を記録しておくメディアは現実世界には脳以外にはないでしょう。しかし、RATH ではライトキューブ「光量子ゲート結晶体」という保存メディアを開発しました。ここに魂となるフラクトライトを保存することで管理できるようになります。1辺5[cm] ほどの立方体で、プラセオジミウム結晶構造体でできているそうです。この記録メディアが21万個集まってできており、これをライトキューブクラスタといいます。1個当たり1人の魂を管理できます。ただ、全部がフラクトライト用ではなく、一部はニーモニックビジュアルとして使用しています。

f:id:takunology:20200722001208p:plain

ニーモニックビジュアル（記憶的視覚情報）は、対象のフラクトライトに直接作用して現物とそっくりな風景を再生する仕組みです。通常、仮想空間の風景は専用機器やソフトによって定義された疑似データ（3Dポリゴンデータなど）をもとにしているので、ドット調に見えます。しかし、ニーモニックビジュアルは他人の記憶している風景を蓄積し、その経験に基づくデータを与えるため、本物と区別ができないほどの風景を見られます。

ちなみに、プラセオジミウムはプラセオジムのことかもしれません。英語だとそう読むので...。プラセオジムは原子番号59番のランタノイドに属する原子であり、レアメタルの1種でもあります。現代では光ファイバ増幅器としても使用されているあたり、閉じ込めた光子を消滅させないために増幅させて一定に保っているのかもしれません。