第14話 ︎︎How to solve it
十月末ごろから、研究は問題を考えるフェーズに突入していた。ランダム凸包の問題だ。第12話で説明したブラウン運動の文脈はまず取り払って、一般の確率ベクトル——確率変数の多次元版である——が与えられたときに、それを何回独立にサンプルすれば期待値のベクトルが高確率で凸包に入ってくれるか、という問題だ。
とはいっても、取っ掛かりがない。指導教員たちは確率論の一分野の専門家ではあるが、この問題は彼らの守備範囲ではない。彼らがミーティングで話すのは「もしかしたら関係があるかもしれない知識」であり、どう解けばよいかの考察ではない。問題自体の内容は初等的なので、状況は数学オリンピックに近いと思う。まともな答えがあるとは限らない、という点を除けばだが。
いかにして問題をとくか——僕にとってそれは、歩くことだ。椅子に座っていてじっと考えていても、難問は解けない。
数学オリンピックでは、国内大会でも、国際大会でも、僕はよくトイレに行った。煮詰まったら歩くのだ。歩けばアイディアが湧いてくる。国内大会では、席を五回離れ、返ってくるたびに一問が解けた。国際大会では、解くのに二時間半かかった第五問は二回の離席で倒した。
ランダム凸包の問題については、一週間の歩行であるアイディアにたどり着いた。
この問題についての先行研究は、確率ベクトルの分布が原点対称な場合、原点がランダム凸包に入る確率がちょうど計算できるというものだった。何本サンプルすれば十分か、ということについて得られている知見はこの特殊ケースでの結果以外に見つからなかった。
最初にたどり着いたアイディアは、対称な場合で近似する、ということだった。例えば、確率ベクトルを独立に十本サンプルし、その重心を考える。中心極限定理によれば、これを百本、千本、と増やしていくと、その分布はどんどん正規分布——対称な分布——に近づいていく。厳密性にうるさい読者が今考えているように、平行移動とスケーリングも必要になるのだが、今回はそれは問題にならない。
さて、千本のサンプルを十本ずつ百グループに分けることを考えれば、各グループの重心たち百本の凸包は、千本のサンプル全体の凸包よりも小さくなる。なので、今のように何本サンプルすれば十分かを考えたい場合には、前者を使ってもいい。そして前者は——中心極限定理によれば——より対称な分布に近いと期待できる。
ここまできて、ある学部の頃の授業を思い出す。その講義はオムニバスの講義で、学科の先生方が毎週入れ替わり立ち替わり専門分野についての話をする。ある回で、統計学研究室の助教の先生が教壇に立った。
「今日は、ベリー・エシーンの定理というものについて話します」
僕は学部の頃、数学を勉強こそしていたものの、数学を研究する、あるいは数学を使うということがどういうことかよく分かっていなかった。中心極限定理については知っていたが、その収束スピードを知りたいことがある、そしてそれを評価した定理が既に存在する、ということは想像していなかった。もちろん、数年後にそれが自分の研究で本質的なステップになるということも。
数学には多くの美しい極限定理が存在するが、応用上では本当の無限を人間が扱えることは殆どない。データの数は有限だし、コンピュータによる処理速度も計算精度も基本的に有限である。だから、こと応用においてはその極限はどのくらい速い極限なのかということかが重要になってくる。
ベリー・エシーンの定理とは、中心極限定理を定量化したものだ。中心極限定理は確率変数のサンプル平均をスケーリングしたものが正規分布に収束することを主張するが、ベリー・エシーンの定理は有限サンプルの場合の誤差評価を与える。
この定理は突飛な内容ではないが、かといって確率論をやっていたらみんな知っているという類のものではない。実際、僕の指導教員のうち片方はそもそも名前も内容も知らなかった。僕は大学四年の時にあの講義を受けられて幸運だったのだ。
僕の知っているベリー・エシーンの定理は一次元のものだけだったが、調べると多次元版の定理も存在していた。この定理を凸包の話に適用するのも一筋縄ではいかなかったが、とりあえず論文になりそうな結果は得られた。これがちょうどロックダウンが始まった11月6日のことだ。
原稿を書いて送りつけると、テリーの反応はよかった。しかし、ハラルドは、次元依存性が悪いんじゃないかという感想だった。ベリー・エシーンの多次元版を使ったせいで、次元の3.5乗に比例する評価になっていたのだ。実際、応用上これは無視できる値ではない。百次元のランダム凸包に対して、少なくとも一千万本のサンプリングを要することになってしまう。シミュレーションでは数百のサンプリングで十分だったので、ここまでで得られた評価は数学的には意味があるとしても工学的には意味がないということだ。
これは多次元ベリー・エシーンを使っている限りは解消できないので、根本的に違う方針を探さないといけない。相変わらずミーティング中にずっと喋っているテリーが、ふとこんなことを言った。
「この確率はサンプル本数に対してどんなグラフになる?」
サンプル本数を増やしていくとき、期待値ベクトルがその凸包に入る確率はゼロからスタートして確率1——つまり百パーセント——にどんどん近づいていく。ここまでは分かっていて、今考えているのは大体どのくらいまでサンプル数を増やせば確率が半分を超えるか、ということだった。
テリーが問うたのはグラフの概形、例えば対数凸のような性質があるのか、ということだったのだが、僕は増え方という視点ではまだ考えていなかったことに気づかされた。例えばサンプルを一つだけ増やしたら、どうなる?
二次元の図を書いて考える。一点増やした時の確率の差、というのはつまり一点追加して初めて凸包に入る場合の確率である。書いた図を目に焼き付け、また歩く。
点が減らせる——そう思った。最後に追加した点、期待値を表す赤い点、そして最後に追加した点と元からあった二点で赤い点を囲む重要な三角形。ここに出てくる合計四つの点以外は今、関係ない。点の順番を入れ替えれば、関係ない点の個数を増やしたり減らしたりするとどうなるかの評価ができる。
ここで「片側確率」とでも呼べるような値を導入すれば、一点増やした時の確率の増分についての漸化不等式が作れる。しかもこの「片側確率」は確率ベクトル一次元情報についての値だった。
——多次元じゃないベリー・エシーンが使える。
これで次元依存性の問題も解決した。
このときの興奮は忘れられない。なぜうまくいったかも分からない巧妙なパズルのような証明を書き上げ、得られた収束スピードについての原稿を急いで先生たちに送った。
その後ハラルドから教えてもらったことによると、ここで僕が導入した「片側確率」には既に名前がついていた。統計的深さという概念があり、そのうちの「半空間深さ」あるいはこの概念を使い始めた高名な統計学者の名前を取って「Tukey深さ」と呼ぶらしい。ランダム凸包と統計的深さの橋渡しにもなる成果だった。
ここまでで得られた結果に指導教員たちはかなり満足していて、年明けすぐの論文投稿を目指すことになった。
博士課程の開始から二ヶ月で大きな結果が出るのは異例だったが、パンデミックもあり起きている時間のほとんどを研究に注ぎ込んでいたからだろう。これはいわば、ドーピングだったのだ。
——ドーピングには、副作用があった。
新規登録で充実の読書を
- マイページ
- 読書の状況から作品を自動で分類して簡単に管理できる
- 小説の未読話数がひと目でわかり前回の続きから読める
- フォローしたユーザーの活動を追える
- 通知
- 小説の更新や作者の新作の情報を受け取れる
- 閲覧履歴
- 以前読んだ小説が一覧で見つけやすい
アカウントをお持ちの方はログイン
ビューワー設定
文字サイズ
背景色
フォント
組み方向
機能をオンにすると、画面の下部をタップする度に自動的にスクロールして読み進められます。
応援すると応援コメントも書けます