より惜しい文字列達
混乱と失望こそはあったものの、昨日のうちに五億回とちょっと――正確に言えば991周期分(5億2523万回)の演算が完了している。
期待が全くないわけでもない。うっかり出てきて、第一章完となる確率はかなり低いが、決してゼロではない。
早速、フィルタリングをかけて統計を取ってみた。
結果は以下のとおりである。
991周期中
・3文字一致:683件(68.92%)
・4文字一致:306件(30.88%)
・5文字一致:2件(0.2%)
2文字以下、及び6文字以上の一致についてはなし。
5文字の一致文字列
ワクイクスピア(138316867行目)
シェイアトピア(370932473行目)
分かっていたが、厳しい。
いっそのこと、演算結果をそのまま記述してしまい、「世界で最も文字数の多い小説」として一部界隈を賑わせてもいいかもしれない。
今回の検証だけでも、36億7661万の(無作為な)カタカナ文字列が生成されている。小説一冊の目安が10万文字だと言われているから、3万6700冊くらいできる。
もはや「速筆」なんてレベルではない。意味が通った文章であればの話だが。
4文字一致についても306件も出ているので、紹介するのも一苦労だ。さてどうしたものか――
適当に出力セルを流し見してみる。
ーェィクスメア(145522513行目)
確かに4文字合ってはいる。しかしこれが「シェイクスピア」に結び付くとはとても想像出来ない。
シーイクブピッ(303193577行目)
さっきのよりはましだが、ひどい。特に末尾。
シェイシゴーア(6288759行目)
おお。上二つよりもかなり人間に近い。登場人物に使えそうだ。
ツェイクスキナ(478906594行目)
かなり「シェイクスピア」っぽい。下手すれば5文字一致の「ワクイクスピア」よりも、それっぽい。
以上の四つの結果を見て、私は考えた――同じ文字数が一致していても、一致した場所や不一致文字の内容によって「類似度」は異なってくるのではないか。
一番上は見るからに分かる。似てる似てない以前に、そもそも発音が出来ないからだ。先頭に「ーェィ」なんて入った言葉など、後ろが合っていようが意味がない。
二番目は発音こそ可能だが、末尾の「ッ」がまずい。人物名でなくなってしまう。
二文字目が長音符になっているのも、違和感の原因なのかもしれない。「シェイク」という言葉は文字数こそ4文字だが、発音的には「セイク」となるはずで、音の文節単位「モーラ」で言えば、3モーラになるはずだ。
対して「シーイク」は発音上では「シイイク」となり、4モーラである。モーラ数の違いが、違和感を与えているのではないか。
そして、「シェイシゴーア」と「ツェイクスキナ」。
どちらも上二つよりかは余程マシといったところだが、やはり「シェイクスピア」に近いのは後者になるはずだ。
両者ともにモーラ数としては同じ。致命的な文字配置でもない。
となると、明暗を分けたのは「母音」となるだろう。
「シェイクスピア」の母音を考えてみると「Sheikusupia」――つまり「エイウウイア」となる。
同じように二つの言葉も並べてみると「シェイシゴーア」の母音は「エイイオオア」、「ツェイクスキナ」は「エイウウイア」だ。
お分かりいただけただろうか。
「シェイクスピア」と「ツェイクスキナ」はモーラ数も母音も全く同じとなる。
よって、声に出した際に「ツェイクスキナ」は最も近しい言葉と感じられる。
PCでは理解出来ない概念だろうが、人間としては「より惜しい」文字列となるわけだ。
この概念を追加することで、新しい発見を見出すことが可能になるかもしれない。
例えば、意味は全く分からないが、読んでいて何となく面白いように感じられる小説のような――
新規登録で充実の読書を
- マイページ
- 読書の状況から作品を自動で分類して簡単に管理できる
- 小説の未読話数がひと目でわかり前回の続きから読める
- フォローしたユーザーの活動を追える
- 通知
- 小説の更新や作者の新作の情報を受け取れる
- 閲覧履歴
- 以前読んだ小説が一覧で見つけやすい
アカウントをお持ちの方はログイン
ビューワー設定
文字サイズ
背景色
フォント
組み方向
機能をオンにすると、画面の下部をタップする度に自動的にスクロールして読み進められます。
応援すると応援コメントも書けます