問題点と改善策
最も長い文字列で七文字……。ひらがなをランダムに出力することで文章を書く、延いては小説を書くということがどれほど確率の壁にいじわれるされてしまうかが、たかが五千字で見えてきました。
「問題点」
では、何がいけなかったのか。ランダム文字列を見た方ならそのあまり「日本語らしくない」点に気付いたかもしれませんね。半濁音と拗音が多いのです。ちょっと最初の九十文字を見てみましょう。
【ひゃぽひておひきふどゅにぞぽぺどすゆあぎげはざこてきくほひし
ぐくわらみろくてれのよもはつにぱぬがぺくでおにゃおてはてゅで
ぜまでれゅばふりんをよへほでやせやのぽごさじみげさじまりあさ】
通常の文章ではこんなに「ぱぴぷぺぽゃゅょ」が出てくるわけありませんし、そもそも「ゃゅょ」は特定の平仮名にしか付属しません。すべての音節を一定の確率で律儀に表してしまうプログラムだからこそ、このような日本語らしくないひらがな文ができてしまうのです。
「改善策」
とにかく半濁音と拗音の異常な出現を減らさない限り、小説はおろか文章すらまともに作れません。半濁音は普通、文章の中に占める割合がとても低いので、思い切って半濁音を無くしてしまってもいいかもしれません。
そして拗音に関して、本当なら一番いいのは「しゃ、しゅ、しょ」など、拗音として本来存在する形で登録してしまうのが手っ取り早い+的確なのですが、残念ながら私のプログラムは「しゃ」を二文字と数えてしまうので、これは無理です。その代わり、もう一そのこと「拗音」を無くして、「やゆよ」を適宜拗音としても見なせるということにしてしまいましょう。ちょうど「っ」のように。例えば「としよかん」であれば「としょかん」とも読めるようにしてしまうのです。そうなると今度は抽出する私が大変になるのですが、そこは気合を入れてもう一度、やってみようと思います。
そういうわけですから、次は【あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわをんがぎぐげござじずぜぞだでどばびぶべぼ】の全六四音で、もう一度五千文字から抽出してみたいと思います。
新規登録で充実の読書を
- マイページ
- 読書の状況から作品を自動で分類して簡単に管理できる
- 小説の未読話数がひと目でわかり前回の続きから読める
- フォローしたユーザーの活動を追える
- 通知
- 小説の更新や作者の新作の情報を受け取れる
- 閲覧履歴
- 以前読んだ小説が一覧で見つけやすい
アカウントをお持ちの方はログイン
ビューワー設定
文字サイズ
背景色
フォント
組み方向
機能をオンにすると、画面の下部をタップする度に自動的にスクロールして読み進められます。
応援すると応援コメントも書けます