ノート1.7 215,590作品って、どれくらい文字が書かれてるの?

(注意)本作のデータは全て2021年1月19日から20日にかけて取得されたものです。


 ――――――――――――――――


「滅茶苦茶分厚い本ね。一体何の小説を読んでるの?」

「これは小説じゃない。技術書だ」


 俺――研究所主任研究員マッドサイエンティスト草薙くさなぎタケルがディープニューラルネットワークの1種であるLSTMLong short-term memoryを本で勉強していると、幼馴染みのとう景子けいこが話しかけてきた。


「ぎじゅちゅしょ?」

「前から思ってたけど、ケイコちゃんって滑舌悪いよなぁ」

「ほっといて」

「それでね、この本なんだけど――」


 俺は本の中身を説明しようと思ったが、すぐに思い直した。

 ケイコちゃんは研究助手アシスタントを名乗ってはいるが、統計やアルゴリズムなど数学的なことは一切分かっていない。今説明したところで、何も理解出来ないだろう。

 時が来たら、改めて説明すればいい。


 まぁ、研究助手アシスタントとして役に立たなくても、ケイコちゃんがそばにいてくれるだけで俺は十分嬉しい訳だが。


「いや、何でもない」

「ちょっと見せてよ。……えーっとなになに? ゲート回路?? あ、これ絶対に分からない奴だ。それに読みにくい」

「そうか?」

「読みやすさを重視してるカクヨムの小説は行間が空いてるけど、今タケル君が読んでる本は文字だらけね。眠くならない?」

「なる。そしてこの本を枕にする。スヤァ……」

「ダメじゃん」

「冗談だよ。

 ところでケイコちゃん、カクヨムの小説はどれくらい文字が書かれてると思う?」

「少なくとも、私が一生かかっても読み切れないほどのコンテンツがあると思うわ」

「そうかもしれないね。と言う訳で、今回はカクヨム小説の文字数についてデータを見ていこう。今回紹介するのは1作品の合計文字数であって、エピソード別の文字数ではないことに注意な」

「分かったわ」


 ――――――――――――――――

 統計情報(2021年1月20日現在)

 ――――――――――――――――

 総数:8,505,186,084文字

 最大値:286,508,883文字

 最小値:0文字

 中央値:5,476文字

 最頻値:80文字

(平均値:39,451文字)

 ――――――――――――――――


「毎分600文字読んでいくとして、えーっと、80億割る600で――」

「14,175,310.14分」

「それをさらに60分で割って時間になおすと……あぁ、ダメだ。目が回ってきた」

「236,255.169時間――約9,844日。年数に換算すると丁度27年くらいだな」

「あれ、頑張れば読めるかも」

「いやいや、現在進行形で小説が増え続けていることをお忘れなく」

「そうだった。それにしても、中央値が約5千文字って意外に少ないわ」

「それは、次のデータを見て貰えれば納得できると思う。カクヨムでは80,000文字未満を中編と定義しているようなので、そこを境目とした作品数の違いを見てみよう」


 ――――――――――――――――

 統計情報:短編~中編と長編の作品数比較

 ――――――――――――――――

 80,000文字未満:188,083作品 (87.22%)

 80,000文字以上:27,552作品 (12.78%)

 ――――――――――――――――


「なるほど、圧倒的に短編や中編の作品が多いのか」

「もちろん、これから長編になるであろう書きかけの小説も含まれていることに注意が必要だけどな。

 とは言え、この約19万作品のうち、実に157,671作品が20,000文字未満だ。やはり、長く書き続けるのは相当情熱がいることなんだろう」



「さて、今回は2020年3月に集めたデータも見て欲しい。面白い現象が観察できるぞ」

「ん? なんだろう――」


 ――――――――――――――――

 統計情報(2020年3月28日現在)

 ――――――――――――――――

 合計:5,978,582,468文字

 最大値:29,658,037文字

 最小値:0文字

 中央値:5,354文字

 最頻値:80文字

(平均値:35,703文字)

 ――――――――――――――――


「あれ? 中央値がほとんど変わってないわ」

「そうなんだよ。つまり――」

「まさか、『べき乗則』が文字数にも当てはまるって言うの!?」

「その通りだ。これを見れば否定することが出来なくなる」


 ――――――――――――――――

 統計情報:文字数による作品数分布(出現率, 累計)

 1,000文字刻み

 ――――――――――――――――

 c = 0文字:24作品 (0.01%, 0.01%)

 0文字 < c ≦ 1,000文字:29,268作品 (13.58%, 13.59%)

 1,000文字 < c ≦ 2,000文字:27,185作品 (12.61%, 26.20%)

 2,000文字 < c ≦ 3,000文字:20,066作品 (9.31%, 35.50%)

 3,000文字 < c ≦ 4,000文字:16,992作品 (7.88%, 43.39%)

 4,000文字 < c ≦ 5,000文字:10,142作品 (4.70%, 48.09%)

 5,000文字 < c ≦ 6,000文字:8,575作品 (3.98%, 52.07%)

 6,000文字 < c ≦ 7,000文字:6,195作品 (2.87%, 54.94%)

 7,000文字 < c ≦ 8,000文字:5,739作品 (2.66%, 57.60%)

 8,000文字 < c ≦ 9,000文字:5,063作品 (2.35%, 59.95%)

 9,000文字 < c ≦ 10,000文字:5,969作品 (2.77%, 62.72%)


  ……


 101,000文字 < c ≦ 102,000文字:508作品 (0.24%, 89.99%)

 102,000文字 < c ≦ 103,000文字:466作品 (0.22%, 90.21%)

 103,000文字 < c ≦ 104,000文字:369作品 (0.17%, 90.38%)


  ……


 469,000文字 < c ≦ 470,000文字:1作品 (0.00%, 98.99%)

 470,000文字 < c ≦ 471,000文字:7作品 (0.00%, 99.00%)

 471,000文字 < c ≦ 472,000文字:7作品 (0.00%, 99.00%)


  ……


 c = 29,658,037文字:1作品 (0.00%, 100.00%)

 c = 145,989,006文字:1作品 (0.00%, 100.00%)

 c = 286,508,883文字:1作品 (0.00%, 100.00%)

 ――――――――――――――――

 合計:215,590作品 (100.00%)

 ――――――――――――――――


「最大値付近の数が少なくなるのは分かるけど、まさか文字数までとはなー……。一体いつになったら、平均値という概念がこの作品に戻ってくるのかしら?」

「ここで面白いなと思うのは、10万文字付近が上位10%の境目になっているということだ」

「10万文字と言えば、カクコン長編部門の足切りラインね」

「うん。このデータと相関関係や因果関係は全然無いだろうけど、実に絶妙な所を閾値しきいちに設定してるなぁと思ってしまった」

「長すぎず短すぎずと言ったところかしら」

「ちなみに、今回も『べき乗則』に当てはまると言ったが、もう少しミクロな視点で見ると気を付けないといけないことがある」

「ミクロな視点?」

「さっき見せたデータは1,000文字刻みだったけど、これを100文字刻みにするとこういうことが起こるんだ――」


 ――――――――――――――――

 統計情報:文字数 c による作品数分布(出現率, 累計)

 100文字刻み

 ――――――――――――――――


  ……


 3,800文字 < c ≦ 3,900文字:1,489作品 (0.69%, 42.01%)

 3,900文字 < c ≦ 4,000文字:2,974作品 (1.38%, 43.39%)

 4,000文字 < c ≦ 4,100文字:1,194作品 (0.55%, 43.94%)


  ……


 9,800文字 < c ≦ 9,900文字:582作品 (0.27%, 61.93%)

 9,900文字 < c ≦ 10,000文字:1,701作品 (0.79%, 62.72%)

 10,000文字 < c ≦ 10,100文字:428作品 (0.20%, 62.92%)


  ……


 99,800文字 < c ≦ 99,900文字:24作品 (0.01%, 89.33%)

 99,900文字 < c ≦ 100,000文字:37作品 (0.02%, 89.35%)

 100,000文字 < c ≦ 100,100文字:155作品 (0.07%, 89.42%)

 100,100文字 < c ≦ 100,200文字:112作品 (0.05%, 89.47%)

 100,200文字 < c ≦ 100,300文字:113作品 (0.05%, 89.53%)

 100,300文字 < c ≦ 100,400文字:79作品 (0.04%, 89.56%)


  ……


 ――――――――――――――――


「4千文字や1万文字で作品数が急に増えてるわ。それに、10万文字以下までは作品数が少ないのに、それを越えると急激に作品数が増えるのは……どう考えてもコンテストの影響ね」

「ケイコちゃんの言う通りだ。

 これまで開催されたコンテストは、文字数制限が4,000字以下だったり10,000文字以下の場合が多かった。カクコンの長編部門は100,000文字以上だな。

 つまり、マクロで見ると確かに『べき乗則』に従ってはいるんだけど、コンテストなどの要因によってやや分布が乱れていると言えるな」




「それにしても、最大値がとんでもない数字よね。約3億文字……? 一体どんな物語かしら。とっても気になるわ」

「ちなみに、2位の1.5億文字は所長の『速報』だ」

「アレかよっ!」


『本家ではないけど情報特盛りな第6回カクヨムWeb小説コンテスト+短編賞速報』

 https://kakuyomu.jp/works/1177354055253900094


「それさー、機械に文字を出力させてるんでしょ? 全然自慢にならないからね!?」

「ごもっとも。ちなみに、機械学習編では自動小説生成――つまり、機械に小説をガチで出力させるぞ」

「……え? そんなこと出来るの?」

「今読んでいる本の知識――LSTMLong short-term memoryを使ってする」

「出来ちゃうのね」

する」

「出来るか出来ないのか、ハッキリしなさい! 男らしくないわ!!」

「分からないから誤魔化してるんだろう? 察してよ! 忖度してーっ!!」



 ――――――――――――――――

 今日の研究ノートまとめ

 ――――――――――――――――

 ・まさかって思うでしょ? やや変則的ではあるが文字数ですら『べき乗則』に従っている

 ・1作品における文字数の中央値は1話2,000文字として約3エピソード分

 ・10万文字を超える作品は全体の10%に満たない

 ――――――――――――――――

  • Xで共有
  • Facebookで共有
  • はてなブックマークでブックマーク

作者を応援しよう!

ハートをクリックで、簡単に応援の気持ちを伝えられます。(ログインが必要です)

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

マイページ
読書の状況から作品を自動で分類して簡単に管理できる
小説の未読話数がひと目でわかり前回の続きから読める
フォローしたユーザーの活動を追える
通知
小説の更新や作者の新作の情報を受け取れる
閲覧履歴
以前読んだ小説が一覧で見つけやすい
新規ユーザー登録無料

アカウントをお持ちの方はログイン

カクヨムで可能な読書体験をくわしく知る