番外編
『カクヨム小説の真実』出張版:朝読小説賞に応募してる作品って、主人公の年齢はどれくらいなの?
(注意)本作のデータは、全て2021年1月30日に取得されたものです。
――――――――――――――――
「みなさん、こんにちは! 私は『カクヨム総合研究所』の
「俺は
「ついに、私達が『速報』にやって来たわね」
「あぁ。元々はこの作品も同じノリでやろうと思ってたんだけどな。所長に止められてしまったんだ」
「ところで、いきなりこんな会話劇が始まって混乱してる『読み手』もいると思うの。タケル君、説明してあげたら?」
「そうだな。俺たちは普段『カクヨム総合研究所』で大量のデータを収集しながら、カクヨムユーザーの生態やカクヨム小説の真実を追求してるぞ」
『カクヨムユーザーの生態~111,402人分のデータを分析してみた』
https://kakuyomu.jp/works/1177354054894358323
『カクヨム小説の真実~215,590作品のデータから本性を暴き出す』
https://kakuyomu.jp/works/1177354055450204744
「興味があったら、是非これらの研究ノートを覗きに来てね。ケイコからお願いするわ」
「さて、宣伝はこれくらいにして本題に入ろう。今回わざわざこちらへ出張してきたのには訳があるんだ」
「そう言えば、何にも理由を聞いてなかったわ」
「実は、『速報』にコメントを書き込んでくれた方がいてな。そのコメントを一部抜粋して紹介しよう」
『
ひとつ、気になったのですが朝読小説賞応募作品で「説明文にキャッチが不記載」と書かれている作品がいくつか見受けられますが、これは「紹介文」の部分に書かれた文章を拾い分析することが可能、ということでしょうか?
「紹介文」欄はカクヨムの作品検索で拾うことができませんが、朝読小説賞は「あらすじ」欄に年齢+キャッチ記載のルールがあるので、主人公の年齢でソートをかけた検索&分析ができると面白いなぁと考えた次第であります。
――引用ここまで
「おぉ、滅多に無い分析依頼が! タケル君、出世したわね」
「と言うことで、今回のテーマは『朝読小説賞』だ」
「朝読小説賞は、カクヨムコンと並行で行われてるコンテストなのよね?」
「その通りだ。公式の説明文を引用すると――」
朝読小説賞は、学校で実施される「朝の読書運動(通称・朝読)」にふさわしい作品を募集します。応募作品は担当編集部が読者投票に関わらず審査し、部門やランキングを横断して書籍化にふさわしい作品を選考します。
「――だそうだ」
「なるほど、『読み手』の対象が結構明確なのね。小学生から高校生くらいまでかしら」
「まぁ、そんなところだろう。なお、異世界転生ものは選考対象外だ。
応募方法は簡単。タグに『朝読小説賞』を付けて、紹介文の最後に『主人公の年齢』と『作品についてのキャッチ』を30文字以内で記載することだ。ちなみに、下のフォーマットが推奨されてる」
主人公: ●●歳、朝読小説賞キャッチ:
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
「おぉ、説明文にこんなことを書く必要があるのかー。もし、この説明文を拾い上げられるなら分析可能じゃないかと、
「そう言うことだな。結論から言えば、もちろん出来る。何せ、小説本文すら全部データとして格納してるからな。説明文も例外ではない」
「流石」
「では、前置きが長くなったが今回の結果を紹介しよう。
まず、今回のカクコンで『朝読小説賞』に応募してる作品数から見ていこう。ちなみに、長編部門かつタグに『朝読小説賞』のある作品をカウントしているぞ」
「はーい」
――――――――――――――――
統計情報:カクコン006における『朝読小説賞』ジャンル別作品数
対象:2021年1月30日時点で応募している作品
――――――――――――――――
1位T:異世界ファンタジー(63作品)
1位T:現代ドラマ(63作品)
3位:現代ファンタジー(58作品)
4位:恋愛(34作品)
5位:SF(29作品)
6位:ラブコメ(18作品)
7位:詩・童話・その他(12作品)
8位:ミステリー(8作品)
9位T:ホラー(5作品)
9位T:歴史・時代・伝奇(5作品)
11位:エッセイ・ノンフィクション(1作品)
――――――――――――――――
合計:296作品
備考:Tはタイを表す
――――――――――――――――
「おぉ、異世界転生ものがダメって割に異世界ファンタジーがとても多いのね」
「まぁ、他にも異世界転位とかあるしファンタジーなら異世界だろって意見もある。そもそも異世界ファンタジー部門に大量の作品が集まってるから、当然の結果と言えるだろう。
ただ、全体で見ればたった296作品。これだけ少ないなら分析も楽だ――と思ってた時期もあったけどね。罠があったんだなー」
「タケル君、もしかして手で数えたの?」
「まさか! 流石に296作品も目視で確認するのはやってられない。そこで今回は、『正規表現』というプログラム言語のテクニックを用いる」
「正義豹変?」
「うわぁ、そんな主人公は見たくないな……。
「んー……? 全然説明になってないような」
「じゃぁ、例で見てみよう。実は、すでに正規表現に近い例がすでにこの文章内にあるんだが、どれか分かる?」
「え、全く気がつかなかった。分からないわ」
「これこれ、これだよ」
主人公: ●●歳、朝読小説賞キャッチ:
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
「あっ、なるほど。つまり正規表現とは、文章のパターンのことね」
「その通り。あらかじめ指定しておいた正規表現を使って文章を検索し、一致した文章だけを抜き出すテクニックなんだ。
さて、『朝読小説賞』に応募している全ての作品がこのパターンを踏襲してくれてたら、分析はとても簡単だ。しかし――」
「全部ってことは流石にあり得ないわね」
「うん。しかも、この分析を始めてから気がついたんだけど、主人公の年齢を表す『数字』にもいろいろ種類があって、それを全部拾い上げるのは意外にめんどくさかったんだ」
「え、数字は数字じゃん。簡単のように思えるけど」
「まず、基本は半角数字。0、1 とか 2 だな。次に、全角数字。0、1、2。計算機上ではこれらは文字コードが異なる。さらには漢数字、零、一、二……。
20歳の表現方法だけで、『20歳』、『20さい』、『二十歳』、『二〇才』などなどなど。
今回はこれらの表現全てを拾い上げるために、以下の正規表現を用いたぞ」
"(\d|{Numeric_Type=Numeric}|[一二三四五六七八九〇壱弐参]|[十拾百千万億兆])+?(歳|才|さい)(.|\s)+?$"
「ぶっ、なんじゃこりゃ」
「まぁ、これだけやっても何かが漏れてる可能性が否めない。本当に自然言語処理は難しいよ。
プログラムに詳しい人で、『こんなクソみたいな正規表現使いやがって! こっちの方が断然良いぞ!』という提案がある人は、是非教えて欲しい」
「とにかく、今回はこのよく分からない謎のパターンを使うのね」
「その通りだ。と言うことで、お待ちかねの結果を発表しよう。こうなったぞ」
「どれどれ……?」
――――――――――――――――
統計情報:カクコン006における『朝読小説賞』主人公年齢
対象:2021年1月30日時点で応募している作品かつ年齢を抽出できた279作品
――――――――――――――――
最大値:100,000歳
最小値:0歳
中央値:16歳
最頻値:16歳
(平均値:375.30歳)
――――――――――――――――
――――――――――――――――
統計情報:カクコン006における『朝読小説賞』主人公年齢分布
対象:2021年1月30日時点で応募している作品
――――――――――――――――
0歳:1作品 (0.34%, 0.34%)
3歳:2作品 (0.68%, 1.01%)
5歳:1作品 (0.34%, 1.35%)
7歳:2作品 (0.68%, 2.03%)
8歳:3作品 (1.01%, 3.04%)
9歳:1作品 (0.34%, 3.38%)
10歳:12作品 (4.05%, 7.43%)
11歳:4作品 (1.35%, 8.78%)
12歳:12作品 (4.05%, 12.84%)
13歳:23作品 (7.77%, 20.61%)
14歳:20作品 (6.76%, 27.36%)
15歳:34作品 (11.49%, 38.85%)
16歳:55作品 (18.58%, 57.43%)
17歳:44作品 (14.86%, 72.30%)
18歳:18作品 (6.08%, 78.38%)
19歳:7作品 (2.36%, 80.74%)
20歳:6作品 (2.03%, 82.77%)
21歳:4作品 (1.35%, 84.12%)
22歳:3作品 (1.01%, 85.14%)
23歳:5作品 (1.69%, 86.82%)
24歳:2作品 (0.68%, 87.50%)
25歳:1作品 (0.34%, 87.84%)
26歳:1作品 (0.34%, 88.18%)
27歳:3作品 (1.01%, 89.19%)
28歳:4作品 (1.35%, 90.54%)
30歳:1作品 (0.34%, 90.88%)
31歳:1作品 (0.34%, 91.22%)
32歳:1作品 (0.34%, 91.55%)
33歳:1作品 (0.34%, 91.89%)
41歳:1作品 (0.34%, 92.23%)
45歳:1作品 (0.34%, 92.57%)
49歳:1作品 (0.34%, 92.91%)
52歳:1作品 (0.34%, 93.24%)
80歳:1作品 (0.34%, 93.58%)
100歳:1作品 (0.34%, 93.92%)
100,000歳:1作品 (0.34%, 94.26%)
検出失敗:17作品 (5.74%, 100.00%)
――――――――――――――――
合計:296作品 (100.00%)
――――――――――――――――
「まぁ、対象読者が学生だし、15歳から17歳あたりにピークが来るのは順当ね」
「そうだな」
「ところで、80歳とか100歳とか――100,000歳って何?」
「この3件は目視で確認した。80歳の場合は、登場人物が複数いてその最高齢が80歳だった。
実は、年齢に幅を持たせてる作品は結構あったんだ。例えば、『○○歳~△△歳』みたいなね。ただ、これをいちいち処理するのはさらに面倒なことになるので、今回は後者の『△△歳』のみをカウントしている」
「なるほど。残り2件は?」
「100歳の方は人間換算、100,000歳は『数十万歳』と表記されてた」
「マジかー。100,000歳はちょっと気になるな」
「まぁ、出来るだけ特定の作品は紹介しないポリシーなので、暇な人は探してみるといいよ」
「分かったわ」
「出張版はいかがだっただろうか」
「カクコンは統計情報の宝庫だから、他にもいろいろ出来そうね」
「そうだな。気が向いたらやってみることにしよう」
「と言うことで、今回はここまでよ。お送りしたのは私、
「
「それじゃぁまた、研究所で会おうね。ケイコとの約束だよっ!」
――――――――――――――――
今日の研究ノートまとめ
――――――――――――――――
・『速報』に研究所の2人組が出張! 『朝読小説賞』について、ジャンルの傾向と主人公の年齢を調査
・読者対象が学生と分かっているため、やはり同年代の15~17歳の主人公が多いという結果に
・自然言語処理の難しさを思い知ることに
――――――――――――――――
最後に、本件をご提案頂いた『
なお、本内容はいつか『カクヨム小説の真実』に移植する予定です。
新規登録で充実の読書を
- マイページ
- 読書の状況から作品を自動で分類して簡単に管理できる
- 小説の未読話数がひと目でわかり前回の続きから読める
- フォローしたユーザーの活動を追える
- 通知
- 小説の更新や作者の新作の情報を受け取れる
- 閲覧履歴
- 以前読んだ小説が一覧で見つけやすい
アカウントをお持ちの方はログイン
ビューワー設定
文字サイズ
背景色
フォント
組み方向
機能をオンにすると、画面の下部をタップする度に自動的にスクロールして読み進められます。
応援すると応援コメントも書けます