「数字が明かす小説の秘密」
「ベストセラー・コード」
の二冊を一気読みしました。
同書よれば、十分な量のテキストと統計的手法を使えば、
・書き手の性別判定が可能。
・文章から作者の特定が可能。
(作者固有の隠しきれない指紋がある)
・売れる小説の特徴を抽出可能。
という。
実例として覆面作家の覆面剥がしの実例がいくつか乗っている。統計結果も個々の指紋を鮮やかにあぶり出しているのが面白い。
アルゴリズムがおすすめする小説ベストテンも微妙に納得がいくものばかり。
前者の統計的手法と言ってもさほど難しい手法はとっていない。後者のテキストマイニングにしても今はツールが充実しているし、かなり敷居が低いものとなっている。
で、逆に考えてみる。
・売れ筋のライトノベル(五年選手以上)から文書の指紋を抽出する。
・カクヨムの投稿文を自動判定して、似通った指紋を検出する。
これにより、
・将来有望な作者を特定できる
ということにならないか。
カクヨムには十分量なそれがある(投稿数は十万本を超えているはず)。
おまけにお抱え作家のテキストデータは山程あるし。
プログラミング経験の浅い自分でさえ思いつくくらいだから、カクヨム運営側の経験豊富でタフで優秀なプログラマーならすぐに作るだろう。
星やハートに一喜一憂しているのは投稿者ぐらいで、運営側の分析はすでに半自動化されていたりして……。
いやいや、まて。
もっと邪悪なくらい優秀な十五歳くらいのプログラマー(兼ラノベ作者)が……自分の作品にその「売れ筋指紋」を取り入れて投稿していたら?
ラノベ無限生成AIなんてものもあるくらいだし、すでにカクヨムの5%くらいはAI補完されているのではないか。
……などという妄想が捗る一冊でした。
面白ければ全て良し、とはいうけれど。面白さの定義はいずれ機械判定されるようになるのでしょうか。