ノート4.3 タグの類似度から、カクヨムの傾向を分析する(セルフレイティング・『残酷描写有り』編)

(注意)本作のデータは全て2021年1月19日から20日にかけて取得されたものです。


 ――――――――――――――――


 前回のノート4.2で出現頻度が10回以上のタグを対象にコサイン類似度を計算したと記載しましたが、正確には9回以上の誤りでした。10回未満を破棄するようにプログラムを設定したつもりだったのですが、閾値しきいち設定を誤解していたようです。

 お詫びして訂正します。


 ――――――――――――――――


「タケル君……タケル君! ねぇ、私の声聞こえてる?」


 俺――研究所主任研究員マッドサイエンティスト草薙くさなぎタケルが呆然としていると、いつの間にか研究室に来ていた幼馴染みのとう景子けいこに話しかけられていた事に気付いた。


「あぁ、ケイコちゃん。おはよう……」

「どうしたの、その目の隈。まるでタヌキみたいよ?」

「聞いてよ、ケイコちゃん……。俺の……俺の計算結果がぁ……」

「落ち着いて。何があったの?」

「停電で10日間回してた計算内容が吹っ飛んだーっ! うわああん!!」

「あらあら、それは災難だったわね」


 事の顛末はこうだ。朝、意気揚々と研究室に来てみたら、『速報』のためにデータ収集しているはずの計算機パソコンの画面が真っ黒になっていた。タイマーセットされているはずの暖房も動いていない。


 そこで俺は悟った。停電が起こっていたのだと……。


 不幸中の幸いだったのは、『速報』のデータを集めていた 3 台のノートPCは、全ての情報を収集が終わってからバッテリーの寿命が尽きてたこと。しかし、俺の心のダメージは計り知れない(※ここまで実話)。


 俺はケイコちゃんのいれてくれたコーヒーを飲んで気分を落ち着けた。


「どう? 少しは楽になった?」

「ありがとう」

「被害はどんな感じなの?」

「機械学習のデータが全部吹き飛んだ」

「そう……。まぁ、起こったことは仕方がないわ。『読み手』の皆さんには少し待って貰って、1 からやり直しましょう。ね?」

「そうだな……」



「さて、今日は前回の続きだな。いよいよタグの分析を本格的に始めることにしよう。だがその前に、コサイン類似度について復習だ」

「はーい」

「コサイン類似度は、大きさと向きを同時に表すことが出来るベクトルと言うものを 2 つ選んで比較したとき、ベクトルの向きが揃っているかどうかを表している。1 なら向きが揃っており、-1 なら完全に反対方向を向いていることを示している」

「0 のときはどう解釈するの?」

「数学的には直交していると言う。平たく言えば、2 つのベクトルには関係がない。3人の男性を比べたとき、好きな男性は 1、嫌いな男性は-1、関心がない男性は 0 と言った具合だ」

「なんかその例えは嫌だなー……」

「さて、今回はタグの出現頻度を利用してベクトル化を行い、6,757種類のタグに対してコサイン類似度を得ることに成功した。下に示すのは、そのごくごく 1 部の例だ。前回の研究ノートから再掲する」


 ―――――――――――――――――――――――――――――――――――

 コサイン類似度の行列(出現頻度が9回以上のタグ)

 ―――――――――――――――――――――――――――――――――――

           異フ 異 魔 剣魔 異転 ハフ 異移 現主 異召……

 ―――――――――――――――――――――――――――――――――――

 異世界ファンタジー 1.00 0.84 0.82 0.82 0.81 0.80 0.80 0.80 0.80

 異世界       0.84 1.00 0.74 0.71 0.63 0.68 0.64 0.67 0.66

 魔法        0.82 0.74 1.00 0.64 0.71 0.70 0.70 0.67 0.68

 剣と魔法      0.82 0.71 0.64 1.00 0.67 0.72 0.68 0.72 0.66

 異世界転生     0.81 0.63 0.71 0.67 1.00 0.64 0.66 0.62 0.65

 ハイファンタジー  0.80 0.68 0.70 0.72 0.64 1.00 0.65 0.71 0.63

 異世界転移     0.80 0.64 0.70 0.68 0.66 0.65 1.00 0.64 0.68

 現地主人公     0.80 0.67 0.67 0.72 0.62 0.71 0.64 1.00 0.64

 異世界召喚     0.80 0.66 0.68 0.66 0.65 0.63 0.68 0.64 1.00


 ……


 四行四連詩    0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

 美型詩      0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

 20の質問     0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

 東芝       0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

 カクヨム作者への 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

 10の質問

 ―――――――――――――――――――――――――――――――――――

 ごくごくごく(中略)ごく一部の結果(※6,757×6,757次元)

 ―――――――――――――――――――――――――――――――――――


「あれ? よく見たらマイナスの値が無いわね」

「実は、今回の計算方法だと必ず 0 以上になるんだ。負の値は存在しない。従って、タグとタグを比較してといったような考察は出来ないぞ」

「そうなんだ」

「また、誤解されそうなんで一応書いておくと、これは確率では無い。あくまで2つの類似性を -1 から1 ――今回の場合は 0 から 1 だけど――にマッピングしただけと言うことを覚えておいて欲しい」

「あ、確率じゃないのか」

「やっぱり誤解してた!」



「ここからはコサイン類似度を用いて実際に考察をしていこう。今回取り上げるのはセルフレイティングだ」

「特殊なタグなのよね。何があるんだっけ」

「『残酷描写有り』、『暴力描写有り』、そして『性描写有り』だ。ケイコちゃんの言う通り、これら3つはタグとは独立に設定する欄が設けられているため、特殊な位置づけになっている」

「なんでわざわざこれから考察するの?」

「表記揺れがほとんど無いからさ。小手調べには丁度良い。

 まずは『残酷描写有り』から見てみよう。このタグとのコサイン類似度が高かった順番に並べると、こういう結果が得られるぞ」


 ――――――――――――――――

 コサイン類似度 sim 昇順ランキング

 対象:『残酷描写有り』タグ(出現作品数:41,728作品)

    ベスト20

 ――――――――――――――――

 1位:0.9648 暴力描写有り (出現作品数:37,157作品)

 2位:0.8145 主人公強い (出現作品数:17作品)

 3位:0.7866 ステータスなし (出現作品数:12作品)

 4位:0.7858 性描写有り (出現作品数:21,003作品)

 5位:0.7832 主人公複数 (出現作品数:10作品)

 6位:0.7827 ダークファンタジー (出現作品数:1,616作品)

 7位:0.7759 殺戮 (出現作品数:27作品)

 8位:0.7745 残虐 (出現作品数:26作品)

 9位:0.7726 残酷な描写あり (出現作品数:13作品)

 10位:0.7692 胸糞注意 (出現作品数:16作品)

 11位:0.7634 異世界ファンタジー (出現作品数:34,894作品)

 12位:0.7600 ダークヒーロー (出現作品数:206作品)

 13位:0.7588 バーサーカー (出現作品数:9作品)

 14位:0.7566 鬱展開 (出現作品数:67作品)

 15位:0.7560 自主企画用設定 (出現作品数:10作品)

 16位:0.7557 残酷 (出現作品数:168作品)

 17位:0.7541 バイオレンス (出現作品数:124作品)

 18位:0.7537 スプラッタ (出現作品数:98作品)

 19位:0.7536 いずれ主人公最強 (出現作品数:51作品)

 20位:0.7532 グロテスク (出現作品数:150作品)

 ――――――――――――――――


「いきなり同じセルフレイティングの『暴力描写有り』が 1 位だわ」

「これは『残酷描写有り』と『暴力描写有り』のセルフレイティングが同時に使われている作品が非常に多い事を示している。それだけでなく、似たようなタグと一緒に使われていると言うことも同時に示唆しているぞ。

 これは、後で『暴力描写有り』のランキングを見たら納得すると思うよ」

「『残酷描写有り』と似たような『残酷な描写あり』ってタグがあるわね。それが上位に来てるってのが不思議だわー。言葉の意味が同じだからかしら?」

「そうじゃない。確かに言葉の意味は同じだけど、それだけじゃこのランキングの上には来られないよ。『残酷な描写あり』も、『残酷描写有り』と一緒に現れるタグを頻繁に使用しているんだろう。そう言った意味で類似度が高いことを示している」

「なるほど、同じようなタグを選択してるのね。だったら素直に『残酷描写有り』を使えばいいのに……」

「それは言っちゃダメ」



「次は、『残酷描写有り』というセルフレイティングがどんなジャンルと関連があるかについて調べていこう」

「そんなことが出来るの?」

「今回コサイン類似度行列を計算するに当たって、作品のジャンルもタグの 1 種類として扱った。ジャンルのキーワードがタグとして含まれている例がかなりあったんだ。『ジャンルは異世界ファンタジーだけど恋愛も扱ってます!』みたいな感じね。

 従って、今回の出現回数はそのジャンルの作品数ではないことに注意が必要だ」

「分かったわ」

「と言うことで、『残酷描写有り』と関連の高いジャンルキーワードはこの様になった」


 ――――――――――――――――

 コサイン類似度 sim 昇順ランキング

 対象:『残酷描写有り』タグ(出現作品数:41,728作品)

    ジャンルキーワード

 ――――――――――――――――

 1位:0.7634 異世界ファンタジー (出現作品数:34,894作品)

 2位:0.5210 現代ファンタジー (出現作品数:23,134作品)

 3位:0.4931 ホラー (出現作品数:10,565作品)

 4位:0.4382 SF (出現作品数:15,676作品)

 5位:0.4180 ミステリー (出現作品数:7,326作品)

 6位:0.3952 歴史・時代・伝奇 (出現作品数:4,085作品)

 7位:0.3394 恋愛 (出現作品数:34,573作品)

 8位:0.2779 ラブコメ (出現作品数:16,688作品)

 9位:0.2114 現代ドラマ (出現作品数:27,394作品)

 10位:0.1688 詩・童話・その他 (出現作品数:17,630作品)

 11位:0.1240 創作論・評論 (出現作品数:1,804作品)

 12位:0.1136 エッセイ・ノンフィクション (出現作品数:8,827作品)

 ――――――――――――――――


「『異世界ファンタジー』は 1 つ前の表で 11 位に入ってたから、当然 1 位ね」

「そうだな。非常に類似度が高いと言う結果になった。『現代ファンタジー』も 2 位であることから、カクヨムのファンタジー系は『残酷描写有り』と非常に関連があるということが分かった」

「3位に『ホラー』というのも納得だわ」

「『SF』、『ミステリー』、『歴史・時代・伝奇』が同じくらいで並んでおり、そこから下はだいぶ類似度が下がる。

 ちょっと意外かなと思ったのは『現代ドラマ』の位置。青春ものが多いせいなのか、使われるタグが多様だからなのかは分からないが、残酷描写とはあまり縁が無いようだ」

「この辺を深掘りしていけば、『現代ドラマ』におけるヒットの要因が分かるかもしれないわね」



「さて、次は逆に『残酷描写有り』タグと類似度が低いワーストタグを紹介しておこう」

「残酷の反対ってことね。ふわふわした雰囲気のタグが多いのかしら」

「最も関連が低いタグから順番に並べたら、こんな結果になったぞ」


 ――――――――――――――――

 コサイン類似度 sim ランキング

 対象:『残酷描写有り』タグ(出現作品数:41,728作品)

    ワースト20タグ

 ――――――――――――――――

 6,756位:0.0020 ショウジョウトキ (出現作品数:9作品)

 6,755位:0.0027 アメリカビーバー (出現作品数:9作品)

 6,754位:0.0030 アリツカゲラ (出現作品数:19作品)

 6,753位:0.0043 シロサイ (出現作品数:12作品)

 6,752位:0.0044 カバンちゃん (出現作品数:12作品)

 6,751位:0.0048 コツメカワウソ (出現作品数:24作品)

 6,750位:0.0049 けもの川柳コンテスト (出現作品数:293作品)

 6,749位:0.0053 フンボルトペンギン (出現作品数:12作品)

 6,748位:0.0054 コウテイペンギン (出現作品数:11作品)

 6,747位:0.0065 ヘラジカ (出現作品数:35作品)

 6,746位:0.0065 マーゲイ (出現作品数:20作品)

 6,745位:0.0069 サーバルちゃん (出現作品数:47作品)

 6,744位:0.0080 論説 (出現作品数:11作品)

 6,743位:0.0083 カクヨム作者への10の質問 (出現作品数:12作品)

 6,742位:0.0088 東芝 (出現作品数:10作品)

 6,741位:0.0089 アルパカ・スリ (出現作品数:14作品)

 6,740位:0.0097 エッセイ風フィクション (出現作品数:30作品)

 6,739位:0.0106 フルル (出現作品数:10作品)

 6,738位:0.0116 けものSSコンテスト (出現作品数:514作品)

 6,737位:0.0122 カクヨム作者はカク語りき (出現作品数:21作品)

 ――――――――――――――――


「なにこれ。動物の名前がいっぱい!」

「これは主に『けものフレンズ』に出てくる登場フレンズ達だ。カクヨムは『けものフレンズ』の2次創作が活発だからな。主人公のカバンちゃんとサーバルちゃんがめでたくランクインしてるね。

 って言うかケイコちゃん。以前、俺と一緒にへ行ったじゃないか。覚えてない?」

「あー、そう言えば……」

「ほら、ちゃんと研究ノートだって残ってる」


カクヨムユーザーの生態~111,402人分のデータを分析してみた

『第22話 111,402人って、どんなジャンルに興味があるの?(二次創作:けものフレンズ編)』

https://kakuyomu.jp/works/1177354054894358323/episodes/1177354054894704321


「思い出した。『けものフレンズ』の『書き手』は結束が強いんだったわね」

「その通りだ。どうやら、タグにすらその傾向が現れているらしい」


 すごーい! わたしたちはタグでもなかよしのフレンズなんだねっ!


「ん? 今誰かの声が聞こえたような……」

「タケル君、朝の出来事で気が滅入ってるのよ! 休みましょう!!」



 ――――――――――――――――

 今日の研究ノートまとめ

 ――――――――――――――――

 ・コサイン類似度を使って『残酷描写有り』と他のタグの関係を調査

 ・ファンタジー作品は残酷描写が多いことが示唆された

 ・『けものフレンズ』は残酷とは無縁! たーのしー!

 ――――――――――――――――


 お知らせ:近々一般タグの分析を行います。取り上げて欲しいタグがありましたら、是非コメントでリクエストをください。よろしくお願いします。

  • Twitterで共有
  • Facebookで共有
  • はてなブックマークでブックマーク

作者を応援しよう!

ハートをクリックで、簡単に応援の気持ちを伝えられます。(ログインが必要です)

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

マイページ
読書の状況から作品を自動で分類して簡単に管理できる
小説の未読話数がひと目でわかり前回の続きから読める
フォローしたユーザーの活動を追える
通知
小説の更新や作者の新作の情報を受け取れる
閲覧履歴
以前読んだ小説が一覧で見つけやすい
新規ユーザー登録無料

アカウントをお持ちの方はログイン

カクヨムで可能な読書体験をくわしく知る