テキストマイニングの応用
マゼンタ
分析の背景とエピソードの概要
自分の小説に足りないものを調べる、という目的で、テキストマイニングでいろいろ試しています。
このエピソードでは、分析の背景と各エピソードの概要をまとめています。
文末に、分析に用いたテキストマイニングツールや参考文献も一覧にしております。
分析は全てフリーソフトを使用しています。データの収集や集計など手間のかかる部分もありますが、ソフトは全て無料です。
【分析の背景】
『文体の類似度を考慮したオンライン小説推薦手法の提案』という文献で、小説を購入する際に考慮する項目として、表紙のデザイン、著者、ジャンル、文章の言い回し、本のサイズ、語彙が挙げられています。
この文献によれば、文章の言い回しについては3割の人がしっかり考慮し、4割弱の人が少しは考慮すると回答しています。語彙については、1割強がしっかり考慮、5割強が少しは考慮するという結果です。
論文の著者らは、文章の言い回しと語彙を文体と定義しています。
つまり、6割から7割近い人が小説の文体を購入する際に気にしていると考えられます。
Web小説投稿サイトであるカクヨムも、同様であるとは限りませんが、あらゆる文体を駆使することができれば自然と読者も増えるのではないか、とも考えられます。
文体というと曖昧ですが、各エピソードの示すように、感情表現、品詞の頻度、著者推定で使われる文体の特徴量など、具体的に対象を絞って調査と分析を行っています。また、文体だけではなく、Web小説において表紙のデザインや本のサイズに該当する項目を調査するためタグなどに注目しています。
【各エピソードの概要】
〇感情表現の割合
感情表現一覧を作成し、句点で区切られた文中の頻度を調べました。カクヨムの作品を1000篇集め調査した結果と比較しています。私の小説は、感情表現が少ないことがわかりました。
〇感情曲線
文のポジネガや感情の起伏を可視化しています。太宰治の『走れメロス』や新美南吉の『手袋を買いに』と比較しています。ネガティブな文章が多いことなどがわかっています。
〇決定木を用いた文体調査
自分の小説と文豪達の小説で決定木を作り、文体の特徴を調べています。著者推定でよく用いられるタグのn-gramや助詞の頻度を使用しています。私の小説は、格助詞『へ』を使わない、一般名詞-連体化助詞の頻度が少ないなどの結果が得られています。
〇スタイル性・リズム性・明晰性の因子
相の類率や体言終了率などの単語や文の特徴を調べ、自分が書いた文章の印象を3つに分類しています。カクヨムの作品と比較した結果、リズム性が低い(形容詞や副詞を用いた表現、文末のバリエーションが少ない)ということがわかりました。
〇読みやすさの指標(日本語文章難易度判定システムの紹介)
リーダビリティ公式で自分の小説を分析しています。文の長さや漢語、動詞の比率により、文の印象が変わることがわかりました。なお、印象はあくまで自己評価です。
〇接続詞と星の関係
接続詞の一覧を作成し、文中の頻度を調べています。頻度と星の数に関係があるか調べましたが、ほとんど差はありませんでした。
〇名詞でみるジャンルの特徴と傾向
カクヨムの作品について、名詞の頻度をジャンル別に調べました。TOP10を紹介しています。
〇頻出動詞
カクヨムの作品から頻出動詞のリストを作りました。リストに含まれる動詞が、自分の作品でどれだけ使われているか調べました。結果、頻出動詞の割合が多いことがわかりました。
〇キーワードのリストアップ
KH Coderを使用して語彙を増やす方法を考えました。
〇自分と似た作者 そうでない作者
対応分析により、語の選択が似ているカクヨムの作者を調べました。具体的な作者名は公開していません。
〇異世界ファンタジーの傾向
カクヨムで投稿作品が多いと考えられる異世界ファンタジーについて、KWICK(keyword in context)検索などで典型的な文章を調べました。
〇タグの頻度と相関ルール
タグに注目し相関ルールを調査しました。使用頻度の高いタグと組み合わせを紹介しています。分析結果を踏まえ、作品には文字数の情報、ジャンル、世界設定などを説明するタグをつけ、頻度が極端に多くなく少なくもない言葉を選ぶのがよいと考えています。
○カクヨム作家様の文体 その1 平均文長・漢字かなの使用率
自主企画で参加者を募集し、参加頂いた方の文体を調べました。このエピソードでは、平均文長の長い作品や漢字使用率の多い作品などを具体的紹介しています。
○カクヨム作家様の文体 その2 品詞のbigram
このエピソードでは、品詞のbigramを用いてクラスター分析や決定木分析を行い、作家様の文章的な特徴を抽出しています。
○カクヨム作家様の文体 その3 品詞のbigram
その2と同様に品詞のbigramの頻度を調べています。その2とは違った作家様について、文章的な特徴を抽出しています。
○カクヨム作家様の文体 その4 単語の頻度
特徴量として、人称代名詞の比率、接続詞の割合、感情表現の割合を取り上げ、分析致しました。自主企画に参加頂いた作家の皆さんを対象として、割合が多い方や少ない方の作品を具体的に紹介しています。
〇語彙を増やすためのテキストマイニング
頻度の低い語の意味と、その語の用例をまとめています。このエピソードでは、形容動詞かつ頻度が一回の単語うち、33語を紹介しています。
【参考】
・テキストマイニングの本音
https://kakuyomu.jp/works/1177354054894020575
こちらは、カクヨムに投稿しているエッセイです。テキストマイニングをしていて思ったことや感じたことを文章にしています。自己紹介もかねて、50の質問などにも答えています。
【使用したツールの紹介】
〇KH Coder
https://khcoder.net/
研究分野などでよく使われているソフトです。こちらはインストールが必要となりますが、インストールは簡単です。
〇MT MineR
https://mjin.doshisha.ac.jp/MTMineR/html/menu.html
決定木やSVMなどの分析ができます。こちらもインストールが必要です。
〇jReadability Portal
https://jreadability.net/
ブラウザで動作します。インストールは不要です。共起ネットワーク、語彙の難易度などなど、文章を張りつけるだけでテキストマイニングができます。おすすめです。
〇AIテキストマイニング by ユーザーローカル
https://textmining.userlocal.jp/
こちらもブラウザ上で動作します。こちらは感情分析が行えますが、ユーザー登録が必要です。登録は無料です。
〇Orange
https://orange.biolab.si/
Orange(オレンジ)はインストールが必要なソフトです。相関ルール分析、ニューラルネットワーク、ランダムフォレストなどの分析が行えます。テキストマイニング用のソフトというよりは、データマイニング用のソフトです。
【参考文献】
〇文体の類似度を考慮したオンライン小説推薦手法の提案
https://db-event.jpn.org/deim2017/papers/207.pdf
〇テキストの多様性をとらえる分類指標の体系化の試み
https://www.anlp.jp/proceedings/annual_meeting/2011/pdf_dir/P3-27.pdf
〇テキストの多様性をとらえる分類指標の体系化の試み(2)
https://www.anlp.jp/proceedings/annual_meeting/2012/pdf_dir/P2-2.pdf
〇決定木を用いた文体調査
https://www.jstage.jst.go.jp/article/jbhmk/41/1/41_35/_pdf/-char/ja
〇読みやすさの指標(日本語文章難易度判定システムの紹介)
https://waseda.repo.nii.ac.jp/?action=repository_action_common_download&item_id=35923&item_no=1&attribute_id=162&file_no=1
※PDFファイルのダウンロードリンクです
〇テキストマイニングを用いた筆者識別へのスコアリング導入
https://www.jstage.jst.go.jp/article/jafst/advpub/0/advpub_715/_pdf/-char/ja
〇村上春樹の日本語はなぜ面白いのか――文体を中心に――
http://commons.emich.edu/cgi/viewcontent.cgi?filename=0&article=1000&context=catj&type=additional
※PDFファイルのダウンロードリンクです
テキストマイニングの応用 マゼンタ @mazenta
★で称える
この小説が面白かったら★をつけてください。おすすめレビューも書けます。
カクヨムを、もっと楽しもう
カクヨムにユーザー登録すると、この小説を他の読者へ★やレビューでおすすめできます。気になる小説や作者の更新チェックに便利なフォロー機能もお試しください。
新規ユーザー登録(無料)簡単に登録できます
この小説のタグ
関連小説
テキストマイニングの本音/マゼンタ
★20 エッセイ・ノンフィクション 完結済 12話
ネクスト掲載小説
ビューワー設定
文字サイズ
背景色
フォント
組み方向
機能をオンにすると、画面の下部をタップする度に自動的にスクロールして読み進められます。
応援すると応援コメントも書けます