私の計量テキスト分析ルール
第2話 まずは、分析用データの作成と前処理
まず、基本的な計量テキスト分析の操作方法や理屈などのあれこれについては割愛します。
詳細はカクヨム内 近藤近道 @chikamichi 氏による『計量テキスト分析で小説を分析する簡単な方法を布教します!』(https://kakuyomu.jp/works/1177354054888396228)をぜひお読みください。
さて、【分析用データ】の作成です。
私の場合は既に完結している二次創作小説を分析用データとして用いています。また一つの作品につき、下記のとおりに分析用データを作成しました。
①作品単独での分析用データ
②複数作品を比較するための分析データ
①はその通り、一作の分析を行うためのデータです。第何章、第何話のテキストか、という情報と紐づけています。
これはたとえば「この単語は何話から出てきたんだろう?」とか、「このキャラは何話から出てきたんだろう?」など、連載の流れを掴むために必須のデータだと考えています。実際、コーディングルールによって「ここで話の流れがこうなったんだな……」という振り返りにとても役立ちました。
②は逆に、作品毎の傾向を比較するためのデータです。自分の中で完結している作品を複数比較してみて、「この作品ではこのキャラを書いていたけど、この作品では全然登場していないな」だとか、そういったことが読み取れます。
さらには登場する単語によって、「この作品はこういう雰囲気の話だったのかもしれない…」という振り返りにも活用できると考えます。
今後は①を【作品データ】、②を【総合データ】として区別したいと思います。自己分析のために適したデータを用いることは重要かと思いますので。
さて、もう一つ需要なのが前処理のための【語の取捨選択】です。
私の場合は同じ作品の二次創作小説を分析しているため、データを分析する際の前処理ルールも揃えておくに越したことはないと考えました。実験の際の条件を揃えるというのもまた、分析のために重要なことかと思いますので。
特に二次創作小説を分析するにあたって『原作用語の登録』は必須になるかと思います。登場人物はもちろん、地名や能力名や道具の名前、エトセトラ……。特にこれらは後程コーディングルールにも用いておりますので、情報を洗い出して、前処理用ルールのテキストファイルは、全分析データ共通のものとしています。
以上が、私が自分の二次創作小説を分析するにあたって行った前準備です。以後の備忘録については常に、これらのデータを用いて前処理を行ったものの分析結果とします。
新規登録で充実の読書を
- マイページ
- 読書の状況から作品を自動で分類して簡単に管理できる
- 小説の未読話数がひと目でわかり前回の続きから読める
- フォローしたユーザーの活動を追える
- 通知
- 小説の更新や作者の新作の情報を受け取れる
- 閲覧履歴
- 以前読んだ小説が一覧で見つけやすい
アカウントをお持ちの方はログイン
ビューワー設定
文字サイズ
背景色
フォント
組み方向
機能をオンにすると、画面の下部をタップする度に自動的にスクロールして読み進められます。
応援すると応援コメントも書けます