下準備の後編です!分析開始までもう少し!

前回、「語の取捨選択」から分析に使う品詞の指定までを行いました。

今回はそこからさらに強制的に抽出する語を指定していきます。


「強制抽出する語の指定」という欄と、

「使用しない語の指定」という欄があります。

そこに入力していきます。


たとえば「スマホ」って語は登録されていないので、

「スマ」と「ホ」みたいな感じで、複数の語に分解されてしまいます。

でも、「強制抽出する語の指定」の欄に「スマホ」と入力しておけば、

「スマホ」という語として認識してくれるわけですね。

(面倒くさければ「スマ」=「スマホ」だろうと推測してデータを見ることもできますが)


ちなみに強制抽出した語は全て「タグ」という品詞として扱われます。



個人的に重要と思っているのが、

登場人物を強制抽出する語に指定することです。

というのも、特に日本人の名前は機械にとってややこしいからです。

たとえば「空」って名前だったとします。

人名として認識する能力はほぼないので、普通は名詞の「空」として認識されます。

なので普通の空と名前の空が混ざった状態でカウントされてしまいますが、

これは仕方のないことです。


問題は「空くん」などと書いていた部分が「空く」という動詞として認識されている可能性があることです。

「空」もしくは「空く」でカウントされてしまう。

こうなると話は凄くややこしくなります。


また二文字以上の名前だと、途中で分割されてしまうかもしれませんね。

「桜空」って名前だったとして、「桜/空」に分けられてしまう、と。

カタカナの名前でも、同様のことは起こり得ます。


なので名前は強制抽出する語に指定してしまうのが良いでしょう。

それでも普通の空と名詞の空の区別はつきませんので、そこは諦めます。


もし分析のしやすさを意識した上でキャラの名前を付けるのであれば、

二文字以上にすることがポイントになります。

もし名前が一文字だと、先ほどの「空」のようなパターンに陥りがちです。

でも二文字以上なら、その名前を強制抽出語として指定するだけで、大体の問題は解消されます。

「青空」とか、名詞としてありふれているような名前にでもしない限り、出現回数は正確に調べられます。



そして「使用しない語の指定」に記入した語は、分析から除外できます。

ここで重要になるのは、「抽出された語を指定する」ということです。


たとえば「スマホ」を除外しようと考えたとします。

この場合、そもそも「スマホ」という語が抽出されていなければなりません。

先ほど書きましたが、「スマホ」は通常「スる」など複数の語として抽出されます。


いわば「スマホ」という語は存在していない扱いです。

なのでその状態で「スマホ」を除外しても、結果にはなんの変化も起こりません。


「スマホ」を除外するためには、

まず強制抽出する語として「スマホ」を指定して、

その上で「スマホ」を使用しない語に指定しなくてはなりません。



使用しない語として、なにを指定するべきか?

ということについてですが、

分析の時に邪魔だと思った語を取り除くために使います。


ただ、1作品のみを分析する時には、あまりそのようなことは起こらないと思います。

複数の作品を比較する際に、この操作が必要になってきます。


たとえば「転生」という語です。

これは特定のジャンルでのみ使われる語で、一般的には用いられない語です。

なので1回も使わない作品もあれば、たくさん使う作品もあります。


「それぞれの作品の文章の特徴を調べたい」という場合、

このような「ジャンル依存の語」は邪魔になります。


また複数の作品を比較する際には、人の名前もノイズになりがちです。


ちなみに「使用しない語の指定」に限り、

前処理が終わった後でも指定することができます。

そして、何度でも指定し直せます。



それから「強制抽出する語の指定」「使用しない語の指定」ともに、

テキストファイルからの指定も行えます。


その場合、


つぐみ

スマホ

転生


というように記入したテキストファイルを用います。



ここまでの操作が終わったら、

いよいよ前処理を実行しましょう!

「前処理」→「前処理の実行」から、前処理を行います。


この時、

「この処理には時間がかかる場合があります。続行してよろしいですか?」

という確認のメッセージが出てきます。

そこで[OK]を選択すると、処理が開始されます。


1作品だけなら、けっこうすぐに処理は終わると思います。

私はそうスペックの高くないノートパソコンを使用していますが、

それでも10万文字の作品で1~2分といったところです。


ただし文字数が多くなると、それだけ所要時間は多くなります。

以前、300作品くらい入れたデータを読み込ませたことがあります。

そうしたら前処理するのに5~6時間かかりました。



前処理が終わると、ようやく分析ができます。

なので次回から、実際にどんな分析をするのか紹介します。

  • Twitterで共有
  • Facebookで共有
  • はてなブックマークでブックマーク

作者を応援しよう!

ハートをクリックで、簡単に応援の気持ちを伝えられます。(ログインが必要です)

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

マイページ
読書の状況から作品を自動で分類して簡単に管理できる
小説の未読話数がひと目でわかり前回の続きから読める
フォローしたユーザーの活動を追える
通知
小説の更新や作者の新作の情報を受け取れる
閲覧履歴
以前読んだ小説が一覧で見つけやすい
新規ユーザー登録無料

アカウントをお持ちの方はログイン

カクヨムで可能な読書体験をくわしく知る