前処理をするための下準備をするぞ!

前回までの手順で、

KH Coderに入力するエクセルデータの用意が終わりました。


なので今回はKH Coderを起動して、

前回用意したエクセルファイルを読み込ませます。



「プロジェクト」→「新規」を選びます。

そうすると新規プロジェクトというウィンドウが出てきます。

分析対象ファイルの「参照」からエクセルファイルを指定します。


あとは他の部分には触れずに「OK」を押して大丈夫です。

ただ、分析対象が日本語以外の場合は、ここの画面で変更を行います。


説明(メモ)の欄になにか記入した場合は、

「プロジェクト」→「開く」から既存のプロジェクトを読み込む際に、そのメモが表示されます。


基本的にファイル名だけで区別が付くので、メモは不要だと思います。

しかしファイル名で判別できない場合には、このメモを利用しましょう。



ファイルを開けたら、次に行うのが前処理です。

前処理では、KH Coderで分析するためのファイルを作成します。


たとえば、形態素解析という作業が行われます。

これは文章を単語に分解する作業です。


「確かにつぐみは、いやな女の子だった。」

という文章であれば、


「確か/に/つぐみ/は/、/いや/な/女の子/だっ/た/。」

というように分解されます。


「女の子」が「女/の/子」ではなく一語として扱われているのは、

形態素解析用の辞書に「女の子」で一つの単語であると登録されているためです。


形態素解析を行った結果のファイルなどが、前処理によって自動で生成されます。



しかし、前処理を行う前にやっておきたい作業があります。

「前処理」→「テキストのチェック」及び、

「前処理」→「語の取捨選択」です。



テキストのチェックでは、

KH Coderで分析する際にエラーが出てしまいかねない文字列を調査・修正してくれます。

文字コードの問題とかあったりします。


まあ、チェックしなくても、問題なく分析が行えることもありますが。

でも安心安全のためにチェックしておく方が良いでしょう。



そして、語の取捨選択では、

抽出する品詞を選んだり、

強制的に単語として扱う語を指定できたりします。



まず抽出する品詞については、

「品詞による語の選択」という欄から操作ができます。


初期設定でほとんどが抽出される設定になっています。

なので基本的にいじる必要はありません。

しかし「その他」に分類される語は初期設定では抽出されません。


「その他」には「、」「。」などの記号であったり、

「私」「僕」のような一人称、てにをは、

など多くの語が含まれています。

種類も出現数もあまりにも多いので、これを抽出する設定にすると、前処理の時間が少し長くなります。


データもぱっと見で理解しにくくなるので、初回から抽出することはオススメしません。

慣れてきたら、挑戦してみると良いでしょう。



ここまでの作業をした段階でも、前処理に移ることは可能です。

でもこの「語の取捨選択」では、品詞の選択以外にもできることがあります。


それは、

「強制抽出する語の指定」と、

「使用しない語の指定」です。


強制的に一つの単語として取り出せるようにしたり、

分析に使う言葉から除外したりできるということですね。


作業手順は簡単なものの、説明としては複雑になるので、

次回に続きます。

  • Xで共有
  • Facebookで共有
  • はてなブックマークでブックマーク

作者を応援しよう!

ハートをクリックで、簡単に応援の気持ちを伝えられます。(ログインが必要です)

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

マイページ
読書の状況から作品を自動で分類して簡単に管理できる
小説の未読話数がひと目でわかり前回の続きから読める
フォローしたユーザーの活動を追える
通知
小説の更新や作者の新作の情報を受け取れる
閲覧履歴
以前読んだ小説が一覧で見つけやすい
新規ユーザー登録無料

アカウントをお持ちの方はログイン

カクヨムで可能な読書体験をくわしく知る