前処理をするための下準備をするぞ!
前回までの手順で、
KH Coderに入力するエクセルデータの用意が終わりました。
なので今回はKH Coderを起動して、
前回用意したエクセルファイルを読み込ませます。
「プロジェクト」→「新規」を選びます。
そうすると新規プロジェクトというウィンドウが出てきます。
分析対象ファイルの「参照」からエクセルファイルを指定します。
あとは他の部分には触れずに「OK」を押して大丈夫です。
ただ、分析対象が日本語以外の場合は、ここの画面で変更を行います。
説明(メモ)の欄になにか記入した場合は、
「プロジェクト」→「開く」から既存のプロジェクトを読み込む際に、そのメモが表示されます。
基本的にファイル名だけで区別が付くので、メモは不要だと思います。
しかしファイル名で判別できない場合には、このメモを利用しましょう。
ファイルを開けたら、次に行うのが前処理です。
前処理では、KH Coderで分析するためのファイルを作成します。
たとえば、形態素解析という作業が行われます。
これは文章を単語に分解する作業です。
「確かにつぐみは、いやな女の子だった。」
という文章であれば、
「確か/に/つぐみ/は/、/いや/な/女の子/だっ/た/。」
というように分解されます。
「女の子」が「女/の/子」ではなく一語として扱われているのは、
形態素解析用の辞書に「女の子」で一つの単語であると登録されているためです。
形態素解析を行った結果のファイルなどが、前処理によって自動で生成されます。
しかし、前処理を行う前にやっておきたい作業があります。
「前処理」→「テキストのチェック」及び、
「前処理」→「語の取捨選択」です。
テキストのチェックでは、
KH Coderで分析する際にエラーが出てしまいかねない文字列を調査・修正してくれます。
文字コードの問題とかあったりします。
まあ、チェックしなくても、問題なく分析が行えることもありますが。
でも安心安全のためにチェックしておく方が良いでしょう。
そして、語の取捨選択では、
抽出する品詞を選んだり、
強制的に単語として扱う語を指定できたりします。
まず抽出する品詞については、
「品詞による語の選択」という欄から操作ができます。
初期設定でほとんどが抽出される設定になっています。
なので基本的にいじる必要はありません。
しかし「その他」に分類される語は初期設定では抽出されません。
「その他」には「、」「。」などの記号であったり、
「私」「僕」のような一人称、てにをは、
など多くの語が含まれています。
種類も出現数もあまりにも多いので、これを抽出する設定にすると、前処理の時間が少し長くなります。
データもぱっと見で理解しにくくなるので、初回から抽出することはオススメしません。
慣れてきたら、挑戦してみると良いでしょう。
ここまでの作業をした段階でも、前処理に移ることは可能です。
でもこの「語の取捨選択」では、品詞の選択以外にもできることがあります。
それは、
「強制抽出する語の指定」と、
「使用しない語の指定」です。
強制的に一つの単語として取り出せるようにしたり、
分析に使う言葉から除外したりできるということですね。
作業手順は簡単なものの、説明としては複雑になるので、
次回に続きます。
新規登録で充実の読書を
- マイページ
- 読書の状況から作品を自動で分類して簡単に管理できる
- 小説の未読話数がひと目でわかり前回の続きから読める
- フォローしたユーザーの活動を追える
- 通知
- 小説の更新や作者の新作の情報を受け取れる
- 閲覧履歴
- 以前読んだ小説が一覧で見つけやすい
アカウントをお持ちの方はログイン
ビューワー設定
文字サイズ
背景色
フォント
組み方向
機能をオンにすると、画面の下部をタップする度に自動的にスクロールして読み進められます。
応援すると応援コメントも書けます