前のエピソード――KH Coderで読み込むファイルを作ろう！

前回までの手順で、

KH Coderに入力するエクセルデータの用意が終わりました。

なので今回はKH Coderを起動して、

前回用意したエクセルファイルを読み込ませます。

「プロジェクト」→「新規」を選びます。

そうすると新規プロジェクトというウィンドウが出てきます。

分析対象ファイルの「参照」からエクセルファイルを指定します。

あとは他の部分には触れずに「ＯＫ」を押して大丈夫です。

ただ、分析対象が日本語以外の場合は、ここの画面で変更を行います。

説明（メモ）の欄になにか記入した場合は、

「プロジェクト」→「開く」から既存のプロジェクトを読み込む際に、そのメモが表示されます。

基本的にファイル名だけで区別が付くので、メモは不要だと思います。

しかしファイル名で判別できない場合には、このメモを利用しましょう。

ファイルを開けたら、次に行うのが前処理です。

前処理では、KH Coderで分析するためのファイルを作成します。

たとえば、形態素解析という作業が行われます。

これは文章を単語に分解する作業です。

「確かにつぐみは、いやな女の子だった。」

という文章であれば、

「確か/に/つぐみ/は/、/いや/な/女の子/だっ/た/。」

というように分解されます。

「女の子」が「女/の/子」ではなく一語として扱われているのは、

形態素解析用の辞書に「女の子」で一つの単語であると登録されているためです。

形態素解析を行った結果のファイルなどが、前処理によって自動で生成されます。

しかし、前処理を行う前にやっておきたい作業があります。

「前処理」→「テキストのチェック」及び、

「前処理」→「語の取捨選択」です。

テキストのチェックでは、

KH Coderで分析する際にエラーが出てしまいかねない文字列を調査・修正してくれます。

文字コードの問題とかあったりします。

まあ、チェックしなくても、問題なく分析が行えることもありますが。

でも安心安全のためにチェックしておく方が良いでしょう。

そして、語の取捨選択では、

抽出する品詞を選んだり、

強制的に単語として扱う語を指定できたりします。

まず抽出する品詞については、

「品詞による語の選択」という欄から操作ができます。

初期設定でほとんどが抽出される設定になっています。

なので基本的にいじる必要はありません。

しかし「その他」に分類される語は初期設定では抽出されません。

「その他」には「、」「。」などの記号であったり、

「私」「僕」のような一人称、てにをは、

など多くの語が含まれています。

種類も出現数もあまりにも多いので、これを抽出する設定にすると、前処理の時間が少し長くなります。

データもぱっと見で理解しにくくなるので、初回から抽出することはオススメしません。

慣れてきたら、挑戦してみると良いでしょう。

ここまでの作業をした段階でも、前処理に移ることは可能です。

でもこの「語の取捨選択」では、品詞の選択以外にもできることがあります。

それは、

「強制抽出する語の指定」と、

「使用しない語の指定」です。

強制的に一つの単語として取り出せるようにしたり、

分析に使う言葉から除外したりできるということですね。

作業手順は簡単なものの、説明としては複雑になるので、

次回に続きます。

作者を応援しよう！

ハートをクリックで、簡単に応援の気持ちを伝えられます。（ログインが必要です）

応援したユーザー

新規登録で充実の読書を

マイページ: 読書の状況から作品を自動で分類して簡単に管理できる; 小説の未読話数がひと目でわかり前回の続きから読める; フォローしたユーザーの活動を追える
通知: 小説の更新や作者の新作の情報を受け取れる
閲覧履歴: 以前読んだ小説が一覧で見つけやすい

カクヨムで可能な読書体験をくわしく知る

次のエピソード下準備の後編です！分析開始までもう少し！

作者を応援しよう！

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

文字サイズ

背景色

フォント

組み方向

応援の気持ちを届けよう

フォロー機能を活用しよう

フォロー機能を活用しよう