第6話 他人の文章を真似る環境を作りたいなぁ~の話
他人のやっていることを丸々パクるのは悪いことですが、
他の人が持っている優れた技をパクるのは良いことだと思います。
もっとマイルドな言い方をすると、
職人さんが「目で盗め!」とか言ってくる時の「盗む」ですね。
盗むっていうと色々語弊あり衛門ですが、
「学ぶ」って言葉に近い意味合いでござる。
でも目で盗むのは大変なので、パソコン様の力を利用してパクりたい。
パソコンでパクれ!!
それを具体的にどうやるか。
そんでもって、どうやって誰でもできるくらい簡略化するか。
これを他人に丸投げしたいけど、
丸投げを受け取ってくれる奇人が現れるまでは自分でやります。
まず分析対象となる文章データについて。
これは自力でコピペしてもらうのが良さそうです。
ウェブスクレイピングと呼ばれるような、ウェブ上からデータを抽出するツールを使う場合、それで得たデータを他人に渡すのは違法になる可能性があります。
そうでなくても、他人と共有すると私的利用の範囲を超えかねないですし。
なので「代わりに収集してあげるよ!」てな親切心は捨てます。
文章データを楽ちんに収集できるツールを公開、までなら良いかもですけども。
でもあくまで、実際に収集する作業は君の手でやろう!ってな感じで。
そういう著作権について、きちんと調べた上で開発したツールであれば、
サーバーへの負荷をかけないように配慮したりとか、
法に則った仕様にできるでしょうから、
そういうツールを公開するっていうのは有意義だと思っています。
法的な問題だけでなく、
ツールを使ってもらうことによってデータの形を統一できる点も優秀ですね。
それぞれの作業から個人差の出る要素を減らせれば、マニュアルが作りやすくなります。
で、それをKH Coderに分析させる。
……そこから、一体どうしたら??
あ、KH Coderとの関係がちょっと薄いんですけども、
文長を調べる方法を考えました。
KH Coderにファイルを読み込ませて前処理を行うと、
・総抽出語数
・異なり語数
というものが出ます。
総抽出語数は、重複分を含めた単語の数。
そして異なり語数は、何種類の単語があったかを示しています。
このうち、総抽出語を利用することで、
「一文が平均何語で出来ているか?」
を求めることができます。
文の終わりは、
・。
・」
・!
・?
のいずれかになるはずです。
!?」
みたいな形になっている時の集計はどうするんだ問題はあるんですけども、
1.!が来たら、次の文字をチェック。
2.次の文字が、?とか」とかでないなら、そこを文末と判断。
3.?とか」とかだったら、1に戻って再チェック。
というような処理をすれば、どうにかなるはずです!!
そんでもって、
総抽出語数÷上記の語の合計
で一文あたりの平均語数を求められます。
ちなみに実際に何文字かを調べるのも、
一文を正確に区切ることさえできていれば、
簡単なプログラムで実現できます。
それら、一文ごとの語数なり文字数なりを求めたら、
そのデータを全部エクセルファイルにまとめちゃいます。
これで単なる平均だけでなく、
「〇〇語~~××語の範囲の文章が多い」
みたいなデータをたぶんきっと導き出せるはず!!!
数的な傾向だけでなく、
「それじゃあ語数が少ない場合はどんな文章なのか?」
なんてのもチェックしやすくなるかと。
プログラミングを頑張れば、
mecabで形態素解析をした際に、それぞれの語が形容詞なのかとかチェックしてそれぞれの回数を記録しておくことで、
動詞やら形容詞やらが出てくる傾向なんかも見やすくなるでしょうね。
プログラミングを頑張ればそこまで実装可能なのは知っています。
ですが私はプログラミング始めたのが今年の1月という新米もいいところ。
他人が使うことを想定した、ちゃんとしたソフトウェアは作れません。
できればこっちも他人に丸投げしたい丸~~!!
新規登録で充実の読書を
- マイページ
- 読書の状況から作品を自動で分類して簡単に管理できる
- 小説の未読話数がひと目でわかり前回の続きから読める
- フォローしたユーザーの活動を追える
- 通知
- 小説の更新や作者の新作の情報を受け取れる
- 閲覧履歴
- 以前読んだ小説が一覧で見つけやすい
アカウントをお持ちの方はログイン
ビューワー設定
文字サイズ
背景色
フォント
組み方向
機能をオンにすると、画面の下部をタップする度に自動的にスクロールして読み進められます。
応援すると応援コメントも書けます