補足情報:集計単位の「文」とか「段落」ってなんなの?

マニュアルを読まない人のマニュアルは、前回で終わりです。

ここまでお疲れ様でした。


あえて説明を避けてきた部分の中で、

集計単位の「文」だの「段落」だのの説明をしておきたいと思います。


というのも、ここを理解すると、分析の幅が広がるからです。


今回も例を見せて説明した方がわかりやすいと思うので、

こんな文を例にしてみます。



あいうえお。かきくけこ。

さしすせそ。

たちつてと。なぬにねの。



上の文章を分析する場合、

集計単位を「文」にすると、


”あいうえお。”

”かきくけこ。”

”さしすせそ。”

”たちつてと。”

”なぬにねの。”


という区切り方になります。

つまり、句点(。)が基準になります。



これが集計単位を「段落」にすると、


”あいうえお。かきくけこ。”

”さしすせそ。”

”たちつてと。なぬにねの。”


となります。

改行が基準になるんですね。



さらに集計単位を「H5」にすると、


”あいうえお。かきくけこ。

さしすせそ。

たちつてと。なぬにねの。”


となります。

1話丸ごとを1つの文章として扱います。

厳密に言うと「エクセルファイルのセル1個」という単位です。



なお小説では、会話文で句点を使わずに改行することが多くあると思います。


「おはよう」

 と彼女は言った。


みたいな感じで。

これを「文」で集計した場合、どうなるのでしょうか?


”「おはよう」”

” と彼女は言った。”


と区切られます。

句点(。)が無くても、改行があれば文章の区切りと認識されるのです。



小説を分析する際には、

ここらへんの仕様を知らなくても問題ありません。

「文」でも「段落」でもそう結果に差は出ません。


ウェブ小説であれば、

一文ごとに改行する作品も多いですからね。



でも、

・小説のあらすじ

・レビュー

・応援コメント

を分析する場合には、

この仕様をわかっていた方が的確に分析が行えます。


これから、レビューなどを分析する方法も紹介していく予定なので、

このタイミングでKH Coderの仕様についてお話しました。



説明が複雑で難しい部分については、

このように、なるべく説明を後回しにします。


簡単にできるところから始めて、

徐々に難しいことにも挑戦していく、

という方針で今後もやっていきます。


焦らず、徐々に慣れていきましょう!!

  • Xで共有
  • Facebookで共有
  • はてなブックマークでブックマーク

作者を応援しよう!

ハートをクリックで、簡単に応援の気持ちを伝えられます。(ログインが必要です)

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

マイページ
読書の状況から作品を自動で分類して簡単に管理できる
小説の未読話数がひと目でわかり前回の続きから読める
フォローしたユーザーの活動を追える
通知
小説の更新や作者の新作の情報を受け取れる
閲覧履歴
以前読んだ小説が一覧で見つけやすい
新規ユーザー登録無料

アカウントをお持ちの方はログイン

カクヨムで可能な読書体験をくわしく知る