AIは小説をどう評価するか? 四つのAIを比べてみる
あやべまさし
はじめに AIはどういう具合に機能しているのか
AIに小説を書かせるという話題が多い昨今です。
カクヨムでは、生成AIを利用した作品に「AI本文利用」(本文50%以上をAI生成)、「AI本文一部利用」(本文50%未満をAI生成)、「AI補助利用」(アイデアや校正などで補助的に利用)の3つのタグを推奨しています。
AIは、学習した情報に基づき、指示されたテキストを生成しますから、材料となる大まかな設定やあらすじなどを与えれば、“同じような”作品を作り出してくれます。そういう執筆の仕方で作品を作ることが好きな人、そういう作品を好む人がそれなりの割合で存在することは承知していますが、私は好みません。そういうやり方は、もはや創作活動と言えないと思うからです。
では、「おまえはAIを使ってないのだな」と言われると、私もAIを利用しています。使い方は高機能の校正用のツールとしてです。
私は原稿をマイクロソフトワードで作成しています。ワードにも校正機能は備わっていますが、その機能は、あからさまな文法上の間違い、例えば、カギカッコの片方がないとか、句読点を繰り返しているとか、送り仮名がおかしいというレベルにとどまります。
これに対してAIは、文脈を配慮したうえでの誤字の指摘、例えば「正:国を治める」「誤:国を納める」のような指摘が可能ですし、万全とは言えませんが歴史的事実の年代や人名の誤りの指摘、専門的分野における記述の誤りの指摘、ストーリー上の矛盾、登場人物の一貫性の破綻の指摘などを行うことが可能です。
カクヨム基準でいえば「AI補助利用」(アイデアや校正などで補助的に利用)に当てはまりますが、作品の骨格となるアイデアや個性が出る文体などについてはAIに委ねないという使い方です。別の言い方をするなら、AIを細かなことまで気が利く編集者として使っています。
もう一つの創作のおけるAIの使い方は「作品を評価させる」という使い方だと思いますが、私はいまだもって原理的にそれが可能とは思えません。
創作の本質は「未だもって誰も作り出すことができなかった価値の創造」です。例えば、詩人・安西冬衛の代表的な一行詩「てふてふが一匹韃靼海峡を渡って行った」が、この世にまだなかったと仮定して、つまりAIがこの詩は傑作だという評価を知らなかったとして、この詩を評価せよと指示したとき、AIはその価値を見出すことができないと思います。
「てふてふ」の字面に込められたか弱さ、心細さ、それでいて渡りもする逞しさ、それに対して「韃靼海峡」の重々しさ、荒々しさ、寂寥感などを対比させ、海峡の風の中を飛ぶ蝶々を心に描き、声に出して読んでみてのリズムまで評価することがAIにできるとは思えないのです。
あたかも、文芸にまったく興味がない人がこの詩を何も知らずに読んだ時に予想される「ちょうちょが海峡を渡った、それで?」という反応になろうかと思います。
なぜそう考えるかというと、今のAIが“既知の価値評価”に大きく依存しているからです。AIは、大規模言語モデル(LLM)として機能しています。つまり、既存の文芸批評、過去の評価のパターン、一般読者の受容傾向などを参照して評価を行っているからです。例えるなら、記憶力抜群でたくさん勉強して、過去の作品を引き合いに出して能書きを垂れるのは得意だが、自分では創作ができない評論家というところです。AIの肩を持つなら、AI は作品の内部構造の解析”は得意だが、“創造された価値の評価”は苦手という言い方になるでしょう。
ここまでの認識を踏まえたうえで、私が興味を持ったのは、代表的AIの大規模言語モデル(LLM)の機能です。一般的にAIと総称されていますが、それはすべての車種を総称して「くるま」と呼んでいるようなもので、元になっているデータやその処理の仕方、さらに学習や参照の仕方も違っているでしょう。
ということで、これらが具体的にどのように違うのか比べてみようと思い立ちました。ただ、素材が問題です。少なくとも、過去の有名文学作品は素材になりません。評価が定まっているからです。新作を使うしかないのですが、人様の作品を俎上に載せるのは、著作権以前に倫理問題です。私の完結している作品「龍神の生贄」で試すことにしました。この作品は22万文字少々、2025年11月半ばに完結したもので、まだ世に知られていません。 https://kakuyomu.jp/works/16818792436935822503
代表的AIとして選んだのはChat-GPT、Copilot、GeminiそしてGrokです。ここに並べた順番はアルファベット順で、特別な意図はありません。なぜこれらかというと、普及率が高く原則無料で使えるからです。
あとは評価のさせ方です。これにはネット上に知見が溢れています。ただ「評価しお願いします」と依頼すると、もっとも多いのは、依頼主に最大限の配慮をして、すぐにでも天下が取れそうな好意的評価が返ってくるというものです。そうならないように、いろいろな依頼の仕方もあるようです。
ここが工夫のしどころですが、あまりに複雑な依頼方法をはじめから試すのも面倒ですので、まずは「全編を通しての批評を新聞の文芸批評のテイストで2000文字程度でお願いします」という依頼の仕方を試みました。
結果をChat-GPT、Copilot、Gemini、Grokの順に紹介していきます。なお、AIが生成した批評には一切手を加えていません。明らかに小説の内容と齟齬のある箇所も散見できますがそのままにしています。
新規登録で充実の読書を
- マイページ
- 読書の状況から作品を自動で分類して簡単に管理できる
- 小説の未読話数がひと目でわかり前回の続きから読める
- フォローしたユーザーの活動を追える
- 通知
- 小説の更新や作者の新作の情報を受け取れる
- 閲覧履歴
- 以前読んだ小説が一覧で見つけやすい
アカウントをお持ちの方はログイン
ビューワー設定
文字サイズ
背景色
フォント
組み方向
機能をオンにすると、画面の下部をタップする度に自動的にスクロールして読み進められます。
応援すると応援コメントも書けます