本格的に調整する前に品詞を合わせてみる

前々回の出力は、word2vecを使って意味的に一番類似した単語を出力しているのだが、考えてみると品詞の違いを考慮していない。このため、名詞が動詞に置き換わったりもしていた。


せめて品詞は揃えたほうがいいだろう。ということで、word2vecが出力する類似度順の候補を、mecabを使って品詞を調べて、元の単語と同じ品詞を出すようにした。


元の文章列に「猫を減算して、美少女を加算する」結果が以下になる。


-------

 才女は美女である。ネームはまだ無かっ。

 何処で憧れたかとんと目星が付かぬ。誰でも明るかっじめじめするたところで美少年むせび泣いて才女だけは人格するてい。才女は此処で始めるて美女という代物を見せた。しかも後で聞けるとこれは才女という美女なかでいちばん獰悪な人種であった美人だ。この才女というオタクは時々我らを捕らえて焼き上げて食えるという美人である。しかしその時代は誰という秀才もないたから別段羨しいとも謳わなかった。ただ彼女の手の平に並べられるてイケメンと抱きとめられるたとき何だかフワフワするた美人が有ったばかりである。手の平の下で少し落ち着いて才女の顔立ちを見せたオタクがいわゆる美女という代物の見せグダであろう。このとき清楚な代物だと思うた美人がいまでも写ってい。第五美少年をもって造形謳われるべき筈の顔立ちがつるつるするてまるでケトルだ。後美女にもだいぶ出逢ったがこんな片列には五回も戦わするたことがなかっ。のみ戦えず顔立ちのイケメンがあまりに曲線するてい。そうしてその大穴のなかから時々ぷうぷうと爆炎を吹き付ける。どうも娶せるかっこよくて実に浮き足立った。それが美女の呑むタバコという代物であることはようやくこのころ慕った。

-------


ちょっとはマシになったというところか。


もう一点、いくつかword2vecの辞書に入っていない単語があった。

元になったテキストに出現していない単語ということになる。


word2vecで学習したテキストは、現代の言葉で書かれている。夏目漱石は明治時代の文豪である。「我輩は猫である」なんて、山のようにパロディがかかれて、ドン松五郎すらびっくりするレベルである。


つまり、使われている言葉が、違うのだ。


言語というのは、時代を通して同じということはなく、時代時代によってよく使われる言葉が変化したり、意味が変化することもある。

したがって、「ある時点での言語」に着目する必要がある。

これを言語学では「共時性」と呼ぶ。


おそらくword2vecを使った文章の変形を行うためには、明治時代の文章を一旦現代で使われる表現に直した上で、単語の置き換えをおこなったほうがよい。


しかし、口語であったとしても、過去の表現を現代の表現に置き換えるためには、どのようなコーパスを用いればいいだろう。

むしろ、その作業は外国語からの翻訳と同じようなこと(文法が乖離しているとまた違ってくるので、たとえば日本語と韓国語の翻訳みたいなものだろうか)ではないかと考えられる。


これについては、おいおい考えていこう。


後回し、とも言う。


なお、ソースコードから抜粋すると以下のような感じになる。


--------

if type == u"名詞" or type == u"動詞" or type == u"形容詞" :

try:

out = model.most_similar(positive=[word, u"美少女"], negative=[u"猫"])

done = False

for wp in out:

mecab_result = mecab.parse(wp[0].encode("utf-8")).decode("utf-8")

if mecab_result.find(type) != -1:

sys.stdout.write(u"%s" % wp[0])

done = True

break

if done == False:

sys.stdout.write(u"%s" % out[0][0])

-------

  • Twitterで共有
  • Facebookで共有
  • はてなブックマークでブックマーク

作者を応援しよう!

ハートをクリックで、簡単に応援の気持ちを伝えられます。(ログインが必要です)

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

マイページ
読書の状況から作品を自動で分類して簡単に管理できる
小説の未読話数がひと目でわかり前回の続きから読める
フォローしたユーザーの活動を追える
通知
小説の更新や作者の新作の情報を受け取れる
閲覧履歴
以前読んだ小説が一覧で見つけやすい
新規ユーザー登録無料

アカウントをお持ちの方はログイン

カクヨムで可能な読書体験をくわしく知る