テキストは『源氏物語』です。 『源氏物語』に正解タグ付きコーパスなんてものは無い のに注意。(Mecabの解析は原理的に不可能。つまり完全な教師なし学習。) 上はviterbiではないですし, 全然まだ最初の結果なので微妙に変な所もありますが, 「心やすくならひたまへるありさまのところせからんことをなま苦しく思すにものうき なれど」のような難しいひらがなの連続が, 人が一々正解を教えなくても 正しくパーズできているのが嬉しすぎる。 中身はもちろん階層ベイズ+動的計画法で, C++とCで4000行くらい。
8 notes
via
|