October 12, 2008
テキストは『源氏物語』です。 『源氏物語』に正解タグ付きコーパスなんてものは無い のに注意。(Mecabの解析は原理的に不可能。つまり完全な教師なし学習。) 上はviterbiではないですし, 全然まだ最初の結果なので微妙に変な所もありますが, 「心やすくならひたまへるありさまのところせからんことをなま苦しく思すにものうき なれど」のような難しいひらがなの連続が, 人が一々正解を教えなくても 正しくパーズできているのが嬉しすぎる。 中身はもちろん階層ベイズ+動的計画法で, C++とCで4000行くらい。

mots quotidiens.

これはすごいんじゃ無かろうか?

(via sett4)

   8 notes    via sett4 | sett4

  1. n13i reblogged this from suyhnc
  2. lunaryue reblogged this from tsupo
  3. takaakik reblogged this from suyhnc
  4. puuq reblogged this from suyhnc
  5. plasticdreams reblogged this from ginzuna
  6. ginzuna reblogged this from suyhnc
  7. tsupo reblogged this from suyhnc
  8. suyhnc reblogged this from sett4
  9. sett4 posted this