MeCabとChaSenの出力フォーマット

概要


形態素解析は MeCab をいつも使っているのだが、使いたい辞書が ChaSen 形式を用いて表されていることが多いので、それぞれの出力フォーマットの違いについて調べてみたのでメモ。




出力フォーマット比較

MeCab

公式ページに以下のように書いてあった。

表層形\t品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音
http://mecab.sourceforge.net/


ChaSen

公式ページを見てもみつけられなかったので、同じ文書をMecab形式で出力したものとChaSen形式で出力したものとで比べて、Mecabで用いられている単語を用いて定式化してみた。

表層刑\t読み\t原型\t品詞(-品詞細分類1)(-品詞細分類2)(-品詞細分類3)(\t活用形\t活用型)


定式化までの道のり

普通に比較

環境にChaSenは入ってなかったのでmecabのオプションでChaSen形式に。

MeCab

$ mecab
開いた口がふさがらない
開い    動詞,自立,*,*,五段・カ行イ音便,連用タ接続,開く,ヒライ,ヒライ
た      助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
口      名詞,一般,*,*,*,*,口,クチ,クチ
が      助詞,格助詞,一般,*,*,*,が,ガ,ガ
ふさがら        動詞,自立,*,*,五段・ラ行,未然形,ふさがる,フサガラ,フサガラ
ない    助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ
EOS


ChaSen

$ mecab -Ochasen
開いた口がふさがらない
開い    ヒライ  開く    動詞-自立       五段・カ行イ音便        連用タ接続
た      タ      た      助動詞  特殊・タ        基本形
口      クチ    口      名詞-一般
が      ガ      が      助詞-格助詞-一般
ふさがら        フサガラ        ふさがる        動詞-自立       五段・ラ行      未然形
ない    ナイ    ない    助動詞  特殊・ナイ      基本形
EOS


"読み" or "発音"


これだと、2番目に出てくるのが、"読み"なのか"発音"か区別できなかったので区別できる単語でチェック

MeCab

$ mecab
水中翼船
水中翼船        名詞,一般,*,*,*,*,水中翼船,スイチュウヨクセン,スイチューヨクセン
EOS

ChaSen

$ mecab -Ochasen
水中翼船
水中翼船        スイチュウヨクセン      水中翼船        名詞-一般
EOS

どうやら"読み"のようだ。


"品詞細分類3"

"品詞細分類3"って出力されてないけど、ChaSenではどの位置に出てくるのか、わからなかったのでN-Bestオプションで出力して確認してみた

Mecab

$ mecab -N3
桜
桜      名詞,一般,*,*,*,*,桜,サクラ,サクラ
EOS
桜      名詞,固有名詞,人名,姓,*,*,桜,サクラ,サクラ
EOS
桜      名詞,固有名詞,人名,名,*,*,桜,サクラ,サクラ
EOS

ChaSen

$ mecab -Ochasen -N3
桜
桜      サクラ  桜      名詞-一般
EOS
桜      サクラ  桜      名詞-固有名詞-人名-姓
EOS
桜      サクラ  桜      名詞-固有名詞-人名-名
EOS

予想通りの位置。これで比較作業終了。