MeCabとChaSenの出力フォーマット
概要
形態素解析は MeCab をいつも使っているのだが、使いたい辞書が ChaSen 形式を用いて表されていることが多いので、それぞれの出力フォーマットの違いについて調べてみたのでメモ。
出力フォーマット比較
MeCab
公式ページに以下のように書いてあった。
表層形\t品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音http://mecab.sourceforge.net/
ChaSen
公式ページを見てもみつけられなかったので、同じ文書をMecab形式で出力したものとChaSen形式で出力したものとで比べて、Mecabで用いられている単語を用いて定式化してみた。
表層刑\t読み\t原型\t品詞(-品詞細分類1)(-品詞細分類2)(-品詞細分類3)(\t活用形\t活用型)
定式化までの道のり
普通に比較
環境にChaSenは入ってなかったのでmecabのオプションでChaSen形式に。
MeCab
$ mecab 開いた口がふさがらない 開い 動詞,自立,*,*,五段・カ行イ音便,連用タ接続,開く,ヒライ,ヒライ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 口 名詞,一般,*,*,*,*,口,クチ,クチ が 助詞,格助詞,一般,*,*,*,が,ガ,ガ ふさがら 動詞,自立,*,*,五段・ラ行,未然形,ふさがる,フサガラ,フサガラ ない 助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ EOS
ChaSen
$ mecab -Ochasen 開いた口がふさがらない 開い ヒライ 開く 動詞-自立 五段・カ行イ音便 連用タ接続 た タ た 助動詞 特殊・タ 基本形 口 クチ 口 名詞-一般 が ガ が 助詞-格助詞-一般 ふさがら フサガラ ふさがる 動詞-自立 五段・ラ行 未然形 ない ナイ ない 助動詞 特殊・ナイ 基本形 EOS
"読み" or "発音"
これだと、2番目に出てくるのが、"読み"なのか"発音"か区別できなかったので区別できる単語でチェック
MeCab
$ mecab 水中翼船 水中翼船 名詞,一般,*,*,*,*,水中翼船,スイチュウヨクセン,スイチューヨクセン EOS
ChaSen
$ mecab -Ochasen 水中翼船 水中翼船 スイチュウヨクセン 水中翼船 名詞-一般 EOS
どうやら"読み"のようだ。
"品詞細分類3"
"品詞細分類3"って出力されてないけど、ChaSenではどの位置に出てくるのか、わからなかったのでN-Bestオプションで出力して確認してみた
Mecab
$ mecab -N3 桜 桜 名詞,一般,*,*,*,*,桜,サクラ,サクラ EOS 桜 名詞,固有名詞,人名,姓,*,*,桜,サクラ,サクラ EOS 桜 名詞,固有名詞,人名,名,*,*,桜,サクラ,サクラ EOS
ChaSen
$ mecab -Ochasen -N3 桜 桜 サクラ 桜 名詞-一般 EOS 桜 サクラ 桜 名詞-固有名詞-人名-姓 EOS 桜 サクラ 桜 名詞-固有名詞-人名-名 EOS
予想通りの位置。これで比較作業終了。