クラスタリングとクラス分類って違うらしい

概要

卒業研究の題目について担当の先生に相談した際にハッと気付かされた。

題目を「評価要因に着目した評価情報分類」で考えています。と切り出し研究の内容について紹介した。

レビュー集合を用意(Amazon.co.jp, kakaku.com)
 ↓
レビュー文から評価表現辞書を用いた評価要因を抽出するパターンを考案・実装・適用
 ↓
評価要因の抽出
 ↓
抽出した結果をtf-idf法を用いてベクトル化し、レビュー集合をクラスタリング
 ↓
レビュー集合を直接クラスタリングしたものと比較
 ↓
今回の提案手法を用いると、評価軸ごとにレビュー集合を分類できることを検証する

という内容で相談メールを送信したところ、先生から返答をしてもらった、以下が先生の返答の一部の抜粋。

「分類」と「クラスタリング」のどっち?
「評判情報分類」で終わってよいのか?

衝撃的だった。えっ!?分類とクラスリングって意味違うの???一瞬混乱した。意味の違いがわからなかったので、調べてみることにした。その際のメモ。




そもそも分類とは


自分の中の"分類"という言葉の定義が広すぎたのではないかと思う。英語ではclassification, grouping, sorting, sortation, ordination, separation...と様々な単語がある。正式な日本語での"分類"の定義はWikipediaによると、

分類(ぶんるい)とは、事物や現象を、区分を行うことによって整頓し体系づけることである。 そうして作られたグループをカテゴリという。

http://ja.wikipedia.org/wiki/%E5%88%86%E9%A1%9E

とある。ピンとこなかったので、もう少し調べてみた。

クラスタリングとクラス分離


について詳しく書かれていた。以下抜粋。

クラスタリングとクラス分類の一般的な説明は、

 クラスタリング -- 目的変数のない(教師なしの)場合
 クラス分類  -- 目的変数のある(教師ありの)場合
...(略)...
クラスタリングというのは、既知の分類法では見えて来ないことを発見しようとすることです。
...(略)...
クラス分類というのは、一旦、有用な分類法が見つかれば、それを再現するモデルを作成・適用することです。
...(略)...
クラス分類とは --特定の分類法をより正確に再現する

http://www.mindware-jp.com/basic/group.html

具体例もたくさん載っていて、クラスタリングとクラス分類の違いがよくわかった。

どうやら学術分野でいう"分類"という単語のイメージは対象を明確に正か非か(2分岐でなくても可)を判断できるものを定義した基準を用いて、どちらに属するのか判定することを指しているようだ。

感想


いや〜勉強になりました。論文の題目に関わらず、公の場などで提出する文章を作る時は、明確に自分が想定している意味が誰にでも伝わるように気をつけたいですね。