folksonomy勉強会に向けた「情報の分類方法」についてのメモ(-考え方編-)
会社で「folksonomy」についてブレストして遊ぶらしいので、folksonomyが登場した背景について考えながらメモ。
だれが情報を分類するか?
以下おれの理解によるメモ。
- 専門家による分類/定義
- 書き手による分類/定義
- やり方:情報の書き手が「この情報は○○です」と宣言したものを採用して分類する。
- 普及の経緯:インターネット普及により分類すべき情報が爆発的に増大し、専門家による分類が困難になったために、HTMLというマークアップ文書の構造を分類に使うことが注目された。
- 利点:低コスト
- 欠点:低品質(容易にスパムが可能)
- 例えば:InfoseekなどHTML文書を解析するロボット型検索エンジン
- 利用者による分類/定義
- やり方:情報の利用者が「この情報は○○です」と言及しているものを収集して分類する。
- 普及の経緯:「書き手による分類」方式がスパムによって破綻したため、より有益な情報を拾える方法として注目された。
- 利点:低コスト、高品質(スパムが働きにくい、語彙の変化に対応)
- 欠点:同義語、熟語、曖昧さ
- 例えば:Google、del.icio.usなど、文書の利用者側のデータを分類に利用する第三世代?の検索エンジン
どのように情報を分類するか?
アイテムがいくつのラベルに帰属するか。
- 単一帰属
- 考え方:アイテムはひとつのラベル/カテゴリに排他的に属する
- 欠点:
- コウモリ問題(分類するときに どっちにも所属するものはどうする? by超整理法)
- 複数帰属
- 考え方:アイテムは複数のラベル/カテゴリに同時に属する
- 欠点:
- 空間:物理空間ではアイテムをラベリングするのに使える空間に制限があるため、単一ラベルの方が検索性が高い。
- 順序:物理空間では複数のラベルを持つとその順序を決める必要があり、ラベルのほかに「順序」という新しい属性を考えないといけなくなってしまうため、単一帰属のほうが利用しやすい
- ※電子空間ではそれらの問題は発生しなさげ。
アイテムが分類される空間は階層性を持つか。
- 多階層
- 利点:
- 閲覧性:情報が大量でも、人間が認識できる範囲ずつ小出しにできる。
- 欠点:
- 一覧性:一覧できない。
- 複雑化したコウモリ問題:カテゴリそのものがコウモリ問題を引き起こすため、定義が困難。
- 利点:
- 単階層
- 利点:
- 一覧性:一覧できる
- 欠点:
- 閲覧性:情報が大量になると、検索がないと破綻。
- 利点:
その欠点は? とそれに関連する思いつき
- 同音異義語を区別しにくい
- →これは表意文字圏だとだいぶよさげ
- 熟語の扱いが難しい
- →全部許容でよさげ
- 曖昧さ:ひとつのアイテムがいろんな文脈で分類されてしまう。
- →その方がいいこともあるだろ。
- 利用者語彙の多様性:制限語彙ではない、
- →うーん、、これも良し悪し。利用者が慣れ親しんだ語彙で検索できる、というメリットにもなる。
- →特に日本語は書き言葉だと英語とかよりブレすくなそう。関西弁だろうと秋田弁だろうと、書き言葉の特に単語の変化は少ないだろうし。
- →逆に日本語だと、カナ、漢字、アルファベット混在してる難しさもあるな。
- →統計的に処理で類義語みたいに出すこともできる。
05/12/21追記:重要なことを忘れてた。↓
- モチベーション:利用者に「分類する」モチベーションをもたせないと機能しない。
- →del.icio.us、はてな等のSBSは「後から自分が参照するために分類する」ことをモチベーションにうまくつかっている