検索エンジンは、スパムBlogをどうフィルタすべきなのか
スパムブログが横行している。米GoogleのBlogger blogspot.com のブログをランダムに調べたところ,何と60%がスパムブログであった。サンプルが50本と少ないけれど,半分以上のブログがスパムとは。後で,サンプル数を100本に増やして調べ直すと,今度は42%がスパムブログであった。どっちにしろ,ブログの世界は,スパムブログで荒らされてきている。
当然というかなんというか。メールと違って、個人に直接届くものではないけれど、WEBの検索結果や新着リストの中身がゴミばっかになるのは困る。
メールは学習系のフィルタすればだいたいはじけるけど、Blogは「書くな」っつーわけにもいかないからな。表現の自由とか言われたら反論できない。
YahooMyWebとか、MyAskとか、検索エンジン各社は検索結果の履歴記憶&URL保存&タグ付けあたりの機能強化を進めているけれど、これを利用して検索結果にもベイジアンフィルタみたいな学習系フィルタが適用されるようになったりしないのだろうか。
URL保存(≒SBM、タグ付け)する際にコンテンツの中身を学習してプラスに評価、アフィリエイトの糞Blogとかにぶつかっちゃったら「迷惑ページ」とかのツールバーボタンを押すと学習してマイナスに評価、みたいな。で、検索エンジンの検索結果をそのフィルタで重み付けすると。
ところでmixiを使っている友人に聞くと、「mixiを使い始めてからコミュニティに参加することでコアな情報を入手しやすくなった」という声を聞くことが多い。やっぱり有用な情報は「ヒト」がもたらすもんなんだなぁと改めて思う次第でございます。ついでにそれを情報検索の仕組みに載せるSBMにはやっぱり可能性があるなぁとも。