検索エンジンの本質

検索エンジンのツボ。こんな概念で捕らえてみよう!

2013年05月09日 ネズミ1号:略称「T」

このエントリーをはてなブックマークに追加

ハブ・オーソリティ理論とGoogleのページランク

リンク構造からなるウェブページの重要度を測るために、ハブとオーソリティという概念が使われています。
ハブ・オーソリティ理論とは、Jon Kleinberg氏がIBM時代に提唱した理論で、「1.沢山の有益なサイトをリンク集として集めているサイトたとえば、大きなディレクトリーなどはユーザーにとって便利であるhubの役割をしているはず。」また「2.そうしたhubからリンクをもらっているサイトは情報ソースの権威サイト・ページに違いない」という概念です。

この理論はHITS理論(Hyperlink-Induced Topic Search)もしくはハブ・オーソリティ理論として広く知られるようになり、リンク構造を解析することで、Webページの重要度を評価できるとした理論です。この考え方はGoogleのPageRankにも生かされています。



HITS(HpyerLink Induced Topic Search)とは

Webページのリンク構造を「被リンク」と「発リンク」の両面から解析することで、特定テーマにおける有益な参照関係を見つけ出し、重要性の高いWebページをスコアリングするというもの。

オーソリティとは

重要な情報・誰もが認める情報や権威ある専門家の情報。価値のあるオーソリティほど、優良なハブサイトから多くの被リンクを受けているとするもの。

ハブとは

有益なオーソリティページまたはサイトへリンクを発信しているページ。優良なハブほど、有益なオーソリティを参照するとするもの。

良く言われるハブ・オーソリティ理論のベースとなる考え方で、より高いオーソリティへリンクすることで、ハブのスコアが上がり、逆に有益なオーソリティへ多くのリンクを発しているハブからリンクを受けることで、オーソリティスコアが上がるというイメージです。

Google のPageRankはこのハブ・オーソリティ理論をベースに初期モデルが開発されたもので、発リンクするサイトのスコアとリンクされるサイトの被リンク数とを数式計算で求めたものだそうです。初期のアルゴリズムや計算式は創始者によって公開されていますので、数学的知識のある方は参照してください。

Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd, 
'The PageRank Citation Ranking: Bringing Order to the Web', 1998,
http://www-db.stanford.edu/~backrub/pageranksub.ps
Taher H. Haveliwala, 'Efficient Computation of PageRank', 
Stanford Technical Report, 1999,
http://dbpubs.stanford.edu:8090/pub/1999-31

こ の文献の解読には数学的な知識が必要で読みにくい部分もありますが、留意する点として、意味のあるPageRankを解析・計算するには、機械的に生成さ れたリンクを極力排除するということです。HITS理論では「リンク関係」=「推奨関係」として捉えています。よってサイトマップ上のリンクについて何でもかんでもリンクを張りまくっているページは重要度としては低いページとして評価されることは自明だと分かります。

企業サイトの担当者が時たま目にすることがあると思いますが、GoogleのWebmasterToolはまさにハブ・オーソリティ概念に基づきサイト(ホスト)のテーマ性や他サイト・ページからの人気投票状態がどうなっているの?という観点で自分のサイトがGoogleにどう認識されているのか確認できる便利なツールだと言えますね。

| コメント(0)


関連記事