実戦SEO記事
5:23 pm by admin in Google, SEOmoz, Yahoo!(YST), seo コラム, 検索エンジン
長い時間がかかったが、4大検索エンジンがランキングアルゴリズムの点から見てそれぞれ実際にどう異なるのか、だんだんわかり始めてきた。検索エン ジンの中でYahoo!は、相変わらず最も秘密主義だ。Googleのますます複雑化するアルゴリズムについては、最もきちんと文書化されてはいるもの の、最も理解されていない。
※1:編集部注
原文は2003年としているが、米Yahoo!が独自の検索技術を導入したのは2004年2月。Yahoo! JAPANでは2004年5月にGoogleから変更している。参考記事「米Yahoo!、独自の検索技術に軸足を移し、Googleを外す」(Internet Watch)
Yahoo!が2003年4月に独自の検索エンジンを使用し始めたとき※1、おそらくAltavistaや AllTheWeb、Inktomiが持つ技術から最高の機能を取り込んだはずだ。Inktomiは、リンクに重きを置いた最初の大手検索エンジンであ り、偏りのない純粋なリンク人気に依存していた。また、これは個人的な意見だが、Altavistaの主な強みは、各ページの内容をまとめ、関連テーマご とに集約する能力にあると思う。この点においても、またその他に点に関しても、Altavistaの実験的な投資家向けサイトRaging Bullはとにかく見事だった。
現在のYahoo!の検索エンジンでは、「ウェブページのテキスト、タイトル、(METAタグを用いた)サイトの説明文の正確さ……(中略)関連リンクなど、そのページ独自の特徴」に基づき、ページをランク付けしている。Yahoo!はスタンフォード大学が特許権を持つのPageRankのアルゴリズムにかなりの興味を示していたものの、(大きな規模で)PageRankを実際に使う人はいないという点で、Ask JeevesのApostolos Gerasoulis氏と同じ見解を持っているようだ。
それにも関わらず(1999年にスタンフォード大学から独立した)Googleは、詳細を説明することなくPageRankを実装していると誇らし げに主張している。PageRankとは、ページの重要性やクオリティの静的評価アルゴリズムで、関連性を動的に評価するために用いられる。Google では現在、ランキングを決定するために200以上の「信号」を使用していると説明しているが、Googleの技術に関する最初の論文には、検索が行われた時点におけるページ内外の要素を組み合わせて関連性を決定し、結果として得られる(動的な)関連性のスコアを、あらかじめ決定していた静的なPageRankのスコアと統合する、と明記している。
Ask Jeevesは2001年の9月に、検索エンジンのTeomaとそのHITS(現在はExpertRankに改称)アルゴリズムを獲得している。 ExpertRankは、1998年にJon Kleinberg氏が提案したオーソリティーとハブの方法論から発想を得たアルゴリズムだ。ExpertRankでは、検索者のクエリに対し関連するコ ンテンツを動的にグループ化し、そのグループ内の関係を使用して、最も信頼性が高くユーザーのクエリに関連性の深いページを決定するということになっている。
MSNでは2004年7月になって、ようやく現在の人工知能による検索技術を発表した。MSNの検索結果は、Googleの検索結果に影響を及ぼし ているのと同じ要素に影響を受けているようだと、多くの人が指摘しているが、MSNでは彼らのシステムが実際にどのように機能しているのかについて、ほと んど口を閉ざしてきた。MSNのサイトオーナーヘルプでは、リンクも考慮に入れると示唆しているものの、それがどの程度でどのような方法によるのか説明していない。
MSNの説明は以下の通りだ。「MSNの検索ランキングアルゴリズムでは、ページのコンテンツ、被リンクの数やリンク元サイトのクオリティ、キーワードに対するウェブサイトのコンテンツの関連性といった要素を分析する」
しかし、2006年5月に、MicrosoftのMatthew Richardson氏とEric Brill氏、およびMSNのAmit Prakash氏が共同で、「PageRankを超えて:静的ランキングためのマシンの学習能力」 という論文を発表した。これら3名の著者たちは、コンテンツの静的な(クエリ非依存型の)順序付けによる新しい方法論を提案している。彼らの説明による と、MSNのRankNetは「アルゴリズムを学習するランク付けマシン」だという。この方法論では、ランクを決定するために用いるページごとの特質を、 ページ、ドメイン、アンカーテキストと被リンク(アンカー)、(ブラウジングにおける)人気度の4つのカテゴリに分類し、これにPageRankを加えて 5つの要素でランク付けを行なうとしている。
アンカー・カテゴリでは、そのページにしか現われない語句の数や、そのページにリンクしているアンカーテキストの総量などを計測する。
ページ・カテゴリでは、そのページ自体(およびページのURL)に注目し、文書本体内の単語数、単語の使用頻度、その他明らかにされていない6つの要素を計測する。
ドメイン・カテゴリでは、1ページあたりの外部リンクの平均数、ドメインごとのPageRankの平均値などを計測する。
人気度カテゴリの計測は、MSNツールバーをもとに導き出す。ツールバーによるデータ収集は何も新しいものではないが、彼らの論文は僕の知る限り、 ツールバーによって収集したユーザーの閲覧履歴を検索ランキングのアルゴリズムに取り入れた最初の技術文書だ。すぐに多くの人々がAlexaのトラフィッ クランキングの存在を指摘するだろうが、トラフィックランキングは検索クエリを実行するために使用されるものではない。また、Googleがユーザーの閲 覧データを取得しているだろうと推測している人も多いが、GoogleのMatt Cutts氏は(個人的な意見として)、もしGoogleツールバーがデータを取得したとしても、そのようなデータを使いたいとは思わないと指摘してい る。
MSNのRankNetは、それがもし本当にMSNが検索結果ランキング決定するために使用しているアルゴリズムなら、いくつかの意味においてユ ニークなものだ。まず第1に、RankNetでは、文書テキストなど、たくさんの情報源から得た静的データを統合している点だ。ExpertRankでさ え、静的評価のためにそんなことは行っていない。次に、RankNetではPageRankを基準あるいは土台として使用しているということだ。彼らは RankNetがPageRankと同等に機能すると見込んでいるどころか、PageRank以上に正確な静的評価を提供すると主張している。
そして最後に、RankNetでは、ウェブマスターたちが重要だと考えるものだけでなく、ウェブページを見る側が興味を持つものを検討する。 RankNetは、ウェブマスター側からの評価(リンク人気やPageRank)と、ページを見る側からの評価(クリック数に対する閲覧状況に関する人気 度)の評価を両方とも組み込んだ最初の検索エンジンアルゴリズムだ。MSNの手法は目新しくて革新的だが、もしMSNがツールバーの閲覧データを本当に追 跡しているのなら、多数のIPアドレスにわたって人々がツールバーをだますようになるのも(もしまだやっていないのなら)時間の問題だ。こうした不正行為 は、DirectHitのクリック数方式に対して実行された。
いずれMSNは、Googleの手法と同程度に、自分の手法も補足的なフィルタリングに依存しなければならないと理解するに至る可能性がある。しか し、GoogleおよびYahoo!がスパムのフィルタリングに関して非常に積極的と思えるのに対して、MSNにスパムフィルタに関する指摘がほとんどな い理由については、前述の論文からわかるかもしれない。MSNが十分な市場シェアを獲得し、スパムコミュニティからこの種の詳細な注目を集めるのかどうか は、現時点ではわからない。
こんなに長くなってごめん。でも僕は基本的なアルゴリズムに関して要約し、できるだけ多くの信頼できるリンクを提供したいと思ったんだ。さて、この話について君の感想は?
リンク用タグ:
コメントはまだありません。
最新記事
・PageRank の計算に使われるリンクを売り買いすることについて
・格安航空券サイト「SKYWEB」、6月16日からフルスピード
・class=”robots-nocontent”属性について
Tags Cloud
アルゴリズム キーワード キーワードツール クローキング コンテンツミル サテライトサイト スパム タイトル ドアウェイページ ドメイン フルスピード ブランドプロテクションサービス メタ モバイル ランキング リンクジュース 外部リンク 成果報酬型SEO 有料リンク 検索エンジン 検索結果 渡辺隆広 被リンク 順位 類似ページ firebug firefox google Googleウェブマスターツール Google Japan Blog IE Live Search ウェブマスターセンター Noindex robots-nocontent seo TIP webdeveloper Yahoo! Yahoo!ブックマーク Yahoo!検索サイトエクスプローラー Yahoo! Site Explorer YST