SEO
漏洩・流出したGoogleアルゴリズム:暴かれたSEOのブラックボックス
2024年5月、Googleの検索エンジンアルゴリズムに密に関係すると考えられるドキュメントが誤って流出していたことが明らかになりました。Google検索エンジンが登場して以来の大きなリーク、大事件です。
そのドキュメントから読み取れるGoogle検索エンジンのアルゴリズムに関する対応ポイントについて解説いたします。
流出したGoogleアルゴリズム文書について
流出した文書はGoogleのAPIに関するものです。APIというのは、システム間でデータのやり取りを行いやすくするための技術です。特定のポイントにアクセスすると、特定の情報に関するデータが得られるといったもので、流出した文書からは、GoogleがどのようなデータをAPIでやり取りできるようにしているか、ということが読み取れます。
つまり、Googo検索エンジンアルゴリズムのランキング要素そのものが書かれた文書ではない、ということには注意が必要です。
流出元はGithubです。Githubというのはエンジニアが社内外でやり取りを行うのに用いられているシステムで、公開範囲が設定できます。Googleが本来、開示範囲を社内に限定してなければいけなかった文書が、誤って2024年3月~5月の間に外部にも公開されてしまっていた模様です。
すでにGoogleによりその状態は解消されていますが、Githubで公開されてしまった情報の拡散については止める術はありません。そして、次のURLで現在も流出した文書を見ることができます。
なお、Googleはこの文書が本物であることを認めたとThe Vergeが報じています。
流出したGoogleアルゴリズムから読み取れるランキング要素
この文書のリークに関して、真っ先に記事にされたと思われるのが2024年5月27日付(米国時間)の次の2つです。
- https://sparktoro.com/blog/an-anonymous-source-shared-thousands-of-leaked-google-search-api-documents-with-me-everyone-in-seo-should-see-them/
- Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked
この2つの記事と、実際のAPIドキュメントを参照したうえでの主なポイントを私の考察も交えながら解説します。
一部は、Googleがこれまでランキング要素として否定してきたものが含まれますが、Googleが否定してきているものの実際には直接的にランキングに影響しているだろうというのがSEO専門家の見解だったものがほとんどではあります。私自身も、そうでした。一方で、少なくとも私にとっては意外だったものも一部あります。
もう今後、Googleの「ランキング要素と関係ない」という発言を信じる人はいないでしょう。そもそも、ランキングは現在においてAIが決めているはずで、APIでやり取りされているデータは、機械学習のためにAIに放り込むデータでしかないはずです。実際にどの要素がどの程度ランキングに効いているかはGoogleの人であっても、ほとんどの人は知らないはずだと私個人的には思っています。
Googleは、「ランキング要素と関係ない」と言うのではなく「明かすことはできない」とだけ言うべきだ、と上記の記事の中でMike King氏が述べていて、「ほんとそれ」なわけですが、実際のところでは、「明かすことはできない」でもなく、「分からない」なのじゃないかと、思う次第です。
ドメインパワー(ドメインオーソリティ)の存在
siteAuthority
というデータが定義されていました。これが何に使われているのか(あるいは、使われていたのか)は、繰り返し強調すると「限定はできない」のですが、検索エンジンのアルゴリズムに使われていたのだろう、という推測は誰しもが行うところとなります。
Googleは「ドメインオーソリティのようなものは存在しない」と発言してきていました。
という発言はおいておくとして、ドメインパワーに大きく影響するのは、まず第一にはコンテンツの品質です。また、そのサイトのテーマとの関連性が高いサイトからの被リンクが多いほど高まります。リンク先のサイトのドメインパワーが大きいほど効果があります。ドメイン年齢とも関係があるのではないか、と思われがちですが、そこは直接的には関係ありません。ただし、次の節でも述べるように、新しいドメインの最初の頃だけは特別扱いされてしまうという現象は認められています。
ドメインパワーに関して詳しくは次の記事で解説しています。
新しいドメインを特別扱いするためのサンドボックスの存在
hostAge
というデータが定義されていました。サンドボックス化するために使用されていることも明らかになっています。Googleはサンドボックスの存在について否定していました。
新しいドメインは、公開されて数カ月の間は上位に表示されにくいことが知られています。逆に、最初だけ上位に表示されるケースもあります。そのようなケースをGoogleハネムーンと呼びます。
ドメイン年齢とドメインパワーとの間に相関関係はないですが、このような特別な期間がサンドボックス化によって実現されているということがほぼ明白になったと言えます。
ドメイン年齢に関する詳細は次の記事をご参照ください。
クリックデータなど活用したNavBoost
badClicks
goodClicks
lastLongestClicks
unsquashedClicks
unsquashedlmpressions
というデータが定義されていました。Impressionsは「表示」の意味です。Googleは、NavBoostと名付けられている指標を重要視しています。ユーザーのサイトに対しての行動です。
これらのデータは、ユーザーがどの程度サイトを参考にしているかを図る指標として重要となることは容易に想像がつくところでありますが、Googleはランキング要素に用いていることを否定してきました。何故なら意図的にクリックを行うというサービスが横行する可能性があるからだと思いますので、必ずしも責められることではないとは思ってますが、やはり機械学習の要素としては使っていることがほぼ明白になったと言えます。
ただし、不正なクリックもカウントしていることも同時に明らかになりました。なんにせよ、Googleをダマそうとしても結果的にコスパは悪いです。そもそも美徳に欠けることは私はしませんが。やるべきことは、UXの向上です。UXを向上させることでページの滞在時間は伸びて、サイトの回遊性も高まります。
本件の流出ドキュメントとは関係ありませんが、以下はGA4で取得できるデータの例です。
このようなデータをGoogleが得ているのは分かっているので、検索アルゴリズムにも利用しているものとして考えています。
以下はGoogleアナリティクスの最新バージョン「GA4」で取得できる情報*の例です。
エンゲージメント数 user_engagement |
ウェブページが1秒以上フォーカスされたときにカウントされる |
---|---|
エンゲージメント時間 engagement_time |
ページの滞在時間 |
スクロール数 scroll |
そのウェブページの90%までスクロールしたときにカウントされる |
離脱クリック click |
別のサイトに移動したときにカウントされる |
ページビュー page_view |
ウェブページが読み込まれる度にカウントされる |
動画 video_progress |
その動画が再生時間の所定の割合まで進んだときにカウントされる |
リピーター first_visit |
最初の訪問か、リピーターか |
*参照例:[GA4] 自動的に収集されるイベント
ブランド
Rand Fishkin氏は、ブランドは何よりも重要だと述べています。サイト以外での発信が大事になるということです。例えばX(旧Twitter)、インスタグラムなどで注目を浴びるということも大事ですし、注目を浴びている著書があるということも重要になるかもしれません。
Chromeのデータ
chrome_trans_clicks
chromeInTotal
chrome_trans_clicks
はChromeブラウザでクリックされたかどうかを示すデータです。chromeInTotalは、サイト全体におけるChromeブラウザによる表示回数です。
このようなデータを何かしらに用いていることがほぼ明白となりました。サイト内で良くクリックされているページをGoogleは抽出しており、次の画像で示すようなサイトリンクはこのデータが活用されている可能性も考えられます。
著者情報
author
isAuthor
author
、isAuthor
という指標を扱っていることが明らかになりました。Googleは、記事ページに著者情報を書くことに意味はないと説明しています。しかし、何かしらの方法によって、その記事が信頼できる著者が書いたものかどうかを推測していることはほぼ明白です。そのためにできることの一つとして、記事ページ内に簡略的に著者プロフィールを載せ、そこから詳細プロフィールページへのリンクを張る、ということを私は推奨します。
また、著者情報のマークアップ手法として、以下の2つあります。
メタタグのname属性
<meta name="author" content="著者名">
構造化マークアップ
構造化マークアップについては次の記事を参照ください。
構造化マークアップでSEOの強化
ページの鮮度
sourceLink
ニュースサイトやトレンドに関するものなど、ジャンルによっては、ページの鮮度が高い方が上位に表示されやすいというのは、フレッシュネスアルゴリズムによって明らかにされてきています。
SEOは更新頻度高くないとダメ?フレッシュネスアルゴリズムとは?
sourceLink
という名前で扱われている指標で判別しているのかもしれません。
フォントサイズ
avgTremWeight
fontsize
フォントサイズについて、通常文字とリンクテキストの両方について把握しようとしていることが分かりました。これを踏まえて小手先のことをやろうとすることはおすすめしませんが、以下が言えます。
- 見出しは通常より大きなフォントサイズにし、適切に使う
- フォントサイズを小さくしている被リンクの有効性は小さいかもしれない
オリジナリティ
OriginalContentScore
オリジナリティを計測していることが明白となりました。オリジナリティは、以前より重要とみなされていますが、その比重が高まっています。AIにより記事の数が増えていく中で、似たような記事ばかりが上位に並ぶと、Google検索結果画面のユーザーにとっての有用性が下がってしまうため、今後益々オリジナリティが重要視されることが予想されます。
AIライティングツールを利用する際は、文字数を最重要視するようなツールではなく、品質の高さを重視するとともに、オリジナリティある内容を書くためのポイントまで示すBringRitera(リテラ)をお勧めします。ウェブマーケ会社の方にも利用いただいています。
オリジナリティの重要性は次の記事で詳細にご紹介しています。
SEOで重要なオリジナリティー(独自性)/オリジナルコンテンツ
タイトル(title属性値)
titlematchScore
title属性値と検索クエリ(キーワード)の一致度が依然として重要であることは元より明白ですが、titlematchScore
という指標で計測していることが分かりました。
タイトルについては次の記事を参照ください。
SEO対策で重要なtitleタグとmeta descriptionとは?WordPressプラグインの「SIMPLE SEO PACK」を使った設定方法も解説
日付
bylineDate
syntacticDate
semanticDate
ページ上で明示的に示された日付(bylineDate)、URLやタイトルから抽出できる日付(syntacticDate)、ページ中のコンテンツから確認できる日付(semanticDate)の3つの指標が明らかになりました。
タイトルに【2024年最新】と入れるなどといったことは、ユーザーにクリックしてもらいやすくするためにも重要であるとして通常やられていることですが、依然として小手先のテクニックとしても重要である可能性は考えられます。
URLは基本的に変更するものではないので、URLに日付を入れると、内容を更新していたとしても、その内容の鮮度とURLの日付が一致しないがために不利になる可能性が考えられます。
また、日付を示す部分はHTMLのtimeタグという仕様があります。timeタグは使われてないサイトも多く、使ってなくてもGoogleが勝手に解釈してくれそうな気はしてますが、きちんと仕様を正しく使用しておくに越したことはないでしょう。
YMYL
ymylHealthScore
ymylNewsScore
encodedChardXlqmylPrediction
健康関連と、ニュースに分けてYMYL分野であるかどうかの指標が定義されています。YMYLの周辺キーワードについて予測する指標も持っています。
YMYLはYour Money Your Lifeの略で、お金や、人生に大きく関わるような内容の場合は特にE-E-A-Tを重視して評価するというGoogleのポリシーです。
新型コロナと政治
isCovidLocalAuthority
isElectionAuthority
これらの指標によって、新型コロナや政治に関する情報発信は慎重に扱う姿勢が感じられます。
検索品質評価ガイドラインの採点
humanRatings
Googleは検索品質評価ガイドラインを定め、そのガイドラインに従っての第3者によるウェブページの有用性評価を行っています。これとランキング要素とは関係ないとGoogleは説明していましたが、humanRatings
という指標を機械学習に使わずして、何に使うというのでしょうか。そもそもランキングに関係ないならそんな評価しないよね、という話ですが。
検索品質ガイドラインに関しては次の記事でご紹介しています。
Googleの検索品質評価ガイドラインとは?最新版の更新内容についても解説
サイトのテーマとページとの関連性
pageEmbedding
siteFocusScore
siteRadius
versionId
Googleはサイトのテーマが何であるかを評価し、そのテーマに沿ったコンテンツが上位に表示されやすくなります。それに使われているであろう指標が見つかりました。
ページに外部サイトを埋め込んで表示する場合、そのページとの関連性が重要となります。
小規模サイト
smallPersonalSite
小規模な個人的なサイトであるかどうかを判別しています。物議を醸しそうな指標ですね。
マイナスになる要素
以下がマイナスになる要素として言及されています。
- リンク先との関連性の不一致
- 検索結果画面(SERP)におけるユーザー行動によるもの、おそらくはクリックが主
- ページ間のナビゲーションのUXが悪いケース
- 完全一致ドメインであるからと言って特別扱いしない
- アダルト関連
まとめ
これを見たからと言って、私個人的にはやることはこれまでとほとんど変わりません。ただ意外なこともありました。最も意外だったのは、URLを見ているというところです。これまでも、URLを見ている可能性は一応考えて、ある程度配慮してますが、注意を払うべきですね。とはいえ単純な連番などにしてもランキングへの影響は認められないですし、日本語文字を使うことは推奨されないので、英単語を使うのが面倒な場合は、日付などにはせず、意味をなさない連番などにしておくのが無難とは言えます。
また、著者情報と日付を注視していることがわかったことと、その判断方法が思ったよりも今のところ単純そうであるということが分かったことから、それらに対してかける労力の比重を多少高めるかもしれませんが、変わると言えばその程度です。
Googleがこれまで、ランキング要素として使ってないと発言していたものが含まれているため、Googleは世界的に批判をされています。Googleがそのような発言をしている背景には、ユーザーにとって有用なコンテンツを上位に表示したいということがあり、そのためにアルゴリズムの悪用を防ぐことが目的としてはあると考えられますので、一概に責められるべきものでもないとは思います。
SEO対策は、ユーザーにとって有用なものとなるようにすることを第一に考えるべきである、というのは「あるべき論」であり「正論」なので、これからも変わりませんし、アルゴリズムの精度が高まれば高まるほど、そういう方向性に向かうはずです。