Google では、コンピュータ アルゴリズムを使用してニュースサイトをクロールしています。ウェブサイトのどのページが記事かをクローラが簡単に識別できるように、下記の技術的ガイドラインに準拠してウェブサイトを作成する必要があります。
サイト構造の要件
クローラが新しいコンテンツを正しくクロールできるよう、以下のサイト構造に関するガイドラインに準拠することをおすすめします。
永続的なセクションのページ
メインのニュース セクションの URL が頻繁に変更されると、Google ニュースがサイトを認識できないことがあります。URL が一定しない場合、クロールする最新の URL を検出できないため、新しいコンテンツをクロールできなくなります。
Google ニュースの自動クローラ(Googlebot-News)は、メインのニュース セクションの URL が変わらないサイトを最も効果的にクロールできます。Googlebot-News によるクロールに最も適しているのは HTML リンクです。画像リンクや JavaScript に埋め込まれたリンクはクロールできません。セクション ページの記事に HTML リンク以外のリンクを含めないでください。
また、セクション ページ内のアンカー テキストには、そのリンク先の記事のタイトルやページタイトルと同じものを使用してください。この技術要件を満たすことが難しい場合、サイトマップのみに基づいたクロールで対応できる可能性があります。サイトマップのみに基づくサイトのクロールをご希望の場合は、Google チームにお問い合わせください。
アクセス可能なコンテンツ
クローラは、コンテンツを Google ニュースに掲載するためにそのサイトにアクセスする必要があります。記事をホストするディレクトリが robots.txt でブロックされていないこと、メタタグやヘッダーによる指定が記事のリンクへのアクセスをブロックしていないことを確認してください。Google ニュースのクロールには、Google ウェブ検索と同じロボット(Googlebot)を使用しています。
-
サイトの robots.txt ファイル、メタタグ、HTML ヘッダーでの指定がクローラによるコンテンツへのアクセスをブロックしていると思われる場合は、サイトのコンテンツへのアクセスを管理する方法についての記事をご覧ください。
言語とエンコードの要件
コンテンツの言語とサイトのエンコードに関するガイドラインをお読みになり、内容を把握してください。
言語
Google ニュースでは、1 つの記事に複数の言語を表示する記事があるサイトは表示されません。Google のシステムでは複数の言語が含まれるコンテンツを解析できないため、適切な言語でコンテンツを表示することが困難になります。
サイトに example.com/french や example.com/english といった言語ごとのセクションがある場合は、それぞれの言語ごとに個別のパブリケーションを作成してください。そうすることで、ユーザーに適切な言語でコンテンツが表示されます。詳しくは、パブリケーションの設定方法についての説明をご覧ください。
サイトのエンコード
サイトは UTF-8 でエンコードすることをおすすめします。エンコードについて詳しくは、www.w3.org をご覧ください。
各記事ページの要件
ニュース記事のみをクロールするために、Google ニュースでは個々の記事ページに関する要件を設けています。以下の手順に沿って、ガイドラインに準拠していることを確認してください。
記事の URL
記事の URL が固有で永続的なものであること
-
固有の URL: 記事の全文を表示する各ページに固有の URL を設定する必要があります。Google ニュースでは、1 つの URL に複数の記事が表示されているサイトや、各記事に対して専用ページへのリンクが設定されていないサイトは掲載できません。
- 永続的な URL: Google ニュースから記事へのリンクを機能させるには、ニュースサイト上の各記事が記事ごとに一意である永続的な URL に関連付けられている必要があります。たとえば、www.yoursite.com/news1.html というページに毎日異なる記事が掲載される場合、このページはクロールできません。
重要: 新しい URL で記事を再公開することはできません。
記事を後日再公開する場合、URL は変わりません。たとえば、最初に www.example.com/news1.html で記事を公開した場合、www.example.com/news2.html でその記事を再公開しないでください。ドメインやコンテンツ管理システム(CMS)構造の変更中に URL パターンが変更になった場合は、パターンの変換ルールを Google に送信してください。Google がこうしたパターンの変更に対応します。
ページ レイアウトのガイドライン
Google の自動クローラが記事の見出しと公開時刻を簡単に識別できるようにしてください。記事のページは HTML 形式を使用する必要があります。本文を JavaScript に埋め込まないでください。