报道文本

以下是与报道文本相关的一些最常见的提取问题，以及解决方法。如果报道内容：

1. 如果报道内容作为新闻文章看起来过长，则我们的抓取器可能无法将其识别为文章。其下包含用户所发表评论的新闻报道可能会发生这种情况，或者除了新闻报道之外还包含其他内容的 HTML 版面设计也可能会发生这种情况。

2. 如果报道内容都是连续的的词，没有用标点按顺序隔开，则我们不能将其包含在 Google 新闻中。请确保报道的文本是由句子组成的，并且在段落内您未使用常见的标签。

3. 如果文章内容看起来仅包含独立的句子，而未分组到段落中，则我们将不能抓取它。尝试对您的报道进行格式调整，使其由多个具有数个句子的文本段落组成。

4. 如果页面上的文章内容只包含小部分文本，则我们不能将其包含在新闻索引中。可以考虑删除页面上一些非报道文本。

5. 如果报道内容作为新闻报道看起来包含的字过少，则我们不能包含它。这适用于引导至新闻摘要或多媒体内容的大多数链接，而非完整的新闻文章。

6. 如果报道内容看起来为空，则我们将不能抓取它。请确保文章页面的源代码中提供了每篇文章的所有文本（例如，不嵌入在 JavaScript 文件中）。

7. 如果文章内容的抓取受到 robots.txt 文件或抓取机器人 Meta 标签的阻止，Googlebot 将不能访问您的报道。尝试删除"nofollow"Meta 标签或检查您的 robots.txt 文件是否允许"用户代理：Googlebot"访问存储新闻报道的文件。