报道文本

以下是与报道文本相关的一些最常见的提取问题,以及解决方法。 如果报道内容:

1. 如果报道内容作为新闻文章看起来过长,则我们的抓取器可能无法将其识别为文章。 其下包含用户所发表评论的新闻报道可能会发生这种情况,或者除了新闻报道之外还包含其他内容的 HTML 版面设计也可能会发生这种情况。

2. 如果报道内容都是连续的的词,没有用标点按顺序隔开,则我们不能将其包含在 Google 新闻中。 请确保报道的文本是由句子组成的,并且在段落内您未使用常见的标签。

3. 如果文章内容看起来仅包含独立的句子,而未分组到段落中,则我们将不能抓取它。 尝试对您的报道进行格式调整,使其由多个具有数个句子的文本段落组成。

4. 如果页面上的文章内容只包含小部分文本,则我们不能将其包含在新闻索引中。 可以考虑删除页面上一些非报道文本。

5. 如果报道内容作为新闻报道看起来包含的字过少,则我们不能包含它。 这适用于引导至新闻摘要或多媒体内容的大多数链接,而非完整的新闻文章。

6. 如果报道内容看起来为空,则我们将不能抓取它。 请确保文章页面的源代码中提供了每篇文章的所有文本(例如,不嵌入在 JavaScript 文件中)。

7. 如果文章内容的抓取受到 robots.txt 文件或抓取机器人 Meta 标签的阻止,Googlebot 将不能访问您的报道。 尝试删除"nofollow"Meta 标签或检查您的 robots.txt 文件是否允许"用户代理:Googlebot"访问存储新闻报道的文件。
该内容对您有帮助吗?
您有什么改进建议?