爬虫相关概念

站点地图

什么是站点地图?
站点地图是一种文件,您可以通过该文件列出您网站上的网页,从而将您网站内容的组织架构告知 Google 和其他搜索引擎。Googlebot 等搜索引擎网页抓取工具会读取此文件,以便更加智能地抓取您的网站。

此外,站点地图能够提供与其中所列网页相关的宝贵元数据:元数据是网页的相关信息,例如此网页的上次更新时间、更改频率及其重要性(与相应网站中的其他网址相较而言)。

您可以使用站点地图向 Google 提供您网页上特定类型内容(包括视频和图片内容)的元数据。例如,您可以向 Google 提供有关视频和图片内容的信息:

站点地图视频条目可以指定视频的时长、类别和年龄适宜性分级。
站点地图图片条目中可包含图片主题、类型和许可。


我需要站点地图吗?
如果您网站上的网页链接得当,那么我们的网页抓取工具通常便能够发现其中的大多数网页。即便如此,站点地图仍更加有效地抓取网站,尤其是当网站符合以下某个条件时:

网站规模很大。 在这种情况下,Google网页抓取工具可能会在抓取时漏掉部分新网页或最近更新的网页。
网站有大量内容页归档,这些内容页之间互不关联或缺少有效链接。 如果您的网站网页没有自然地相互引用,那么您可以在站点地图中列出这些网页,以确保Google不会漏掉您的网页。
网站为新网站且指向该网站的外部链接不多。 Googlebot及其他网页抓取工具是通过跟踪网页之间的链接来抓取网页的。因此,如果没有其他网站链接到您的网页,Google可能不会发现您的网页。
您的网站使用富媒体内容(在Google新闻中显示),或使用其他与站点地图兼容的注释。在适当情况下,Google 能将站点地图中的其他信息纳入搜索范围。

文章目录
  1. 1. 站点地图