Google 对其爬虫文档进行了重大改版,缩小了主概览页面,并将内容拆分为三个新的、更集中的页面。虽然更新日志淡化了这些变化,但有一个全新的部分,并且基本上重写了整个爬虫概览页面。增加的页面使 Google 能够增加所有爬虫页面的信息密度并改善主题覆盖范围。
有何改变?
Google 的文档变更日志记录了两项变更,但实际上还有很多变更。
以下是一些变化:
- 为 GoogleProducer 爬虫添加了更新的用户代理字符串
- 添加内容编码信息
- 添加了有关技术属性的新部分
技术属性部分包含以前不存在的全新信息。抓取工具的行为没有任何变化,但通过创建三个特定主题的页面,Google 能够向抓取工具概览页面添加更多信息,同时缩小其体积。
这是有关内容编码(压缩)的新信息:
“Google 的抓取工具和提取工具支持以下内容编码(压缩):gzip、deflate 和 Brotli (br)。每个 Google 用户代理支持的内容编码都会在其发出的每个请求的 Accept-Encoding 标头中公布。例如,Accept-Encoding:gzip、deflate、br。”
还有关于通过 HTTP/1.1 和 HTTP/2 进行抓取的附加信息,以及关于他们的目标是在不影响网站服务器的情况下抓取尽可能多的页面的声明。
改造的目标是什么?
文档的更改是由于概览页面变得过大。额外的爬虫信息将使概览页面变得更大。我们决定将页面分为三个子主题,以便特定爬虫内容可以继续增长,并为概览页面上的更多一般信息腾出空间。将子主题拆分成自己的页面是解决如何最好地服务用户问题的绝妙方法。
文档变更日志对这一变更的解释如下:
“文档变得非常长,这限制了我们扩展有关爬虫和用户触发的获取器内容的能力。
…重新组织了 Google 抓取工具和用户触发抓取工具的文档。我们还添加了关于每个抓取工具影响哪些产品的明确说明,并为每个抓取工具添加了 robots.txt 代码片段,以演示如何使用用户代理令牌。除此之外,内容没有任何有意义的更改。”
变更日志将这些变化描述为重组,以淡化其重要性,因为爬虫概述已被大量重写,此外还创建了三个全新的页面。
虽然内容基本保持不变,但将其划分为子主题使 Google 可以更轻松地向新页面添加更多内容,而无需继续扩展原始页面。原始页面称为 Google 抓取工具和提取器(用户代理)概述,现在真正成为概述,其中更详细的内容已移至独立页面。
Google 发布了三个新页面:
- 常见爬虫
- 特殊情况爬虫
- 用户触发的获取器
1. 常见爬虫
正如标题所示,这些都是常见的抓取工具,其中一些与 GoogleBot 相关联,包括使用 GoogleBot 用户代理的 Google-InspectionTool。本页列出的所有机器人均遵守 robots.txt 规则。
以下是已记录的 Google 爬虫:
- Googlebot
- Googlebot 图片
- Googlebot 视频
- Googlebot 新闻
- Google StoreBot
- Google 检查工具
- 谷歌其他
- Google其他图片
- Google其他视频
- Google-CloudVertexBot
- Google 扩展
3. 特殊爬虫
这些是与特定产品相关联的爬虫,根据与这些产品用户的协议进行爬取,并且从与 GoogleBot 爬虫 IP 地址不同的 IP 地址运行。
特殊爬虫列表:
- Robots.txt 的AdSense用户代理:Mediapartners-Google
- Robots.txt 的AdsBot用户代理:AdsBot-Google
- AdsBot 移动网络用户代理(Robots.txt):AdsBot-Google-Mobile
- APIs-GoogleRobots.txt 用户代理:APIs-Google
- Google-SafetyRobots.txt 的用户代理:Google-Safety
3. 用户触发的获取器
用户触发的获取器页面涵盖了由用户请求激活的机器人,解释如下:
“用户触发的抓取程序由用户启动,用于在 Google 产品中执行抓取功能。例如,Google Site Verifier 根据用户的请求执行操作,或者托管在 Google Cloud (GCP) 上的网站具有允许网站用户检索外部 RSS 源的功能。由于抓取是由用户请求的,因此这些抓取程序通常会忽略 robots.txt 规则。Google 抓取程序的一般技术特性也适用于用户触发的抓取程序。”
该文档涵盖以下机器人:
- 信息获取器
- Google 发布商中心
- 谷歌朗读
- Google 网站验证器
要点:
Google 的爬虫概述页面变得过于全面,可能不太实用,因为人们并不总是需要全面的页面,他们只对特定信息感兴趣。概述页面不太具体,但也更容易理解。它现在充当一个入口点,用户可以从中深入了解与三种爬虫相关的更具体的子主题。
这一变化提供了有关如何更新可能因内容过于综合而表现不佳的页面的见解。将综合页面拆分为独立页面可让子主题满足特定用户的需求,并且如果它们在搜索结果中排名靠前,可能会让它们更有用。
我不会说这种变化反映了谷歌算法的任何变化,它只反映了谷歌如何更新他们的文档以使其更有用,并设置为添加更多信息。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有