如何管理大型网站的抓取预算

优化您的网站,以便 Google 更快地找到您的内容并将您的内容编入索引,这可以帮助您的网站获得更好的知名度和流量。

互联网是一个不断发展的虚拟世界,拥有超过 1 亿个网站。

你认为谷歌可以抓取世界上的每一个网站吗?

即使拥有谷歌拥有的所有资源、资金和数据中心,它甚至无法抓取整个网络——也不想这样做。

什么是抓取预算,它重要吗?

抓取预算是指 Googlebot 在抓取网域中的网页所花费的时间和资源。

优化您的网站非常重要,这样 Google 才能更快地找到您的内容并将您的内容编入索引,这可以帮助您的网站获得更好的知名度和流量。

如果您有一个拥有数百万个网页的大型网站,那么管理您的抓取预算以帮助 Google 抓取您最重要的网页并更好地了解您的内容尤为重要。

谷歌声明:

如果您的网站没有大量快速变化的网页,或者您的网页似乎在发布当天就被抓取了,那么保持站点地图是最新的并定期检查索引覆盖率就足够了。谷歌还指出,每个页面都必须经过审查、整合和评估,以确定在抓取后将其编入索引的位置。

爬网预算由两个主要元素决定:爬网容量限制和爬网需求。

抓取需求是指 Google 希望在您的网站上抓取多少。更受欢迎的页面,即来自 CNN 的热门故事和经历重大变化的页面,将被抓取更多。

Googlebot 希望在不使服务器不堪重负的情况下抓取您的网站。为防止出现这种情况,Googlebot 会计算抓取容量限制,即 Googlebot 可用于抓取网站的同时并行连接的最大数量,以及抓取之间的时间延迟。

将抓取容量和抓取需求放在一起,Google 将网站的抓取预算定义为 Googlebot 可以抓取且想要抓取的一组网址。即使未达到抓取容量限制,如果抓取需求较低,Googlebot 也会减少对网站的抓取。

以下是管理具有 12k 到数百万个 URL 的大中型网站抓取预算的 10 大技巧。

1. 确定哪些网页是重要的,哪些网页不应该被抓取

确定哪些网页很重要,哪些网页不那么重要(因此,Google 访问频率较低)。

通过分析确定后,您可以查看您网站的哪些页面值得抓取,哪些网站的页面不值得抓取,并将它们排除在抓取之外。

例如,Macys.com 有超过 2 万个被编入索引的页面。

它通过通知 Google 不要抓取网站上的某些网页来管理其抓取预算,因为它限制了 Googlebot 抓取 robots.txt 文件中的某些网址。
Googlebot 可能会认为不值得花时间查看您网站的其余部分或增加您的抓取预算。确保分面导航和会话标识符:通过robots .txt 屏蔽

2.管理重复内容

虽然 Google 不会因存在重复内容而受到处罚,但您希望向 Googlebot 提供原创且独特的信息,这些信息既能满足最终用户的信息需求,又能提供相关且实用的信息。确保您使用的是robots .txt 文件。

谷歌表示不使用任何索引,因为它仍然会请求,但随后会删除。

3. 使用 Robots.txt 阻止抓取不重要的 URL,并告诉 Google 它可以抓取哪些页面

对于包含数百万个网页的企业级网站,Google 建议使用 robots.txt 阻止抓取不重要的网址。

此外,您还希望确保 Googlebot 和其他搜索引擎能够抓取您的重要网页、包含黄金内容的目录和理财网页。

4. 长重定向链

如果可以的话,将重定向次数保持在较小的数量。重定向或重定向循环过多可能会使 Google 感到困惑并降低您的抓取限制。

谷歌表示,长重定向链会对抓取产生负面影响。

5.使用HTML

使用 HTML 会增加任何搜索引擎的爬虫访问您网站的几率。

虽然 Googlebot 在抓取和索引 JavaScript 方面有所改进,但其他搜索引擎抓取工具并不像 Google 那样复杂,并且可能在 HTML 以外的其他语言上存在问题。

6. 确保您的网页加载速度快并提供良好的用户体验

使您的网站针对 Core Web Vitals 进行了优化。

内容加载速度越快(即不到 3 秒),Google 向最终用户提供信息的速度就越快。如果他们喜欢,Google 会继续将您的内容编入索引,因为您的网站会展示 Google 抓取运行状况,这可能会提高您的抓取限制。

7.有有用的内容

根据谷歌的说法,内容是按质量评定的,无论年龄大小。根据需要创建和更新您的内容,但通过进行琐碎的更改和更新页面日期来人为地使页面看起来是新鲜的,没有任何额外的价值。

如果你的内容满足了最终用户的需求,即有用和相关,那么它是旧的还是新的并不重要。

如果用户觉得你的内容没有帮助和相关性,那么我建议你更新和刷新你的内容,使其新鲜、相关和有用,并通过社交媒体进行推广。

此外,将您的页面直接链接到主页,这可能会被视为更重要并且更频繁地抓取。

8. 注意抓取错误

如果您删除了网站上的某些网页,请确保网址为永久移除的网页返回 404 或 410 状态。404 状态代码是一个强烈的信号,表明不要再次抓取该网址。

但是,被屏蔽的网址在抓取队列中停留的时间会更长,并且在移除屏蔽后会重新抓取。

  • 此外,Google 声明删除任何软 404 页面,这些页面将继续被抓取并浪费您的抓取预算。要对此进行测试,请进入 GSC 并查看索引覆盖率报告,了解是否存在软 404 错误。

如果您的网站有许多 5xx HTTP 响应状态代码(服务器错误)或连接超时发出相反的信号,则抓取速度会变慢。Google 建议您注意 Search Console 中的“抓取统计信息”报告,并将服务器错误数量降至最低。

顺便说一下,谷歌不尊重或遵守非标准的“抓取延迟”机器人.txt规则。

即使您使用了 nofollow 属性,如果您网站上的其他网页或网络上的任何网页未将该链接标记为 nofollow,该网页仍会被抓取并浪费抓取预算。

9. 让站点地图保持最新

XML 站点地图对于帮助 Google 找到您的内容非常重要,并且可以加快速度。

保持站点地图网址是最新的,使用<lastmod>标签更新的内容,并遵循SEO最佳实践,包括但不限于以下内容,这一点非常重要。

  • 仅包含您希望搜索引擎编入索引的 URL。
  • 仅包含返回 200 状态代码的 URL。
  • 确保单个站点地图文件小于 50MB 或 50,000 个网址,如果您决定使用多个站点地图,请创建一个索引站点地图,列出所有站点地图。
  • 确保您的站点地图是 UTF-8 编码的。
  • 包括指向每个 URL 的本地化版本的链接。
  • 使您的站点地图保持最新状态,即每次有新网址或旧网址被更新或删除时,都会更新您的站点地图。

10.建立一个良好的网站结构

拥有良好的网站结构对于您的索引和用户体验的 SEO 性能很重要。

网站结构可以通过多种方式影响搜索引擎结果页面 (SERP) 结果,包括可抓取性、点击率和用户体验。

网站结构清晰、线性,可以有效地利用抓取预算,这将有助于 Googlebot 找到任何新的或更新的内容。

永远记住三次点击规则,即任何用户都应该能够通过最多三次点击从您网站的任何页面转到另一个页面。

11. 内部链接

搜索引擎越容易抓取和浏览您的网站,爬虫就越容易识别您的结构、上下文和重要内容。

将内部链接指向某个网页可以告知 Google 该网页很重要,有助于为给定网站建立信息层次结构,并有助于在整个网站中传播链接权益。

12. 始终监控抓取统计信息

请务必查看和监控 GSC,了解您的网站在抓取过程中是否存在任何问题,并寻找提高抓取效率的方法。

您可以使用“抓取统计信息”报告来查看 Googlebot 在抓取您的网站时是否存在任何问题。

如果 GSC 中报告了您网站的可用性错误或警告,请在主机可用性图表中查找 Googlebot 请求超出红色限制线的实例,点击进入图表以查看哪些网址失败,并尝试将这些错误或警告与您网站上的问题相关联。

此外,您还可以使用网址检查工具测试您网站上的一些网址。

如果网址检查工具返回主机负载警告,则表示 Googlebot 无法抓取您网站上发现的尽可能多的网址。

最后

抓取预算优化对于大型网站至关重要,因为它们具有广泛的规模和复杂性。

由于页面和动态内容众多,搜索引擎爬虫在高效和有效地抓取和索引网站内容方面面临挑战。

通过优化您的抓取预算,网站所有者可以优先抓取重要和更新的页面并编制索引,确保搜索引擎明智有效地使用其资源。

此优化过程涉及改进网站架构、管理 URL 参数、设置抓取优先级和消除重复内容等技术,从而提高搜索引擎可见性、改善用户体验并增加大型网站的自然流量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/239016.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

优化汽车产业用户营运:精细化策略

近年来随着互联网时代新技术浪潮的冲击&#xff0c;商业社会中各种原生边界不断被打破&#xff0c;新的消费需求、新的商业模式、新的竞争挑战层出不穷。各行业往往面临重重困境与迷思&#xff0c;学会如何精细化运营用户显得尤为重要。立即阅读阅文&#xff0c;详细了解其中用…

系列十、SpringBoot + MyBatis + Redis实现分布式缓存(基于注解方式)

一、概述 上篇文章 系列九、SpringBoot MyBatis Redis实现分布式缓存 介绍了基于xml方式实现分布式缓存的效果&#xff0c;当前大家使用的技术栈基本是springboot各种框架的组合&#xff0c;而springboot显著的一个特点就是去xml配置&#xff0c;那么在无xml配置的情形下&…

LeetCode(55)环形链表【链表】【简单】

目录 1.题目2.答案3.提交结果截图 链接&#xff1a; 环形链表 1.题目 给你一个链表的头节点 head &#xff0c;判断链表中是否有环。 如果链表中有某个节点&#xff0c;可以通过连续跟踪 next 指针再次到达&#xff0c;则链表中存在环。 为了表示给定链表中的环&#xff0c;评…

【EDA工具-VCS和Verdi的使用_2023.12.9】

芯片开发所需工具环境 Linux/Unix 编辑器Vim/Gvim EDA工具 Makefile 脚本语言Perl/Python 版本控制SVN/GIT 脚本语言Makefile 形式&#xff08;由一系列的规则组成&#xff09; 规则的目标&#xff1a;规则的依赖&#xff08;可有可无&#xff09; 规则的命令行&#xff08…

CompletableFuture使用小结

为什么需要CompletableFuture CompletableFuture继承了CompletionStage接口和Future接口&#xff0c;在原有Future的基础上增加了异步回调、流式处理以及任务组合&#xff0c;成为JDK8多任务协同场景下一个有效利器。 CompletableFuture使用示例 提交有返回值的异步任务 通…

【HTML】基于jsQR实现的HTML单页面扫码功能

前言 最近做了一个扫码签到的功能涉及到获取浏览器摄像头并扫码识别的功能。 选择jsQR的原因&#xff1a; html5-qrcode&#xff1a;使用简单&#xff0c;识别率低&#xff0c;二维码小不可解析 zxing/library&#xff1a; 识别率优于html5-qrcode&#xff0c;部分安卓模糊…

Linux系统编程:高级IO总结

非阻塞IO基本概念 高级IO核心就一个概念&#xff1a;非阻塞IO。 与该概念相对的&#xff0c;就是我们之前学习过的阻塞IO。 非阻塞IO&#xff08;Non-blocking I/O&#xff09;是一种IO模型&#xff0c;用于实现异步IO操作&#xff0c;使应用程序能够在等待IO操作完成的同时…

Ubuntu部署EMQX开源版MQTT服务器-Orange Pi部署-服务器部署

一、前言 作为全球最具扩展性的 MQTT 消息服务器&#xff0c;EMQX 提供了高效可靠海量物联网设备连接&#xff0c;能够高性能实时移动与处理消息和事件流数据&#xff0c;本文将介绍如何在Ubuntu 22.04上部署MQTT服务器。我们本次选择开源版&#xff0c;使用离线安装方式部署。…

d2l绘图不显示的问题

之前试了各种方法都不行 在pycharm中还是不行&#xff0c;但是在anaconda中的命令行是可以的 anaconda prompt conda activaye py39 #进入f盘 F: #运行文件 python F:\python_code\softmax.py

Linux Ubuntu 手动搭建webDav

1、安装 因为需要跟 zotero 进行交互&#xff0c;因此需要在服务器搭建一个webDav 以下是搭建步骤&#xff1a; sudo apt-get update sudo apt-get install apache2 Ubuntu 安装apache2来实现 不同于Centos 安装好了之后&#xff0c;运行 a2enmod dav_fs a2enmod dav 激…

Linux shell编程学习笔记34:eval 命令

0 前言 在JavaScript语言中&#xff0c;有一个很特别的函数eval&#xff0c;eval函数可以将字符串当做 JavaScript 代码执行&#xff0c;返回表达式或值。 在Linux Shell 中也提供了内建命令eval&#xff0c;它是否具有JavaScript语言中eval函数的功能呢&#xff1f; 1 eval命…

【flink番外篇】3、fflink的source(内置、mysql、kafka、redis、clickhouse)介绍及示例(2)- 自定义、mysql

Flink 系列文章 一、Flink 专栏 Flink 专栏系统介绍某一知识点&#xff0c;并辅以具体的示例进行说明。 1、Flink 部署系列 本部分介绍Flink的部署、配置相关基础内容。 2、Flink基础系列 本部分介绍Flink 的基础部分&#xff0c;比如术语、架构、编程模型、编程指南、基本的…

LeetCode 1631. 最小体力消耗路径:广度优先搜索BFS

【LetMeFly】1631.最小体力消耗路径&#xff1a;广度优先搜索BFS 力扣题目链接&#xff1a;https://leetcode.cn/problems/path-with-minimum-effort/ 你准备参加一场远足活动。给你一个二维 rows x columns 的地图 heights &#xff0c;其中 heights[row][col] 表示格子 (ro…

Leetcode—2961.双模幂运算【中等】

2023每日刷题&#xff08;五十六&#xff09; Leetcode—2961.双模幂运算 实现代码 class Solution { public:int func(int a, int b) {int ans 1;for(int i 0; i < b; i) {ans * a;ans % 10;}return ans;}int func2(int a, int b, int m) {int ans 1;for(int i 0; i …

使用Kali Linux端口扫描

端口扫描 【实训目的】 掌握端口扫描的基本概念和端口扫描的原理&#xff0c;掌握各种类型端口扫描的方法及其区别。 【场景描述】 在虚拟机环境下配置4个虚拟系统“Win XP1” “Win XP2” “Kali Linux”和“Metasploitable2”&#xff0c;使得4个系统之间能够相互通信。实…

深度学习(生成式模型)——ADM:Diffusion Models Beat GANs on Image Synthesis

文章目录 前言基础模型结构UNet结构Timestep Embedding关于为什么需要timestep embedding global attention layer 如何提升diffusion model生成图像的质量Classifier guidance实验结果 前言 在前几篇博文中&#xff0c;我们已经介绍了DDPM、DDIM、Classifier guidance等相关的…

EasyV易知微助力智慧城市未来趋势发展——数字孪生城市

“智慧城市的未来趋势就是数字孪生”——《基于数字孪生的智慧城市》 城市数字化管理、智慧城市和数字孪生城市的发展是相互促进、逐步深化的过程。 城市数字化管理作为起点&#xff0c;奠定了信息化、数据化的基础&#xff1b;而智慧城市则将数字城市管理进一步升级&#xff…

Could not resolve all dependencies for configuration ‘:app:androidApis‘.

android studio出现Could not resolve all dependencies for configuration ‘:app:androidApis’. 试过很多种方法&#xff0c;但是都不好使&#xff0c;不管怎么样都是提示如下报错&#xff1a; Using insecure protocols with repositories, without explicit opt-in, is un…

nginx配置正向代理支持https

操作系统版本&#xff1a; Alibaba Cloud Linux 3.2104 LTS 64位 nginx版本&#xff1a; nginx-1.25.3 1. 下载软件 切换目录 cd /server wget http://nginx.org/download/nginx-1.25.3.tar.gz 1.1解压 tar -zxvf nginx-1.25.3.tar.gz 1.2切换到源码所在目录…

Wireshark中的http协议包分析

Wireshark可以跟踪网络协议的通讯过程&#xff0c;本节通过http协议&#xff0c;在了解Wireshark使用的基础上&#xff0c;重温http协议的通讯过程。 TCP&#xff08;Transmission Control Protocol&#xff0c;传输控制协议&#xff09;是一种面向连接的、可靠的、基于 字节流…