用一行代码在几秒钟内抓取任何网站

如果你正在寻找最强大的 Python 抓取工具?不要再看了!这一行代码将帮助你立即启动并运行。

Scrapeasy

Scrapeasy 是一个 Python 库,可以轻松抓取网页并从中提取数据。它可用于从单个页面抓取数据或从多个页面抓取数据。它还可用于从 PDF 和 HTML 表格中提取数据。

Scrapeasy 让你只用一行代码就可以用 python 抓取网站,它非常便于使用并为你处理一切。你只需指定要抓取的网站以及你想要接收什么样的数据,其余的交给 Scrapeasy。

Scrapeasy Python 爬虫在编写时考虑到了快速使用。它提供以下主要功能:

  • 一键抓取网站——不仅仅是单个页面。

  • 最常见的抓取活动(接收链接、图像或视频)已经实现。

  • 从抓取的网站接收特殊文件类型,如 .php 或 .pdf 数据。

如何使用 Scrapeasy

通过 pip 下载

$ pip install scrapeasy

使用它

Scraeasy 考虑到了易用性。首先,从 Scrapeasy 导入网站和页面

from scrapeasy import Website, Page

初始化网站

首先,让我们创建一个新的网站对象。对于这种方式,只需提供主页的 URL。我将使用我多年前创建的网站的 URL:

web =Website("https://tikocash.com/solange/index.php/2022/04/13/how-do-you-control-irrational-fear-and-overthinking/
")

获取所有子站点的链接

好的,现在我们的网站已经初始化,我们对 tikocash.com 上存在的所有子网站感兴趣,要找出这一点,请让 Web 对象接收所有子页面的链接。

links = web.getSubpagesLinks()

根据你的本地互联网连接和你正在抓取的网站的服务器速度,此请求可能需要一段时间,确保不要使用这种非常庞大的方法抓取整个网页。

但回到链接获取:通过调用 .getSubpagesLinks(),用你请求所有子页面作为链接,并将收到一个 URL 列表。

links2 = web.getSubpagesLinks()

你可能已经注意到缺少典型的 http://www.-stuff。这是没有目的的,并且使你的生活更容易进一步使用链接。但请确保——当你真正想在浏览器中或通过请求调用它们时——请在每个链接前面添加 http://www. 。

查找媒体

让我们尝试找到指向 fahrschule-liechti.com 放置在其网站上的所有图像的链接。

我们通过调用 .getImages() 方法来做到这一点。

images = web.getImages()

响应将包括指向所有可用图像的链接。

下载媒体

现在让我们做一些更高级的事情。我们喜欢 tikocash.com 在其网站上的图片,所以让我们将它们全部下载到我们的本地磁盘。听起来工作量是不是很大?其实很简单!

web.download("img", "fahrschule/images")

首先,我们定义通过关键字 img 下载所有图像媒体。接下来,我们定义输出文件夹,图像应保存到的位置。就是这样!运行代码,看看发生了什么。几秒钟之内,你就收到了 Tikocash.com 上的所有图片。

获取链接

接下来,让我们找出 tikocash.com 链接到哪些页面。为了获得总体概述,让我们找出它链接到的其他网站,出于这个原因,我们指定只获取域链接。

domains = web.getLinks(intern=False, extern=False, domain=True)

因此,我们得到了在 tikocash.com 上链接的所有链接的列表。

好的,但现在我们想进一步了解这些链接,我们如何做到这一点?

获取链接域

好吧,更详细的链接只不过是外部链接,所以,我们做了同样的请求,但这次包括外部,但不包括域。

domains = web.getLinks(intern=False, extern=True, domain=False)

在这里,我们将详细了解所有外部链接。

初始化页面

好的,到目前为止,我们已经看到了很多关于网站的东西,但是,我们还没有发现 Page 是做什么的。

好吧,如前所述,该页面只是网站中的一个站点,让我们通过初始化W3schools页面,来尝试不同的示例。

w3 = Page("https://www.w3schools.com/html/html5_video.asp")

如果你还没有猜到,你很快就会明白为什么我选择了这个页面。

下载视频

是的,你没听错。Scrapeasy 可让你在几秒钟内从网页下载视频,让我们来看看如何。

w3.download("video", "w3/videos")

是的,仅此而已。只需指定要将所有视频媒体下载到输出文件夹 w3/videos 中,就可以开始了。当然,你也可以只收到视频的链接,然后再下载,但这会不太酷。

video_links = w3.getVideos()

下载其他文件类型(如 pdf 或图片)

现在让我们更笼统地说,下载特殊文件类型,如 .pdf、.php 或 .ico 怎么样?使用通用的 .get() 方法接收链接,或使用文件类型作为参数的 .download() 方法。

calendar_links = Page("https://tikocash.com").get("php")

到这里就完毕。

现在让我们下载一些 PDF。

Page("http://mathcourses.ch/mat182.html").download("pdf", "mathcourses/pdf-files")

总之,Python 是一种通用语言,只需一行代码即可在几秒钟内抓取任何网站上的内容。

因此,这使其成为网络抓取和数据挖掘的强大工具。

因此,如果你需要从网站中提取数据,Python 是适合你的工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/410499.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【串口工具实战】关于USB转TTL工具的推荐

好的工具使用不但可以提高工作效率而且能够带来稳定性 一、更新日志 2024/02/26 A1.0 初稿 二、前言 以前:USB转TTL这东西有什么讲头不就是个数据转换模组集成 现在:你说的都对,对对对 结论:USB转TTL工具的推荐 作为下载…

软考37-上午题-【数据库】-数据模型、数据库的三级模式和二级映像

一、考情简介 上午题:6分——6道选择题 下午题:15分——一道分析题 E-R图、关系模式:下午考试必考!!!(编制也要考!) 二、数据模型 数据模型是对现实世界数据特征的抽象…

vue项目的前端工程化思路webpack(持续更新中)

写在前面:现在的前端网页功能丰富,特别是SPA(single page web application 单页应用)技术流行后,JavaScript的复杂度增加和需要一大堆依赖包,还需要解决Scss,Less……新增样式的扩展写法的编译工…

什么是Dapp

什么是Dapp Dapp(去中心化应用)程序的后端代码(智能合约)运行在一个去中心化的网络上,而非中心化的服务器。他们使用以太坊区块链网络作为数据存储端,并且用智能合约实现app的业务逻辑。 特点 智能合约&am…

【C语言】linux内核__netdev_start_xmit函数

一、中文注释 // 这是一个内联函数,用于启动网络设备的数据包发送流程。 // 它通过网络设备操作集(net_device_ops)指定的特定函数 // 来启动给定数据包的发送。// ops: 指向包含网络设备操作函数的结构体的指针 // skb: 指向要发送的套接字…

2024年大路灯无广测评推荐:书客、柏曼、霍尼韦尔大路灯哪个品牌更好?

临近开学,护眼大路灯哪个品牌好的话题度在不断提高! 有人说大路灯是“智商税”,但也有人说“学生党福音”、“照明神器”,吸引了大量人群的关注。在没用过大路灯之前我也很担心在担心是否是智商税的问题,直到我自己入…

AIGC实战——扩散模型(Diffusion Model)

AIGC实战——扩散模型 0. 前言1. 去噪扩散概率模型1.1 Flowers 数据集1.2 正向扩散过程1.3 重参数化技巧1.4 扩散规划1.5 逆向扩散过程 2. U-Net 去噪模型2.1 U-Net 架构2.2 正弦嵌入2.3 ResidualBlock2.4 DownBlocks 和 UpBlocks 3. 训练扩散模型4. 去噪扩散概率模型的采样5. …

伪原创一键生成软件:为你创作有价值的文章

伪原创一键生成软件是一种现代写手必备的得力助手。无论您是写作新手还是经验丰富的老手,它都能帮助您快速生成有吸引力的文章,让您在竞争激烈的市场中脱颖而出。伪原创一键生成软件是一款让写作变得轻松且高效的神奇工具。它为写手们节省了大量的时间和…

智慧公厕:让城市更智慧、更环保

在现代社会,智慧公厕作为城市管理的重要一环,是智慧城市的重要组成部分,其建设的价值十出突出,是公共厕所信息化升级改造的核心方案。如智慧公厕源头厂家广州中期科技有限公司,所自主研发的智慧公厕整体解决方案&#…

自动驾驶---行业发展及就业环境杂谈

进入21世纪以来,自动驾驶行业有着飞速的发展,自动驾驶技术(L2---L3)也逐渐落地量产到寻常百姓家。虽然最早期量产FSD的特斯拉有着深厚的技术积累,但是进入2010年以后,国内的公司也逐渐发展起来自己的自动驾…

Attention注意力机制

1. 背景 1.1. 变长序列 1.2. 序列的输出格式 每个向量对应一个标签,如词性标注整个序列输出一个标签,如情感分析(Sentiment Analysis)由模型决定输出的标签个数,这种任务称为Seq2seq任务 1.3. 序列标注 使用全连接的方式,没办法…

「连载」边缘计算(十九)02-22:边缘部分源码(源码分析篇)

(接上篇) 从启动函数Start()中可以看到,其以go routine的方式启动很多后台处理服务,具体如下。 1)初始化edged的kubeClient,具体如下所示。 // use self defined client to replace fake kube…

MySQL进阶篇2-索引的创建和使用以及SQL的性能优化

索引 mkdir mysql tar -xvf mysqlxxxxx.tar -c myql cd mysql rpm -ivh .....rpm yum install openssl-devel ​ systemctl start mysqld ​ gerp temporary password /var/log/mysqld.log ​ mysql -u root -p mysql> show variables like validate_password.% set glob…

大气颗粒物与VOCs PMF源解析

原文:大气颗粒物与VOCs PMF源解析 第一:PMF源解析技术及其输入文件 1、大气污染源解析方法有哪些? 2、这些方法各自应用的条件以及它们的优缺点? 3、大气颗粒物的基础知识及各组分的主要来源 大气颗粒物的来源: 大…

一键解锁本地大型语言模型!Ollama框架让你轻松运行Gemma

想要在本地运行大型语言模型吗? Ollama框架提供了这样的机会。 这个框架是专为在Docker容器中部署LLM而设计的,简化了部署和管理流程。 安装Ollama后,你只需执行一条命令,即可在本地运行开源大型语言模型。 它将模型权重、配置…

Spring Security源码学习

Spring Security本质是一个过滤器链 过滤器链本质是责任链设计模型 1. HttpSecurity 【第五篇】深入理解HttpSecurity的设计-腾讯云开发者社区-腾讯云 在以前spring security也是采用xml配置的方式&#xff0c;在<http>标签中配置http请求相关的配置&#xff0c;如用户…

蓝桥杯-最小砝码

知识点&#xff1a;本题主要考察任何一个物体都可以用 3进制表示。 #include <iostream> #include<cmath> using namespace std; //知识点:任何一个物体都可以用 3进制表示 int main() { int n; cin >> n; int sum 0; for (int i 0;; i)…

cmake构建在Visual stdio 2019 和Xcode的Qt的程序

概述&#xff1a;用CMake可以方便地构建Qt的应用程序&#xff0c;前提是你已经配置好用Visual Stdio 开发的Qt的环境或者Xcode的Qt开发环境。 1、编写CMakeLists.txt cmake_minimum_required(VERSION 3.6)set(CMAKE_CONFIGURATION_TYPES "Debug;Release" CACHE STR…

电商erp系统对接API接口功能简介

对接电商ERP系统的API接口可以按照以下步骤进行&#xff1a; 1. 确认电商ERP系统的API接口文档&#xff1a;首先&#xff0c;你需要获得电商ERP系统的API文档。API文档会提供关于如何使用系统的接口以及参数等详细信息。确保你已经仔细阅读和理解了API文档。 2. 创建API密钥&…

【Flink精讲】Flink性能调优:CPU核数与并行度

常见问题 举个例子 提交任务命令&#xff1a; bin/flink run \ -t yarn-per-job \ -d \ -p 5 \ 指定并行度 -Dyarn.application.queuetest \ 指定 yarn 队列 -Djobmanager.memory.process.size2048mb \ JM2~4G 足够 -Dtaskmanager.memory.process.size4096mb \ 单个 TM2~8G 足…