Python爬虫--Scrapy框架安装

Scrapy框架安装 ,

Scrapy 是 Python 领域专业的爬虫开发框架,已经完成爬虫程序的大部分通用工具

它使用了 Twisted 异步网络库来处理网络通讯。整体架构大致如下

images

第一步:挂小灰机或者将要安装的文件下载到本地

Scrapy 框架安装踩坑中

为什么要挂小灰机呢??

因为有些扩展包需要科学上网才能下载,不挂的话会出错

如果确实挂不了的话,可以考虑才其他地方下载安装包到本地,

然后在本地进行安装。


第二步:升级pip

pip 是一个现代的,通用的 Python 包管理工具。提供了对 Python 包的查找、下载、安装、卸载的功能。

在安装扩展包的时候,可会因为 pip 版本过低安装不了

例如出现如下错误

images


这个时候我们可以考虑先升级 pip ,然后再安装扩展包

升级命令:

python -m pip install --upgrade pip

这样就成功升级了

images


第三步:安装wheel

Python的第一个主流打包格式是 .egg 文件,

现在大家庭中又有了一个叫做 Wheel(*.whl) 的新成员。

wheel 被设计成包含PEP 376兼容安装(一种非常接近于磁盘上的格式)的所有文件。

你可以这么理解,source是源代码,如果包含C++的化需要编译,

而 wheel 是编译后的,可以直接安装。 pip 默认的也是先下载 wheel 文件安装,没有的话再源码编译安装


安装 wheel 的话,我们采用网络安装,不需要挂小灰机

出现这个就表示已经安装好了

images


第四步:安装lxml

lxml 是 python 的一个解析库,支持 HTML 和 XML 的解析,支持 XPath 解析方式,而且解析效率非常高

XPath,全称 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言,

它最初是用来搜寻 XML 文档的,但是它同样适用于 HTML 文档的搜索


现在来安装 lxml ,我们采用下载安装,就是将安装包下载到本地进行安装

打开这个网站:https://www.lfd.uci.edu/~gohlke/pythonlibs/

然后找到 lxml 下载

这里 cp37 表示 python 版本 ,win_amd64 表示 Windows 位数是 64 位的

下载对应的版本就好了

images


然后下载到了 D 盘 ,Python37 文件夹下了

然后进入这个文件夹下安装即可

命令:

pip install lxml-4.4.1-cp37-cp37m-win_amd64.whl  #  pip install 文件全名

这样就安装成功了

images


第五步:安装Twisted

Twisted 介绍:


1.Twisted 是用 Python 实现的基于事件驱动的网络引擎框架。 Twisted 诞生于2000年初,

2.在当时的网络游戏开发者看来,无论他们使用哪种语言,手中都鲜有可兼顾扩展性及跨平台的网络库。

3.Twisted 的作者试图在当时现有的环境下开发游戏,这一步走的非常艰难,

4.他们迫切地需要一个可扩展性高、基于事件驱动、跨平台的网络开发框架,

5.为此他们决定自己实现一个,并从那些之前的游戏和网络应用程序的开发者中学习,汲取他们的经验教训。

6.Twisted 支持许多常见的传输及应用层协议,

7.包括 TCP 、 UDP 、 SSL/TLS 、HTTP 、IMAP 、SSH 、IRC 以及 FTP 。

8.就像python一样,Twisted 也具有“内置电池”(batteries-included)的特点。

9.Twisted对于其支持的所有协议都带有客户端和服务器实现,

10.同时附带有基于命令行的工具,使得配置和部署产品级的 Twisted 应用变得非常方便。

安装 Twisted ,我们也使用本地安装的方法

还是这个网站:https://www.lfd.uci.edu/~gohlke/pythonlibs/

还是跟之前一样,找到对应的版本下载

然后安装

这样就安装成功了,如果这样都安装不了的话,建议挂个小灰机再安装

images


第六步:安装Scrapy

前面的准备工作完成了

最后一步就是安装 Scrapy 了

这一步无需挂小灰机,如果确实怕出错,挂上也无所谓

命令:

pip install scrapy

出现这个就表示成功安装了

images


如果不确定是否安装成功,可以输入 scrapy

如果能够显示出信息,就说明成功了

images


总结:

到这里 Scrapy 就安装结束了

接下来开启新的爬虫之旅了!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/579698.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ubuntu的镜像源+bionic版本

首先第一步 查找和你自己ubuntu版本匹配的版本号 匹配代号如下 在终端输入lsb_release -a查看自己系统上的版本号 可以看到我这个版本号的代号是bionic。 每个版本的镜像文件都是有规律的。 bionic版本的源如下 # 阿里源 deb http://mirrors.aliyun.com/ubuntu/ bionic ma…

前端用a标签实现静态资源文件(excel/word/pdf)下载

接上文实现的 前端实现将二进制文件流,并下载为excel文件后, 实际项目中一般都会有一个模版下载的功能,一般都由服务端提供一个下载接口,返回文件流或url地址,然后前端再处理成对应需要的类型的文件。 但是&#xff…

HTML5(1)

目录 一.HTML5(超文本&#xff08;链接&#xff09;标记&#xff08;标签<>&#xff09;语言) 1.开发环境&#xff08;写代码&#xff0c;看效果&#xff09; 2.vscode 使用 3.谷歌浏览器使用 4.标签语法 5.HTML基本骨架&#xff08;网页模板&#xff09; 6.标签的…

排序 “肆” 之归并排序

1. 归并排序 1.1 原理介绍 归并排序的基本原理是将一个未排序的数组分解为较小的子数组&#xff0c;然后递归地对这些子数组进行排序&#xff0c;最后再将排好序的子数组合并成一个有序数组。其核心操作是将一维数组中前后相邻的两个有序序列归并为一个有序序列。 其主要步骤包…

【区块链】椭圆曲线数字签名算法(ECDSA)

本文主要参考&#xff1a; 一文读懂ECDSA算法如何保护数据 椭圆曲线数字签名算法 1. ECDSA算法简介 ECDSA 是 Elliptic Curve Digital Signature Algorithm 的简称&#xff0c;主要用于对数据&#xff08;比如一个文件&#xff09;创建数字签名&#xff0c;以便于你在不破坏它…

【Flutter】GetX

前言 状态管理 / 路由管理 / 依赖管理 这三部分之间存在联系 参考文章 建议看官网文章&#xff0c;很详细 &#xff0c;pub.dev搜索get pub.dev的文档 状态管理文章相关链接 状态管理 案例 实现一个计算器&#xff0c;运用GetX去管理它 构建界面 构建一个计算器界面 …

基于SpringBoot的“房产销售平台”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“房产销售平台”的设计与实现&#xff08;源码数据库文档PPT) 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;SpringBoot 工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 系统展示 系统整体模块图 登录窗口界面 房源信息管理窗口界…

解决HttpServletRequest中的InputStream/getReader只能被读取一次的问题

一、事由 由于我们业务接口需要做签名校验&#xff0c;但因为是老系统了签名规则被放在了Body里而不是Header里面&#xff0c;但是我们不能在每个Controller层都手动去做签名校验&#xff0c;这样不是优雅的做法&#xff0c;然后我就写了一个AOP&#xff0c;在AOP中实现签名校…

Linux--进程控制(2)--进程的程序替换(夺舍)

目录 进程的程序替换 0.相关函数 1.先看现象 2.解释原理 3.将代码改成多进程版 4.使用其它的替换函数&#xff0c;并且认识函数参数的含义 5.其它 进程的程序替换 0.相关函数 关于进程替换我们需要了解的6个函数&#xff1a; 函数解释&#xff1a; 这些函数如果调用成功则…

【Web UI自动化】Python+Selenium 环境配置

安装Python 官网地址&#xff1a;https://www.python.org/&#xff0c;Downloads菜单下选择适合自己的系统版本&#xff0c;我的是Windows。 点击进入以后&#xff0c;可以看到当前最新版本。 点击上面的链接&#xff0c;页面下滑&#xff0c;找到下载链接&#xff0c;根据…

网站推荐——文本对比工具

在线文字对比工具-BeJSON.com 文本对比/字符串差异比较 - 在线工具 在线文本对比-文本内容差异比较-校对专用

OpenCV C++实现区域面积筛选以及统计区域个数

目录 1、背景介绍 2、代码实现 2.1 获取原图 2.1.1 区域图像imread 2.1.2 具体实现 2.2 获取图像大小 2.3 阈值分割 2.3.1 阈值分割threshold 2.3.2 具体实现 2.4 区域面积筛选 2.4.1 获取轮廓findContours 2.4.2 获取轮廓面积contourArea 2.4.3 填充区域fil…

PotatoPie 4.0 实验教程(28) —— FPGA实现sobel算子对摄像头图像进行边缘提取

什么是sobel算子&#xff1f; Sobel 算子是一种常用的边缘检测算子&#xff0c;用于在图像中检测边缘。它基于对图像进行梯度运算&#xff0c;可以帮助识别图像中灰度值变化较大的区域&#xff0c;从而找到图像中的边缘。 Sobel 算子通过计算图像的水平和垂直方向的一阶导数来…

探索数字化采购管理:构建高效智能的采购平台

随着信息技术的快速发展和普及&#xff0c;数字化采购管理正成为企业提升采购效率、降低成本、优化供应链的重要手段。本文将探讨数字化采购管理的规划设计&#xff0c;以帮助企业构建高效智能的采购平台&#xff0c;实现采购流程的数字化转型。 ### 1. 数字化采购管理的意义 …

【机器学习原理】决策树从原理到实践

基于树的模型是机器学习中非常重要的一类模型&#xff0c;最基础的就是决策树&#xff0c;本篇主要讲述决策树的原理和几类最常见的决策树算法&#xff0c;这也是更复杂的树模型算法的基础。 参考文章&#xff1a; 1.CSDN-基于熵的两个模型(ID3,C4.5)比较详细&#xff0c;有数字…

(超级详细)算法刷题Leecode15. 三数之和

题目描述 给你一个整数数组 nums &#xff0c;判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k &#xff0c;同时还满足 nums[i] nums[j] nums[k] 0 。请 你返回所有和为 0 且不重复的三元组。 注意&#xff1a;答案中不可以包含重复的三元组…

43. UE5 RPG 实现敌人血量显示条

在上一篇文章中&#xff0c;我们实现了火球术伤害功能&#xff0c;在火球击中敌方目标&#xff0c;可以降低敌人20的血量&#xff0c;这个值现在是固定的&#xff0c;后面我们会修改火球的伤害设置。接着&#xff0c;我们也测试了功能是实现的&#xff0c;但是在正常的游玩过程…

PotatoPie 4.0 实验教程(22) —— FPGA实现摄像头图像对数(log)变换

什么是图像的log变换&#xff1f; 总的来说&#xff0c;对数变换是一种常用的图像增强技术&#xff0c;可以改善图像的视觉质量、减少噪声以及突出图像中的细节&#xff0c;从而提高图像在视觉感知和分析中的效果和可用性。 图像的对数变换&#xff08;log transformation&am…

Canal入门使用

说明&#xff1a;canal [kə’nl]&#xff0c;译意为水道/管道/沟渠&#xff0c;主要用途是基于 MySQL 数据库增量日志解析&#xff0c;提供增量数据订阅和消费&#xff08;官方介绍&#xff09;。一言以蔽之&#xff0c;Canal是一款实现数据同步的组件。可以实现数据库之间、数…

【氮化镓】p-GaN HEMTs空穴陷阱低温冻结效应

这篇文章是关于低温条件下p-GaN高电子迁移率晶体管&#xff08;HEMTs&#xff09;栅极漏电的研究。文章通过电容深能级瞬态谱&#xff08;C-DLTS&#xff09;测试和理论模型分析&#xff0c;探讨了空穴陷阱对栅极漏电电流的影响。以下是对文章的总结&#xff1a; 摘要&#xf…