Python网络爬虫进阶扩展

学习爬虫不是一天就能学会的,得循序渐进的慢慢学透了,才能更好的做爬虫相关的工作。下面的爬虫有关的有些知识点肯定要学会。

在这里插入图片描述

1、如何使scrapy爬取信息不打印在命令窗口中

通常,我们使用这条命令运行自己的scrapy爬虫:

scrapy crawl spider_name

但是,由这条命令启动的爬虫,会将所有爬虫运行中的debug信息及抓取到的信息打印在运行窗口中。

很乱,也不方便查询。所以,可使用该命令代替:

scrpay crawl spider_name  -s LOG_FILE=all.log

2、Scrapy中的日志处理

Scrapy提供了log功能,可以通过 logging 模块使用

可以修改配置文件settings.py,任意位置添加下面两行

LOG_FILE = "mySpider.log"
LOG_LEVEL = "INFO"

Scrapy提供5层logging级别:

CRITICAL - 严重错误(critical)
ERROR - 一般错误(regular errors)
WARNING - 警告信息(warning messages)
INFO - 一般信息(informational messages)
DEBUG - 调试信息(debugging messages)

logging设置

通过在setting.py中进行以下设置可以被用来配置logging:

LOG_ENABLED 默认: True,启用logging
LOG_ENCODING 默认: 'utf-8',logging使用的编码
LOG_FILE 默认: None,在当前目录里创建logging输出文件的文件名
LOG_LEVEL 默认: 'DEBUG',log的最低级别
LOG_STDOUT 默认: False 如果为 True,进程所有的标准输出(及错误)将会被重定向到log中。例如,执行 print "hello" ,其将会在Scrapy log中显示

记录信息

下面给出如何使用WARING级别来记录信息

from scrapy import log
log.msg("This is a warning", level=log.WARNING)

适合 Python 入门的 8 款强大工具

Python是一种开源的编程语言,可用于Web编程、数据科学、人工智能以及许多科学应用。学习Python可以让程序员专注于解决问题,而不是语法。由于Python相对较小,且拥有各式各样的工具,因此比Java和C++等语言更具优势,同时丰富的库赋予了Python完成各种伟大任务所需的能力。

下面是程序员和学生最常使用的一些Python工具:

IDLE

在安装Python时,默认也会安装IDLE。这是最优秀的Python工具之一。它可以降低Python入门的门槛。它的主要功能包括Python Shell窗口(交互式解释器)、自动补齐、高亮显示语法以及基本的集成调试器。IDLE轻巧易用,方便学习。但是,它不适用于大型项目。许多程序员都将其作为最佳的Python工具。

Scikit-learn

Scikit-learn是数据科学最常使用的Python工具之一。这是一款为机器学习和数据科学而设计的Python工具。该工具主要用于处理分类、回归、聚类、模型选择以及预处理等任务。scikit-Learn最出色的功能是在测试数据集上执行基准测试时,表现出的惊人速度。因此,对于程序员和学生来说,Scikit-learn是最优秀的Python工具之一。

Theano

Theano是一款数据科学的Python工具,对于程序员和学生而言,这是一款非常可靠的工具。它是深度学习方面最好的Python工具,因此非常适合深度学习。Theano的设计主旨是用户友好、模块化、易于扩展,而且可以与Python配合使用。它能够以最佳方式表达神经网络。Theano可以在TensorFlow和CNTK等流行的神经网络之上运行。

Selenium

Selenium是最佳的Python自动化工具之一。它适用于Python测试的自动化,常常用作Web应用程序的自动化框架。我们可以利用Selenium,通过许多编程语言(包括Java、C#、Python、ruby以及其他许多程序员和学生使用的语言)来编写测试脚本。你还可以在Selenium中集成Junit和TestNG等工具,来管理测试用例并生成报告。

Test complete

Testcomplete是另一款非常出色的Python自动化工具。支持Web、移动和桌面自动化测试。更高级的应用需要获得商业许可,而且它还可以帮助学生提高学业成绩。Test complete还可以像机器人框架一样执行关键字驱动的测试。它拥有最出色的录制以及回放功能,非常实用。

Beautiful soup

Beautifulsoup是网络抓取的Python工具。这个Python库能够从HTML和XML文件中提取数据,是导航、搜索和修改分析树的Python工具。此外,Beautiful soup还可以自动将传入文档转换为Unicode,并将传出文档转换为UTF-8。它是最优秀的Web抓取工具,可以节省大量时间。

Pandas

Pandas是数据分析方面最常用的Python工具之一。Pandas是BSD许可的开源库,为Python编程语言提供了高性能且易于使用的数据结构以及数据分析工具。长期以来,Python一直非常适合数据准备工作。Pandas填补了这一空白,你无需切换到其他域即可在Python中执行整个数据分析工作流,而且Pandas还是数据分析方面最出色的Python工具。

PuLP

PuLP是线性规划的Python工具之一。它是一种优化类型,能够在一些给定的约束条件下最大化目标函数。PuLP用Python编写的线性规划建模器。

PuLP可以生成LP文件,并调用高度优化的求解器GLPK、COIN CLP/CBC、CPLEX以及GUROBI来解决这些线性问题。学生可以利用这款工具来进行定期的研究,而程序员也可以在工作中利用这款工具。

总结

在本文中,我们讨论了各种最常用的Python工具。我们讨论了这些工具的使用以及如何利用这些工具来提升自我。希望对您有所帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/9318.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

算法风险防控

算法风险防控是指在算法应用过程中,通过对算法应用场景、数据、模型和结果等多个方面的风险进行评估和控制,以保障算法应用的安全性、可靠性和合法性。以下是一些常见的算法风险防控措施: 数据风险防控:在算法应用中,…

Shader Graph6-Dot Product节点(中)

一、Dot Product可以实现褪色的效果,等价与desaturation节点,据说性能比直接使用Desaturation节点有提升,未经过测试。 打开Unity,新建Shader Graph,x0.2126,y0.7152x,z0.0722 UE中是这样的 二…

linux 远程连接MySQL错误“plugin caching_sha2_password could not be loaded”的解决办法乱码

网上有两种解决办法,一种就是升级sqlyog,一种是修改mysql默认身份验证插件。 升级SQLyog 第一种就不用说了,SQLyog-13.1.6-0.x64是默认支持mysql8.0以上身份验证,把低版本的sqlyog升级到13.1.6就可以解决。 修改身份验证插件 首先…

国产台灯哪个品牌比较好?2023分享国内护眼灯排名

台灯已经是最常见的照明灯具,所以近些年受到许多青少年、家长的青睐,如果问国产台灯哪个牌子比较好?我会告诉你,在我使用的十几款护眼台灯中,比较优秀的是南卡护眼台灯Pro、明基MindDuo2 、雷士行星 、京东京造 星云台…

如何访问EMC VPLEX

本文介绍如何访问EMC的VPLEX虚拟化存储网关,下面的方法适用于VPLEX VS2系统,但也适用于VS6系统,只是VS6的管理控制台MMCS和VS2物理上不一样,但实质上是相同的,也都提供了一样的网络端口和IP地址。如果对VS6有问题&…

或许能用 ChatGPT 插件实现财富自由

文章目录或许能用 ChatGPT 插件实现财富自由1. 认识一下1.1 是什么1.2 怎么用2. 举个例2.1 Wolfram2.2 Browsing3. 怎么做到的4. 财富自由4.1 生活类插件4.2 品牌推广类5. 限制或许能用 ChatGPT 插件实现财富自由 我们知道,当前 ChatGPT 最大的局限性就是模型训…

【kubernetes-工具篇】K9S详解-宝藏k8s界面工具

K9S简介 K9s是一个命令行界面(CLI)工具,用于管理Kubernetes集群。它是一个流行的开源工具,可以帮助Kubernetes管理员和开发人员轻松管理他们的Kubernetes集群。在本文中,我们将简单介绍K9s的概念、功能和如何使用它。…

代码不熟没关系,让AI替你写

程序员早已不是一个陌生的群体,但程序、代码相对普通人而言,看着还是比较深奥难懂,但自从有了ChatGPT,不少对此有兴趣的外行人士,也能轻松写出代码了,比如让ChatGPT写一个贪吃蛇游戏,按它给出的…

Wallpaper:基于Typecho的壁纸头像站主题

简介: 该主题是本人的一个头像壁纸站点的主题,这个站最初是女朋友要让和她用情侣头像和壁纸,跑到网上转了一圈都没找到一个专门的情侣头像壁纸站,只在知乎某个答案下找到一些情侣头像,而情侣壁纸就更难找了&#xff0…

ChatGPT基础知识系列之一文说透ChatGPT

ChatGPT基础知识系列之一文说透ChatGPT OpenAI近期发布聊天机器人模型ChatGPT,迅速出圈全网。它以对话方式进行交互。以更贴近人的对话方式与使用者互动,可以回答问题、承认错误、挑战不正确的前提、拒绝不适当的请求。高质量的回答、上瘾式的交互体验,圈内外都纷纷惊呼。 …

html+css+JavaScript+json+servlet的社区系统(手把手教学)

目录 课前导读: 一、系统前期准备 二、前端代码的编写 三、登陆页面简介 四、注册页面 五、社区列表页 六、社区详情页 七、社区发帖页 八、注销 九、访问链接 登陆页面http://175.178.20.77:8080/java106_blog_system/login.html 总结: 课前…

【SQL】公网远程访问局域网SQL Server数据库【无公网IP内网穿透】

目录 1.前言 2.本地安装和设置SQL Server 2.1 SQL Server下载 2.2 SQL Server本地连接测试 2.3 Cpolar内网穿透的下载和安装 2.3 Cpolar内网穿透的注册 3.1 Cpolar云端设置 3.2 Cpolar本地设置 4.公网访问测试 5.结语 转发自CSDN远程穿透的文章:[无需公网IP&am…

Shader Graph8-输入Vector

一、三个向量 Vector叫做矢量或者向量,向量更偏向于数学,矢量更偏向于图形。下面三种Vector我们用的最多,红色叫Camera Vector相机向量、蓝色叫Surface Normal表面法线、黄色叫Light Vector光向量。 每个面都有法线,法线向量是这…

医院手术麻醉信息管理系统源码

医院手术麻醉信息管理系统源码 实现整个围术期术前、术中、术后的全数字化和信息化。 医院手术麻醉临床信息管理系统是一种基于云计算技术的信息系统,它可以帮助医院更好地管理手术麻醉临床信息,提高手术麻醉的安全性和效率。 首先,医院手术…

ASP.NET Core MVC 从入门到精通之接化发(一)

随着技术的发展,ASP.NET Core MVC也推出了好长时间,经过不断的版本更新迭代,已经越来越完善,本系列文章主要讲解ASP.NET Core MVC开发B/S系统过程中所涉及到的相关内容,适用于初学者,在校毕业生&#xff0c…

Adobe Photoshop 2023 的系统最低要求+安装图文教程

Adobe Photoshop 2023(PS2023) 来了,全世界数以百万计的设计师、摄影师和艺术家使用 Photoshop 将不可能变为可能。 从海报到包装,从基本的横幅到漂亮的网站,从令人难忘的徽标到引人注目的图标,Photoshop 让创意世界不断前进。 ​借助直观的…

UI Toolkit(1)

UI ToolkitUI Toolkit界面画布设置背景制作UI布局UI Toolkit界面 在Unity 2021LTS版本之后UI Toolkit也被内置在Unity中,Unity有意的想让UI Toolkit 成为UI的主要搭建方式,当然与UGUI相比还是有一定的差别。他们各有有点,这次我们就开始介绍…

从功能到年薪30W+的测试开发工程师,分享我这10年的职业规划路线

求职?择业?跳槽?职业规划? 作为一名初出茅庐的软件测试员,职业发展的道路的确蜿蜒曲折,面对一次次的岗位竞争,挑战一道道的面试关卡,一边带着疑惑,一边又要做出选择&…

Python 进阶指南(编程轻松进阶):十二、使用 Git 组织您的代码项目

原文:http://inventwithpython.com/beyond/chapter12.html 版本控制系统是记录所有源代码变更的工具,使检索旧版本代码变得容易。把这些工具想象成复杂的撤销功能。例如,如果您替换了一个函数,但后来发现您更喜欢旧的函数&#xf…

安卓手机什么便签好

手机便签作为一种方便、实用、安全的记录工具,可以帮助我们更好地记录和管理各类生活、工作、学习事务,从而提高我们的办事效率和质量,例如大家可以把工作中的注意事项、待办事项、常用的账号密码、有关孩子的重要信息都记录到便签中保存。 而…