Scrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需求。只需要定制开发几个模块就可以轻松实现一个爬虫。并能扩展相关爬虫插件,实现分布式爬虫。
安装scrapy框架
pip install scrapy
conda 方式按照
conda install -c conda-forge scrapy
使用scrapy创建项目
scrapy是通过命令行来创建项目的,代码的编写还是需要 IDE。项目创建之后,项目文件结构如下所示:
scrapy startproject tutorial
创建好项目之后,项目文件格式如下: