爬虫 可视化 管理:scrapyd、Gerapy、Scrapydweb、spider-admin-pro、crawllab、feaplat、XXL-JOB

1、scrapyd

大多数现有的平台都依赖于 Scrapyd,这将选择限制在 python 和 scrapy 之间。当然 scrapy 是一个很棒的网络抓取框架,但是它不能做所有的事情。

对于重度 scrapy 爬虫依赖的、又不想折腾的开发者,可以考虑 Scrapydweb;而对于有各种类型的、复杂技术结构的爬虫开发者来说,可以考虑更灵活的 Crawlab。当然,不是说 Crawlab 对 scrapy 支持不友好,Crawlab 同样可以很好的集成 scrapy,也很容易使用,足够通用,可以适应任何语言和框架中的蜘蛛。它还有一个漂亮的前端界面,用户可以更容易地管理蜘蛛。

scrapyd

Scrapyd 是一个运行 Scrapy 爬虫程序的服务。

项目地址:https://github.com/scrapy/scrapyd
文档: https://scrapyd.readthedocs.io/
环境测试: http://localhost:6800/

ScrapydAPI

python 封装的 Scrapyd 。安装:pip install python-scrapyd-api
项目地址:https://github.com/djm/python-scrapyd-api

from scrapyd_api import ScrapydAPI
scrapyd = ScrapydAPI('http://localhost:6800')

2、Gerapy

Gerapy 是由崔庆才创建的。安装部署简单。漂亮的UI界面。支持节点管理、代码编辑、可配置抓取规则等。只能运行 scrapy 爬虫,不支持 Scrapy 以外的其他爬虫。

Gerapy 只是分布式爬虫管理框架,需要启动 scrapyd 运行后配置进行更多操作。gerapy 和 scrapyd 的关系就是:通过 gerapy 配置 scrapyd 后,不使用命令,直接通过图形化界面开启爬虫。

Scrapy+Scrapy-redis+Scrapyd+Gerapy 分布式爬虫框架整合

  • Scrapy:基于 Twisted 的异步IO的爬虫框架,Scrapy 框架是异步加多线程。
  • Scrapy-redis:Scrapy-redis 是基于 scrapy 的分布式爬虫,提供了 Scrapy 分布式的队列,调度器,去重等等功能。
  • Scrapyd:分布式爬虫完成之后,接下来就是代码部署,如果有很多主机,就要逐个登录服务器进行部署,万一代码有所改动..........可以想象,这个过程是多么繁琐。Scrapyd是专门用来进行分布式部署的工具,它提供 HTTP 接口来帮助我们部署,启动,停止,删除爬虫程序,利用它可以很方便的完成 Scrapy 爬虫项目的部署。Scrapyd 工具是在命令行进行操作。
  • Gerapy:基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapyd-API、Django 和 Vue.js 的分布式爬虫管理框架。Gerapy 将命令行和图形界面进行了对接,只需要点击按钮就可完成部署,启动,停止,删除的操作。

文档

  • :https://docs.gerapy.com/en/latest/
  • :https://github.com/Gerapy/Docs

安装命令:pip install gerapy,安装成功后,会获得一个新的命令:gerapy

创建 一个项目

命令:gerapy init

  • 执行成功后会在当前目录下生成一个 gerapy 文件夹,进入gerapy文件夹,会发现一个空的projects文件夹 和 logs 文件夹

命令:gerapy init <workspace>   也可以指定 工作目录

初始化 数据库

命令:gerapy migrate

  • 生成一个SQLite数据库,用于保存各个主机的配置信息等。

创建 用户

Gerapy 默认打开了登录身份验证,因此在启动服务之前需要设置管理员用户。可以直接使用初始管理员的命令快速创建管理员管理员。密码也是管理员。命令:gerapy initadmin

如果不想直接创建管理员用户,也可以手动创建管理员用户:gerapy createsuperuser

此时 Gerapy 会提示我们输入用户名、电子邮件、密码等,然后使用该用户登录 Gerapy。

启动 Gerapy 服务并访问

启动 Gerapy 服务

  • :gerapy runserver host:port  (默认是端口8000)
  • :gerapy runserver 0.0.0.0:8000    使用公共主机和端口 8000 运行。

访问:

  • :http://127.0.0.1:8000     进入 Gerapy 管理页面。
  • :http://localhost:8000/admin   也可以直接进入管理后端。

管理 "主机、项目、任务",在主机管理中添加 scrapyd 运行的地址和端口。在 projects 文件夹中,放入你的 Scrapy 项目。

3、Scrapydweb

github:https://github.com/my8100/scrapydweb

漂亮的UI界面,内置Scrapy日志解析器,任务执行的统计数据和图表,支持节点管理,cron作业,邮件通知。全功能蜘蛛管理平台。只能运行 scrapy 爬虫,不支持 Scrapy 以外的其他爬虫。

功能特性:

  • Scrapyd 集群管理
  • Scrapy 日志分析
  • 支持所有 Scrapyd API
  • web UI 支持 Basic Auth

pip install scrapydweb
$ scrapydweb -h    # 初始化
$ scrapydweb  # 启动
管理页面:http://127.0.0.1:5000

4、spider-admin-pro

一个集爬虫 Scrapy+Scrapyd 爬虫项目查看 和 爬虫任务定时调度的可视化管理工具。

相关链接

  • Github: https://github.com/mouday/spider-admin-pro
  • Gitee: https://gitee.com/mouday/spider-admin-pro
  • Pypi: https://pypi.org/project/spider-admin-pro
  • Docker: https://hub.docker.com/r/mouday/spider-admin-pro

Spider Admin Pro ​是 Spider Admin(不在维护) 的升级版

  1. 简化了一些功能;
  2. 优化了前端界面,基于Vue的组件化开发;
  3. 优化了后端接口,对后端项目进行了目录划分;
  4. 整体代码利于升级维护。
  5. 目前仅对Python3进行了支持
  6. 路由统一管理
  7. 全局异常捕获
  8. 接口统一返回
  9. 前后端分离
  10. 可视化参数配置

项目基于Python3.7.0 开发,所以推荐使用Python3.7.0及其以上版本

方式一:

$ pip3 install spider-admin-pro
# 可选
$ pip3 install -U spider-admin-pro -i https://pypi.org/simple

# Linux macOS 运行启动
$ gunicorn 'spider_admin_pro.main:app'

# windows 环境使用 waitress 替换 gunicorn
$ pip install waitress
$ waitress-serve --listen=127.0.0.1:8000 'spider_admin_pro.main:app'

方式二:

$ git clone https://github.com/mouday/spider-admin-pro.git
$ cd spider-admin-pro

# 安装依赖(建议:最好新建一个虚拟环境)
$ pip3 install -r requirements.txt 

# 以生产模式运行
$ make pro

# 以开发模式运行
$ make dev

运行项目前,请先确保scrapyd服务已经启动
安装 scrapy 全家桶[可选]
pip install scrapy scrapyd scrapyd-client

方式三:

docker run -p 8000:8000 mouday/spider-admin-pro


5、crawllab、crawlab-lite

Crawlab是一个非常灵活的爬虫管理平台,可以运行 Python、Nodejs、Java、PHP、Go 写的爬虫,适用于所有编程语言和框架。漂亮的UI界面。自然地支持分布式蜘蛛。支持蜘蛛管理,任务管理,cron作业,结果导出,分析,通知,可配置蜘蛛,在线代码编辑器等。而且功能比较齐全,不限于Scrapy,

crawllab

基于Golang的分布式爬虫管理平台,支持多种编程语言以及多种爬虫框架.

crawllab 中文文档:https://docs.crawlab.cn/zh/guide/

github:https://github.com/crawlab-team/crawlab

官网在线演示

演示地址:https://demo-pro.crawlab.cn/#/login

用户名、密码:admin/admin

crawlab-lite

轻量版 Crawlab 爬虫管理平台

github:https://github.com/crawlab-team/crawlab-lite

6、feaplat

feaplat 命名源于 feapder 与 platform 的缩写,是一个爬虫管理系统。

免费版20个任务,超出额度时,需购买授权码,在授权有效期内不限额度,可换绑服务器

特性

  1. 支持部署任何程序,包括不限于feapderscrapy
  2. 支持集群管理,部署分布式爬虫可一键扩展进程数
  3. 支持部署服务,且可自动实现服务负载均衡
  4. 支持程序异常报警、重启、保活
  5. 支持监控,监控内容可自定义
  6. 支持4种定时调度模式
  7. 自动从git仓库拉取最新的代码运行,支持指定分支
  8. 支持多人协同
  9. 支持浏览器渲染,支持有头模式。浏览器支持playwrightselenium
  10. 支持弹性伸缩
  11. 支持自定义worker镜像,如自定义java的运行环境、node运行环境等,即根据自己的需求自定义(feaplat分为master-调度端worker-运行任务端
  12. docker一键部署,架设在docker swarm集群上

功能概览

  • 1. 项目管理
  • 2. 任务管理
  • 3. 任务实例
  • 4. 爬虫监控
  • 5. 报警

7、XXL-JOB (分布式任务调度平台)

轻量级分布式任务调度平台 XXL-JOB
github 地址 及 中文文档地址:https://github.com/xuxueli/xxl-job

  • 中文文档
  • English Documentation

XXL-JOB是一个轻量级分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司线上产品线,开箱即用。

  • 1、简单:支持通过Web页面对任务进行CRUD操作,操作简单,一分钟上手;
  • 2、动态:支持动态修改任务状态、启动/停止任务,以及终止运行中任务,即时生效;
  • 3、调度中心HA(中心式):调度采用中心式设计,“调度中心”自研调度组件并支持集群部署,可保证调度中心HA;
  • 4、执行器HA(分布式):任务分布式执行,任务"执行器"支持集群部署,可保证任务执行HA;
  • 5、注册中心: 执行器会周期性自动注册任务, 调度中心将会自动发现注册的任务并触发执行。同时,也支持手动录入执行器地址;
  • 6、弹性扩容缩容:一旦有新执行器机器上线或者下线,下次调度时将会重新分配任务;
  • 7、触发策略:提供丰富的任务触发策略,包括:Cron触发、固定间隔触发、固定延时触发、API(事件)触发、人工触发、父子任务触发;
  • 8、调度过期策略:调度中心错过调度时间的补偿处理策略,包括:忽略、立即补偿触发一次等;
  • 9、阻塞处理策略:调度过于密集执行器来不及处理时的处理策略,策略包括:单机串行(默认)、丢弃后续调度、覆盖之前调度;
  • 10、任务超时控制:支持自定义任务超时时间,任务运行超时将会主动中断任务;
  • 11、任务失败重试:支持自定义任务失败重试次数,当任务失败时将会按照预设的失败重试次数主动进行重试;其中分片任务支持分片粒度的失败重试;
  • 12、任务失败告警;默认提供邮件方式失败告警,同时预留扩展接口,可方便的扩展短信、钉钉等告警方式;
  • 13、路由策略:执行器集群部署时提供丰富的路由策略,包括:第一个、最后一个、轮询、随机、一致性HASH、最不经常使用、最近最久未使用、故障转移、忙碌转移等;
  • 14、分片广播任务:执行器集群部署时,任务路由策略选择"分片广播"情况下,一次任务调度将会广播触发集群中所有执行器执行一次任务,可根据分片参数开发分片任务;
  • 15、动态分片:分片广播任务以执行器为维度进行分片,支持动态扩容执行器集群从而动态增加分片数量,协同进行业务处理;在进行大数据量业务操作时可显著提升任务处理能力和速度。
  • 16、故障转移:任务路由策略选择"故障转移"情况下,如果执行器集群中某一台机器故障,将会自动Failover切换到一台正常的执行器发送调度请求。
  • 17、任务进度监控:支持实时监控任务进度;
  • 18、Rolling实时日志:支持在线查看调度结果,并且支持以Rolling方式实时查看执行器输出的完整的执行日志;
  • 19、GLUE:提供Web IDE,支持在线开发任务逻辑代码,动态发布,实时编译生效,省略部署上线的过程。支持30个版本的历史版本回溯。
  • 20、脚本任务:支持以GLUE模式开发和运行脚本任务,包括Shell、Python、NodeJS、PHP、PowerShell等类型脚本;
  • 21、命令行任务:原生提供通用命令行任务Handler(Bean任务,"CommandJobHandler");业务方只需要提供命令行即可;
  • 22、任务依赖:支持配置子任务依赖,当父任务执行结束且执行成功后将会主动触发一次子任务的执行, 多个子任务用逗号分隔;
  • 23、一致性:“调度中心”通过DB锁保证集群分布式调度的一致性, 一次任务调度只会触发一次执行;
  • 24、自定义任务参数:支持在线配置调度任务入参,即时生效;
  • 25、调度线程池:调度系统多线程触发调度运行,确保调度精确执行,不被堵塞;
  • 26、数据加密:调度中心和执行器之间的通讯进行数据加密,提升调度信息安全性;
  • 27、邮件报警:任务失败时支持邮件报警,支持配置多邮件地址群发报警邮件;
  • 28、推送maven中央仓库: 将会把最新稳定版推送到maven中央仓库, 方便用户接入和使用;
  • 29、运行报表:支持实时查看运行数据,如任务数量、调度次数、执行器数量等;以及调度报表,如调度日期分布图,调度成功分布图等;
  • 30、全异步:任务调度流程全异步化设计实现,如异步调度、异步运行、异步回调等,有效对密集调度进行流量削峰,理论上支持任意时长任务的运行;
  • 31、跨语言:调度中心与执行器提供语言无关的 RESTful API 服务,第三方任意语言可据此对接调度中心或者实现执行器。除此之外,还提供了 “多任务模式”和“httpJobHandler”等其他跨语言方案;
  • 32、国际化:调度中心支持国际化设置,提供中文、英文两种可选语言,默认为中文;
  • 33、容器化:提供官方docker镜像,并实时更新推送dockerhub,进一步实现产品开箱即用;
  • 34、线程池隔离:调度线程池进行隔离拆分,慢任务自动降级进入"Slow"线程池,避免耗尽调度线程,提高系统稳定性;
  • 35、用户管理:支持在线管理系统用户,存在管理员、普通用户两种角色;
  • 36、权限控制:执行器维度进行权限控制,管理员拥有全量权限,普通用户需要分配执行器权限后才允许相关操作;

中文文档

:https://www.xuxueli.com/xxl-job/

  • 1、简介
  • 2、快速入门
  • 3、任务详解
  • 4、操作指南
  • 5、总体设计
  • 6、调度中心 / 执行器 RESTful API


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/873647.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于springboot+vue实现的在线商城系统

系统主要功能&#xff1a; &#xff08;1&#xff09;商品管理模块&#xff1a;实现了商品的基本信息录入、图片上传、状态管理等相关功能。 &#xff08;2&#xff09;商品分类模块&#xff1a;实现了分类的增删改查、分类层级管理、商品分类的关联等功能。 &#xff08;3&…

基于 SpringBoot 的私人健身与教练预约管理系统

专业团队&#xff0c;咨询送免费开题报告&#xff0c;大家可以来留言。 摘 要 随着信息技术和网络技术的飞速发展&#xff0c;人类已进入全新信息化时代&#xff0c;传统管理技术已无法高效&#xff0c;便捷地管理信息。为了迎合时代需求&#xff0c;优化管理效率&#xff0c;…

【机器学习】高斯网络的基本概念和应用领域以及在python中的实例

引言 高斯网络&#xff08;Gaussian Network&#xff09;通常指的是一个概率图模型&#xff0c;其中所有的随机变量&#xff08;或节点&#xff09;都遵循高斯分布 文章目录 引言一、高斯网络&#xff08;Gaussian Network&#xff09;1.1 高斯过程&#xff08;Gaussian Proces…

idea如何配置模板

配置生成代码指令模板 注&#xff1a;我们常用的有sout,main等指令 第一步打开设置面板 1)按如下操作 2&#xff09;或者CtrlAltS快捷键直接弹出 第二步找 Editor>LiveTemplates 第三步创建模板 步骤如下 1&#xff09;创建分组名字 2)分组名字 3&#xff09;创建自己的模板…

计算机网络与Internet应用

一、计算机网络 1.计算机网络的定义 网络定义&#xff1a;计算机网络是指将地理位置不同的具有独立功能的多台计算机及其外部设备&#xff0c;通过通信线路连接起来&#xff0c;在网络操作系统&#xff0c;网络管理软件及网络通信协议的管理和协调下&#xff0c;实现资源共享…

国产芯片LT8619C:HDMI转RGB/LVDS转换器,4k x 2k 30Hz高分辨率

以下为LT8619C转换芯片的简介&#xff0c;如有不足或错误&#xff0c;请指正&#xff1a; LT8619C是一款高性能HDMI/双模DP接收器芯片&#xff0c;符合HDMI 1.4规范。支持TTL或LVDS信号输出&#xff0c;TTL输出时&#xff0c;可支持输出RGB、BT656、BT1120信号&#xff0c;输出…

深度置信网络(深度信念网络)DBN分类模型(二分类多分类)-MATLAB代码实现

一、深度置信网络DBN&#xff08;代码获取&#xff1a;底部公众号&#xff09; 深度置信网络&#xff08;Deep Belief Network&#xff0c;DBN&#xff09;是一种基于无监督学习的深度神经网络模型&#xff0c;它由多个受限玻尔兹曼机&#xff08;Restricted Boltzmann Machin…

SAP与湃睿PLM系统集成案例

一、项目背景 浙江某家用电机有限公司, 该公司的产品涵盖洗衣机、‌空调、‌冰箱及厨房用具等家电电机的制造&#xff0c;‌具备年产4600万台电机的生产能力&#xff0c;‌是中国最大的家电电机生产基地之一。 为确保工艺路线信息在设计与生产执行层面的无缝传递&#xff0…

misc音频隐写

一、MP3隐写 &#xff08;1&#xff09;题解&#xff1a;下载附件之后是一个mp3的音频文件&#xff1b;并且题目提示keysyclovergeek;所以直接使用MP3stego对音频文件进行解密&#xff1b;mp3stego工具是音频数据分析与隐写工具 &#xff08;2)mp3stego工具的使用&#xff1a;…

攻防世界--->迷宫

做题笔记。 下载 查壳 64ida打开。 对于迷宫_Maze 一般都可以分为&#xff1a; ① 找地图 ② 找方向键 ③ 分析路径 ④ 得到路径 其中&#xff0c;可以手动&#xff0c;也可以写脚本(利用DFS以及BFS&#xff09; 正题&#xff1a; 前置&…

树 --- 二叉树

树的物理结构和逻辑结构上都是树形结构。 树形结构&#xff1a;由一个根和若干个子节点组成的集合。 叶子节点&#xff1a;最外围的节点&#xff0c;只有前驱而没有后继。 &#xff08;一&#xff09;树的性质 • ⼦树是不相交的 • 除了根结点外&#xff0c;每个结点有且仅…

Linux服务器Java启动脚本

Linux服务器Java启动脚本 1、初版2、优化版本3、常用脚本仓库 本文章介绍了如何在Linux服务器上执行Java并启动jar包&#xff0c; 通常我们会使用nohup直接启动&#xff0c;但是还是需要手动停止然后再次启动&#xff0c; 那如何更优雅的在服务器上启动jar包呢&#xff0c;让我…

解锁高效驱动密码:SiLM8260A系列SiLM8260ABCS-DG 集成米勒钳位的双通道隔离驱动芯片

附上SiLM8260A同系列型号参考&#xff1a; SiLM8260ADCS-DG 12.5V/11.5V SiLM8260ABCS-DG 8.5V/7.5V SiLM8260AACS-DG 5.5V/5V SiLM8260AGCS-DG 3.5V/3V SiLM8260ABCS-DG是一款集成了米勒钳位功能的双通道隔离驱动芯片&#xff0c;它精准地满足了上述严苛条件。具备…

研发效能DevOps: VSCode进行前端项目初始配置

目录 一、实验 1.环境 2.安装Node.js 3.初始化前端项目 二、问题 1.cnpm安装报错 2.如何删除cnpm与指定cnpm版本 3.前端项目运行报错 4.node版本与npm版本对应关系如何查询 一、实验 1.环境 &#xff08;1&#xff09;主机 表1 主机 系统 软件版本备注Windows11VS …

【vscode】vscode paste image插件设置

本文首发于 ❄️慕雪的寒舍 vscode编辑md文件的时候&#xff0c;如果想插入图片&#xff0c;自带的粘贴只会粘贴到当前目录下&#xff0c;也没有文件重命名&#xff0c;很不友好。 在扩展商店里面有mushan的Paste Image插件&#xff0c;相比自带的&#xff0c;更加友好一点。但…

3、Hadoop部署

1、 Hadoop部署 1&#xff09;集群部署规划 注意&#xff1a;NameNode和SecondaryNameNode不要安装在同一台服务器 注意&#xff1a;ResourceManager也很消耗内存&#xff0c;不要和NameNode、SecondaryNameNode配置在同一台机器上。 hadoop102 hadoop103 hadoop104 HDFS…

项目9-网页聊天室9(测试报告)

1.项目背景 本项目采用 SSM框架结合 Websocket 技术构建。用户通过简单的注册和登录即可进入聊天室&#xff0c;与其他在线用户实时交 流。系统支持文字消息的快速发送和接收、消息实时推送&#xff0c;确保交流的及时性和流畅性。SSM 框架为项目提供了稳定的架构和高效的 数据…

用眼过度,眼睛干涩、疲劳?快试试中医眼灸,缓解你的眼睛不舒服~

长期用眼过度&#xff0c;你是否有这样的感觉&#xff1a; 看一会电脑&#xff0c;眼睛又干又涩&#xff0c;非常疲惫&#xff1b; 用眼过度&#xff0c;不仅眼睛累&#xff0c;近视度数也在增加&#xff1b; 不注重保护眼睛&#xff0c;眼纹、眼袋、黑眼圈全来了。 眼睛不舒…

机器学习之 PCA降维

1.PCA 降维简介 主成分分析&#xff08;Principal Component Analysis, PCA&#xff09;是一种统计方法&#xff0c;用于在数据集中寻找一组线性组合的特征&#xff0c;这些特征被称为主成分。PCA 的目标是通过变换原始特征空间到新的特征空间&#xff0c;从而减少数据的维度&…

RESTful 还是 JSON-RPC

前言 RESTful 比较简单地说就是&#xff0c;大家请求一样的url&#xff08;GET方法有一个例外&#xff0c;url中带了一个id&#xff09;&#xff0c;通过不同的请求方法&#xff0c;分别进行不同的操作&#xff08;CRUD&#xff09;。 JSON-RPC JSON-RPC是一个无状态且轻量级…