文章目录
- 前言
- 1、任务目标
- 2、网页分析
- 3、代码编写
- 4、第三方验证码识别平台(超级鹰)
前言
我们在爬取某些网站数据时,可能会遇到必须登陆才能获取网页内容的情况,而大部分网站登录都需要输入验证码才能登录成功,所以接下来我将会通过实际案例来讲解如何实现验证码登录网站
1、任务目标
目标站点:中文古诗网(https://www.gushiwen.cn/)
要求:利用爬虫实现验证码登录该网站
2、网页分析
-
打开网站,进入
我的
,来到登陆页面,可以看到登录网站需要:账号、密码、验证码
-
打开开发者模式,随意输入一个错误的账号,跳转到登陆接口,在 Network-Doc 下发现一个login开头的接口,发现其需要携带以下参数,其中就有email、password、code,分别对应账号、密码、验证码;并且该接口是一个post请求,由此可知该接口