文章目录
-
- 使用模块
- 爬取目标
- 验证码
- 技术细节
- 实现成果
- 代码实现
使用模块
requests请求模块
lxml数据解析模块
ddddocr光学识别
爬取目标
网站验证码破解思路是统一的,本文以城市列表为例
目标获取城市名以及城市连接,之后获取城市房源信息技术直接替换地址即可
验证码
技术细节
一、 访问频次过快会触发验证码页面
使用302从定向到验证码页面,在请求地址中包含location参数与ext参数需要提取出来供后续使用
print(f"触发验证码")
redirect_url = res.headers["location"]
parsed_url = urlparse(redirect_url)
query_params = parse_qs(parsed_url.query)
location = query_params.get('location')[0]
ext = query_params.get('ext', [''])[0]
二、点击点击验证按钮
发起请求获取验证码图片对应的base64编码
<