目录
反爬虫介绍
基于身份识别反爬和解决思路
Headers反爬-使用User-agent
Headers反爬-使用coookie字段
Headers反爬-使用Referer字段
基于参数反爬
验证码反爬
1.验证码介绍
2.验证码分类:
3.验证码作用
4.处理方案
5.图片识别引擎:ocr
6.使用打码平台
基于爬虫行为和解决思路
反爬虫介绍
1. 限制爬虫程序访问服务器资源和获取数据的行为
2.限制手段:请求限制,拒绝响应,客户端身份验证,文本混淆,和动态渲染技术等
3.反爬虫的分类:
1. 身份识别反爬虫:验证请求头信息,验证请求参数,使用验证码等;
2.爬虫行为反爬虫:对ip进行限制,使用蜜罐获取ip,假数据等;
3.数据加密反爬虫:自定义字体,数据图片,编码格式等;
4.爬虫与反爬虫的-攻与防
基于身份识别反爬和解决思路
Headers反爬-使用User-agent
Headers反爬-使用coookie字段
Headers反爬-使用Referer字段
基于参数反爬
验证码反爬
1.验证码介绍
2.验证码分类:
3.验证码作用
4.处理方案
5.图片识别引擎:ocr
安装:
- windows下载地址:https://digi.bib.uni-mannheim.de/tesseract/
- 下载最后一个最新的
- 安装python模块:
pip install pillow #一个python图形处理库
pip install pytesseract #pytesseract依赖
#引入pillow和 pytesseract
from PIL import Image
import pytesseract
- ocr识别
# coding:utf-8
from PIL import Image
import pytesseract
#打开图片
img=Image.open("身份证.jpg")
#查看图片
img.show()
#调用引擎识别
#tesseract安装位置
pytesseract.pytesseract.tesseract_cmd=r"C:\Program Files\Tesseract-OCR\tesseract.exe"
text=pytesseract.image_to_string("身份证.jpg")
print(text)
6.使用打码平台
1. 如超级鹰等
2. 点选验证码验证:见资源:yanzhengma.zip
3.滑动验证码:见资源 : yanzhengma.zip