Python-爬虫
- ■ 爬虫分类
- ■ 1. 通用网络爬虫:(搜索引擎使用,遵守robots协议)
- ■ robots协议(君子协议)
- ■ 2. 聚集网络爬虫:自己写的爬虫程序
- ■ urllib.request(要导入的模块)
- ■ User-Agent
■ 爬虫分类
■ 1. 通用网络爬虫:(搜索引擎使用,遵守robots协议)
■ robots协议(君子协议)
robots协议:通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取
网页后面加 robots.txt 查看网站robots协议。
实例一:www.qq.com/robots.txt
■ 2. 聚集网络爬虫:自己写的爬虫程序
■ urllib.request(要导入的模块)
- urllib.request.urlopen(URL,timeout) //URL地址,timeout响应时间
■ User-Agent
User-Agent 有游览器,操作系统信息。
向测试网站: http://httpbin.org/get 发送请求,会返回我们的请求头内容。
2.
P12 课