selenium爬取boss直聘招聘岗位数据
- 一、爬取流程
- 二、完整代码
一、爬取流程
先来看一下爬取到的数据情况:
再来看一下boss直聘的页面,这时需要我们已经完成了城市的选择,将岗位名称输入到搜索框中,点击搜索之后切换到第2页。这时我们将url复制。第2页的url为:https://www.zhipin.com/web/geek/job?query=Web%E5%89%8D%E7%AB%AF%E5%B7%A5%E7%A8%8B%E5%B8%88&city=101240100&page=2
我们的逻辑就是通过更换url中“page=2”中的2构造每一页的url,实现翻页。使用selenium操作浏览器打开每一个页面之后,执行JavaScript代码将滚动条逐渐滑动至最底部,然后获取当前页面源代码,获取页面源代码之后提取页面中的数据。
二、完整代码
# 导入相关模块
import re
import csv
import random
from lxml import etree
from selenium