一、目标
通过Python编写爬虫程序,爬取西安地铁发布的客流数据,并保存到CSV文件中,并进行数据可视化与分析。
本次使用的库包括:requests、BeautifulSoup、xpath、csv、json、Pycharts等。
二、爬取思路分析
1、WB网页版
打开XLWB主页网址。
图1.新浪微博手机端网址
然后我们输入西安地铁,打开西安地铁账号主页。
图2.西安地铁微博主页
滑动页面向下,可以看到一条内容,继续往下滑我们发现不断有新的微博内容出现,但是网页的URL却没有变化。因此,我们可以推断出网页是异步加载方式。
异步加载,指的是网站原始页面加载完成后,会再向服务器请求某个接口获取数据,然后数据才被处理从而呈现在网页上,其实就是发送了一个Ajax请求。
2、请求地址分析
搞清楚了网页加载方式,就可以寻找真实的请求地址了。在谷歌浏览器打开西安地铁账号的主页链接地址