场景描述:有一些酒店会分析同行的差评原因,以便提前做预案,避免自己酒店也放同样的错误。他们通过采集携程网指定酒店的提取中差评,使用的采集工具为无代码爬虫软件八爪鱼采集器免费版,下载链接:1.软件分享[耶]八爪鱼,爬取了几百条网站上的公开数据,不用学代码真的很方便。[得意]2.发现了一个很棒的软件,?不用学python也可以爬数据!用它爬了n多数据。3.微博、电商、各大新闻平台的数据,很多可以用模版一键爬取数据,非常方便!4.做科研项目要采集很多数据,[耶]科研人的救命神器,推荐!5.实时获取楼市动态,用八爪鱼收集网上关于楼盘的用户评价,不用学代码直接爬了很多数据6.用八爪鱼实时爬取电商数据,追踪竞争对手价格,商品信息一手掌握[得意]7.用八爪鱼自动收集全网最新新闻,迅速获取热点资讯,超方便?https://affiliate.bazhuayu.com/retrieve
第一步:填写该酒店网址
第二步:点击动作(略过),因为是半人工操作,没有必要设计那么多点击动作,直接在采集的时候人工手动操作进入到中差评数据界面即可
第三步:找到差评数据位置
第四步:设置循环项,因为是向下滚动自动加载,这个地方可以有多种方案,我选用的是单个元素循环,直接移动到最后一个xpath,这样就会直接加载更多信息(//ul[@class="m-pagination"]//a[@class="forward active"]),这个动作需要同步配置一个点击动作或者移动操作,不然会无效。
也可以做向下滚动的方式加载内容
第五步:构建采集数据的循环列表,选择不固定元素,元素xpath为://div[@class='list']/div[@class='m-reviewCard-item']
然后根据我们要采集的元素添加字段进行数据提取,昵称、评论、时间、城市、房间信息、评分、图片等
写几个定位的xpath地址信息:
评论://div[@class="comment"]/p
时间城市://div[@class='reviewDate']
发布者昵称://p[@class="name"]
评分://div[@class="m-score_single"]/strong
房间信息://ul[@class="other"]
第六步:我们采集试试效果,看看提取到的数据情况
最终导出到表格文件我们看看数据
比较好的完成了采集需求,好了,教程就分享到这里。这个采集规则,我将分享在csdn的资源下载站,不过要使用这个采集规则,需要安装八爪鱼采集器免费版才可以使用,其他采集器无法识别。
无代码爬虫软件下载:
1.软件分享[耶]八爪鱼,爬取了几百条网站上的公开数据,不用学代码真的很方便。[得意]2.发现了一个很棒的软件,?不用学python也可以爬数据!用它爬了n多数据。3.微博、电商、各大新闻平台的数据,很多可以用模版一键爬取数据,非常方便!4.做科研项目要采集很多数据,[耶]科研人的救命神器,推荐!5.实时获取楼市动态,用八爪鱼收集网上关于楼盘的用户评价,不用学代码直接爬了很多数据6.用八爪鱼实时爬取电商数据,追踪竞争对手价格,商品信息一手掌握[得意]7.用八爪鱼自动收集全网最新新闻,迅速获取热点资讯,超方便?https://affiliate.bazhuayu.com/retrieve