如何通过 PhantomJS 模拟用户行为抓取动态网页内容

爬虫代理


引言

随着网页技术的不断进步,JavaScript 动态加载内容已成为网站设计的新常态,这对传统的静态网页抓取方法提出了挑战。为了应对这一挑战,PhantomJS 作为一个无头浏览器,能够模拟用户行为并执行 JavaScript,成为了获取动态网页内容的有效工具。

大众点评作为一个提供丰富商家信息的平台,广泛采用 JavaScript 动态加载技术,这给传统的网页抓取方法带来了不小的挑战。本文将详细介绍如何通过 PhantomJS 模拟用户行为,结合爬虫代理 IP 技术,抓取大众点评上的商家信息,包括店名、地址和评分等关键数据。通过这种方法,可以更高效地获取动态网页上的内容,为数据收集和分析提供支持。

正文

1. PhantomJS 简介

PhantomJS 是一个基于 WebKit 的无界面浏览器,支持网页自动化操作和 JavaScript 执行。它可以模拟用户访问页面的行为,如点击按钮、输入表单,甚至处理复杂的 JavaScript 动态内容加载。

2. 为什么选择 PhantomJS 进行动态网页抓取
  • JavaScript 执行能力:PhantomJS 可以解析并执行网页中的 JavaScript,抓取那些通过 JavaScript 动态生成的内容。
  • 无头浏览器:它不需要 GUI(图形用户界面),运行速度快,占用资源少。
  • 自动化能力:支持模拟用户行为,如点击、滚动、提交表单等。
3. 使用代理 IP 模拟请求

在实际的网页抓取过程中,使用代理IP是规避限制的重要技术手段。通过代理IP爬虫可以避免因频繁请求导致的拒绝响应。我们将使用爬虫代理服务,设置代理 IP、端口、用户名和密码进行请求。

实例

下面的代码展示了如何使用 PhantomJS 结合爬虫代理IP技术抓取动态网页内容,并模拟用户行为。

// 引入 PhantomJS 模块
var page = require('webpage').create();
var system = require('system');

// 配置代理IP信息 亿牛云爬虫代理加强版 www.16yun.cn
var proxy = "http://proxy.16yun.cn:81000"; // 域名、端口
var proxyAuth = "用户名:密码"; // 填入用户名和密码

// 配置代理IP信息及用户认证
phantom.setProxy(proxy);
phantom.setProxyAuth(proxyAuth);

// 设置 User-Agent 和 Cookie
page.settings.userAgent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36';
phantom.addCookie({
    'name': 'session_id',
    'value': 'your_cookie_value',
    'domain': '.example.com',
    'path': '/',
    'httponly': true,
    'secure': false
});

// 打开目标网页
page.open('https://example.com/dynamic-content', function(status) {
    if (status !== 'success') {
        console.log('无法加载网页');
        phantom.exit();
    } else {
        // 等待动态内容加载
        window.setTimeout(function () {
            // 执行 JavaScript 抓取动态内容
            var content = page.evaluate(function () {
                return document.querySelector('.dynamic-element').innerText;
            });

            console.log('抓取到的内容: ' + content);
            
            // 保存截图,验证页面加载情况
            page.render('screenshot.png');

            phantom.exit();
        }, 5000); // 延时等待动态内容加载
    }
});

代码解析

  1. 代理设置:代码通过 phantom.setProxy()phantom.setProxyAuth() 设置了代理 IP 和认证信息,使用爬虫代理服务进行请求。
  2. User-Agent 设置:通过 page.settings.userAgent 模拟了一个常用的浏览器请求,避免爬虫被检测到。
  3. 大众点评店铺信息抓取
    • 店铺名称:通过 document.querySelector('.tit a h4') 获取店名。
    • 地址:通过 document.querySelector('.addr') 获取地址信息。
    • 评分:通过 document.querySelector('.comment-list .star').getAttribute('title') 获取评分。
  4. 延时等待:由于大众点评页面内容是动态加载的,因此需要设置延时 setTimeout 等待数据加载完毕再进行抓取。
  5. 输出结果:抓取到的店铺信息以 JSON 格式输出,并通过 page.render() 保存页面截图用于后续调试和验证。

结论

使用 PhantomJS 模拟用户行为抓取动态网页内容是一种有效的爬虫技术,特别是在处理 JavaScript 动态加载页面时。通过结合代理 IP、User-Agent 和 Cookie 的设置,我们可以有效避免频繁请求导致的封禁问题,并模拟更真实的用户访问行为。本文的代码展示了如何使用 PhantomJS 和爬虫代理服务抓取动态内容,实践中可以根据需要进一步调整代码实现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/875658.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

GeoPandas在地理空间数据分析中的应用

GeoPandas是一个开源的Python库,专门用于处理和分析地理空间数据。它建立在Pandas库的基础上,扩展了Pandas的数据类型,使得用户能够在Python中方便地进行GIS操作。GeoPandas的核心数据结构是GeoDataFrame,它是Pandas的DataFrame的…

uniapp小程序,使用腾讯地图获取定位

本篇文章分享一下在实际开发小程序时遇到的需要获取用户当前位置的问题,在小程序开发过程中经常使用到获取定位功能。uniapp官方也提供了相应的API供我们使用。 官网地址:uni.getLocation(OBJECT)) 官网获取位置的详细介绍这里就不再讲述了,大…

红光一字激光器在工业中的性能指标怎样

红光一字激光器作为现代工业中不可或缺的重要设备,以其独特的性能和广泛的应用场景,成为众多行业的首选工具。本文就跟大家详细探讨红光一字激光器在工业中的性能指标,以及这些指标如何影响其在实际应用中的表现。 光束质量 红光一字激光器以…

【痛点解决】跨网跨区域的文件传输摆渡解决办法指南

跨网跨区域的文件传输摆渡,顾名思义就是需要跨越不同网络、不同地区,或者是不同安全域的文件传输,一般有这样传输需求的机构,在组织架构、网络结构,或者传输需求上,都会比较复杂。 跨网跨区域文件传输是什…

51单片机快速入门之定时器和计数器

51单片机快速入门之定时器 断开外部输入 晶振振荡 假设为 12MHz 12分频之后,为1MHz 当其从0-65536 时,需要65536μs 微秒 也就是65.536ms 毫秒 溢出(值>65536 时)>中断>执行中断操作 假设需要1ms后产生溢出,则需要设置初始值为64536 此时定时器会从 64536 开始计…

掌握 JavaScript ES6+:现代编程技巧与模块化实践

掌握 JavaScript ES6:现代编程技巧与模块化实践 一 . 变量声明 let二 . 声明常量 const三 . 模板字符串四 . 函数的参数默认值五 . 箭头函数六 . 对象初始化七 . 解构7.1 接收 JSON 对象7.2 接收数组 八 . 延展操作符九 . 导入和导出9.1 方式一9.2 方式二 这篇文章我…

Android视频编辑:利用FFmpeg实现高级功能

在移动设备上进行视频编辑的需求日益增长,用户期望能够在智能手机或平板电脑上轻松地编辑视频,以满足社交媒体分享或个人存档的需求。Android平台因其广泛的用户基础和开放的生态系统,成为视频编辑应用的理想选择。FFmpeg,作为一个…

Maven入门学习笔记

一、maven介绍 Maven是一款自动化构建工具,专注服务于JAVA平台的项目构建和依赖管理。在javaEE开发的历史上构建工具的发展也经历了一系列的演化和变迁。 管理jar包 当我们使用SSM之后我们就需要使用非常多的jar包 没有maven找jar包非常的麻烦。 使用maven下载…

简单了解 JVM

目录 ♫什么是JVM ♫JVM的运行流程 ♫JVM运行时数据区 ♪虚拟机栈 ♪本地方法栈 ♪堆 ♪程序计数器 ♪方法区/元数据区 ♫类加载的过程 ♫双亲委派模型 ♫垃圾回收机制 ♫什么是JVM JVM 是 Java Virtual Machine 的简称,意为 Java虚拟机。 虚拟机是指通过软件模…

WPF DataGrid 列表中,DataGrid.Columns 列根据不同的值显示不同内容

需求&#xff1a;在WPF DataGrid 控件中&#xff0c;有以下列&#xff0c;绑定了一个LogType&#xff0c;值分别是0,1,2&#xff0c;根据不同的值&#xff0c;显示不同的内容以及背景 <DataGrid ItemsSource"{Binding EventLog}"><DataGrid.Columns><…

代码管理工具——git及阿里云云效的使用(包含git的使用及云效自动化部署)

1、做项目开发时都会用到代码管理工具,像是我之前使用过gitHub,Visual Studio等一些代码管理工具&#xff0c;这里介绍的是阿里云云效的使用。 2、首先登录阿里云云效&#xff0c;登录进去之后会看到公司给你开放的一个仓库。 3、进入仓库&#xff0c;点击克隆/下载&#xff0…

Google大数据架构技术栈

数据存储层 Colossus Colossus作为Google下一代GFS&#xff08;Google File System&#xff09;。 GFS本身存在一些不足 单主瓶颈 GFS 依赖单个主节点进行元数据管理&#xff0c;随着数据量和访问请求的增长&#xff0c;出现了可扩展性瓶颈。想象一下&#xff0c;只有一位…

网红酒店|基于java的网红酒店预定系统(源码+数据库+文档)

酒店预定|网红酒店|网红酒店预定系统 目录 基于java的网红酒店预定系统 一、前言 二、系统设计 三、系统功能设计 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取&#xff1a; 博主介绍&#xff1a;✌️大厂码农|毕设布道师&am…

R语言统计分析——功效分析(比例、卡方检验)

参考资料&#xff1a;R语言实战【第2版】 1、比例检验 当比较两个比例时&#xff0c;可使用pwr.2p.test()函数进行功效分析。格式为&#xff1a; pwr.2p.test(h, n, sig.level, power, alternative) 其中&#xff0c;h是效应值&#xff0c;n是各相同的样本量。效应值h的定义如…

智能头盔语音识别声控芯片,AI离线语音识别ic方案,NRK3301

头盔是交通事故中保护电动车车主安全的最后一道屏障。为了增加骑行用户的安全保护&#xff0c;改善骑行用户的出行体验&#xff0c;让用户从被动使用头盔到主动佩戴头盔&#xff0c;头盔厂家与九芯电子合作&#xff0c;推出了语音智能头盔&#xff0c;它具备首家骑行专用的智能…

C++核心编程和桌面应用开发 第三天(C和C++的封装)

目录 1.封装 1.1C语言封装缺陷 1.2C下的封装 1.3封装的访问权限 2.C中struct和class的区别&#xff1a; 1.封装 1.1C语言封装缺陷 1.2C下的封装 优点1&#xff1a;将属性和行为作为整体&#xff0c;表现生活中的事务 优点2&#xff1a;将属性和行为加以访问权限控制 1…

vue的路由

v2用3版本&#xff0c;v3用4版本 import Vue from vue import VueRouter from vue-router Vue.use(VueRouter) const routes [] const router new VueRouter({ routes }) export default router import Vue from vue import App from ./App.vue import router from /router V…

kkFileView PDF Image Mode Preview BUG

kkFileView PDF & Image Mode Preview BUG lazyload.js officePicture.ftl pdf.ftl kkFileView getCorsFile?urlPath 会触发SSRF漏洞 kkFileView SSRF-CSDN博客 commonHeader.ftl initWaterMark() 修改代码的工作量&#xff0c;主要是先部署项目&#xff0c;解…

微信小程序开发——比较两个数字大小

在这里我们使用的工具是 需要自行安装和配置。 在微信小程序中比较两个数字大小有以下几种方式&#xff1a; 一、普通条件判断 在小程序的.js 文件中&#xff0c;先定义两个数字&#xff0c;如let num1 5; let num2 3;。通过if - else if - else语句&#xff0c;根据num1与…

Machine Learning: A Probabilistic Perspective 机器学习:概率视角 PDF免费分享

下载链接在博客最底部&#xff01;&#xff01; 之前需要参考这本书&#xff0c;但是大多数博客都是收费才能下载本书。 在网上找了好久才找到免费的资源&#xff0c;浪费了不少时间&#xff0c;在此分享以节约大家的时间。 链接: https://pan.baidu.com/s/1erFsMcVR0A_xT4fx…