采集京东网数据的10个经典方法

采集京东电商网数据的10个经典方法

京东网数据采集全网抓取网页数据、商品销量、全网搜索、网页爬虫、采集网站数据、网页数据采集软件、python爬虫、HTM网页提取、APP数据抓包、APP数据采集、一站式网站采集技术、BI数据的数据分析、数据标注等成为大数据发展中的热门技术关键词。那么采集京东网数据的方法有哪些呢?我给大家分享一下,我爬虫的个人经验,我们在采集类似京东网站数据的时候会遇到什么技术问题,然后再根据这些问题给大家分享采集方案。

一、写爬虫采集网站之前:

为什么经常听到有些网站的域名被劫持、服务器被heikegongji、数据库被盗等,大家平时登录一个网站,记的都是类似www.jd.com这样的网址。这叫做域名(domain name)。输入域名后是需要先通过DNS服务器来解析识别这个域名对应的服务器IP地址,每家公司网站的程序和数据都是放在自己服务器上的(如阿里云服务器或者自己购买的服务器),每个服务器有一个IP地址,只要知道这个IP地址,就可以访问到这个网站(特殊情况除外,比如设置了禁止IP访问权限)。

(1).域名解析过程:输入www.jd.com这网址(域名)怎么就可以访问到对应的网站呢?那是因为如果需要让您域名可以正常使用,就必须先把域名和您网站的服务器IP地址绑定在一起,以后用户在浏览器只要输入这个域名就等于输入您这个服务器IP地址了,这个绑定的过程叫做域名解析,互联网有13台DNS根服务器,专门来做域名解析,其中10台在美国(包括一台主根服务器),另外3台根服务器分别在英国、瑞典、日本,而中国一台都没有,那么,大家的担忧随之而来:很多朋友问我,如果美国的根服务器不为中国提供服务了,中国是不是就从网络上消失了?网站还能访问吗?其实域名服务器只是解析域作用而已,如果没有域名我们可以用IP访问网站,只是用IP访问记起来不方便而已,域名也就一个别名容易记住的简称的作用而已,例如103.235.46.39。这叫做IP地址,即Internet Protocol Address,互联网协议地址。比如输入 ping www.jd.com可以查到百度这个网址解析绑定到的是哪个服务器的IP地址。

 

从上面可以知道百度的IP地址为:103.235.46.39。当您知道这个网址的服务器IP地址时候,您在浏览器输入网址和您在浏览器输入这个IP地址 都是可以访问到这个网站的(除非有些禁止IP访问),通过这个手段,我们后面在做网站数据采集爬虫的时就可以直接请求IP地址去采集数据了,可以绕过网址直捣皇宫了,就算网址更换了,但是服务器是不变的,我们一样找到它网站老巢,采集它的数据。

(2)域名劫持爬虫技术:域名劫持是互联网gongji的一种方式,通过gongji域名解析服务器(DNS),实现劫持,因为如果要访问www.jd.com就必先经过DNS域名解析服务器来解析这个网址对应那台服务器IP地址。如果在这个过程有heike想攻您网站,比如heike想gongji百度,就可以在这个DNS解析域名环节做手脚,比如我想让所有用户打开www.jd.com直接访问的是我的广告网站,而不是百度自己服务器里面的网站网页。那很简单,那只要在DNS 解析百度这个网址的时候把对应的百度服务器IP地址 修改解析到您自己的网站服务器IP地址去,那么所有人打开这个jd.com网址就实际就是打开您的网站了。这个过程就叫域名劫持,这种技术已经不是爬虫技术是高级的heike技术了。

(3)钓鱼网站爬虫技术:通过域名劫持技术,很多人heike去劫持银行网站、支付宝网站、充值交易的网站等,比如他们先做一个和银行一模一样的网站,功能和长相和银行的一模一样,这个网站我们称呼钓鱼网站,用户打开银行网址时候,其实已经被劫持走了,真正访问的是他们提供的钓鱼网站,但是因为网址是一样的,网站长相也是一样的,用户压根不会识别出来,等您输入银行账号密码后,您的银行卡的钱估计就自动被转走了,因为已经知道您的账号密码了。对技术感兴趣朋友欢迎交流我扣扣:2779571288

二、网站数据采集的10个经典方法:

我们平时说的采集网站数据、数据抓取等,其实不是真正的采集数据,在我们的职业里这个最多算是正则表达式,网页源代码解析而已,谈不上爬虫采集技术难度,因为这种抓取主要是采集浏览器打开可以看到的数据,这个数据叫做html页面数据,比如您打开:www.jintancn.com这个网址,然后键盘按F12 ,可以直接看到这个网址的所有数据和源代码,这个网站主要是提供一些爬虫技术服务和定制,里面有些免费新工商数据,如果需要采集它数据,你可以写个正则匹配规则html标签,进行截取我们需要的字段信息即可。下面给大家总结一下采集类似这种工商、天眼、商标、专利、亚马逊、淘宝、app等普遍网站常用的几个方法,掌握这些访问几乎解决了90%的数据采集问题了。

图片

方法一:用python的request方法

用python的request方法,直接原生态代码,python感觉是为了爬虫和大数据而生的,我平时做的网络分布式爬虫、图像识别、AI模型都是用python,因为python有很多现存的库直接可以调用,比如您需要做个简单爬虫,比如我想采集百度 几行代码就可以搞定了,核心代码如下:

import requests  #引用reques库

response=request.get(‘https://www.tianyancha.com/’)#用get模拟请求

print(response.text)  #已经采集出来了,也许您会觉好神奇!

方法二、用selenium模拟浏览器

selenium是一个专门采集反爬很厉害的网站经常使用的工具,它主要是可以模拟浏览器去打开访问您需要采集的目标网站了,比如您需要采集天眼查或者企查查或者是淘宝、58、京东等各种商业的网站,那么这种网站服务端做了反爬技术了,如果您还是用python的request.get方法就容易被识别,被封IP。这个时候如果您对数据采集速度要求不太高,比如您一天只是采集几万条数据而已,那么这个工具是非常适合的。我当时在处理商标网时候也是用selenum,后面改用JS逆向了,如果您需要采集几百万几千万怎么办呢?下面的方法就可以用上了。

方法三、用scrapy进行分布式高速采集

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。scrapy 特点是异步高效分布式爬虫架构,可以开多进程 多线程池进行批量分布式采集。比如您想采集1000万的数据,您就可以多设置几个结点和线程。Scrapy也有缺点的,它基于 twisted 框架,运行中的 exception 是不会干掉 reactor(反应器),并且异步框架出错后 是不会停掉其他任务的,数据出错后难以察觉。我2019年在做企业知识图谱建立的时候就是用这个框架,因为要完成1.8亿的全量工商企业数据采集和建立关系,维度比天眼还要多,主要是时候更新要求比天眼快。对技术感兴趣朋友欢迎交流我扣扣:2779571288

方法四:用Crawley

Crawley也是python开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。它是基于Eventlet构建的高速网络爬虫框架、可以将爬取的数据导入为Json、XML格式。支持非关系数据库、支持使用Cookie登录或访问那些只有登录才可以访问的网页。

方法五:用PySpider

相对于Scrapy框架而言,PySpider框架是一支新秀。它采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器、任务监视器、项目管理器以及结果查看器。PySpider的特点是ython脚本控制,可以用任何你喜欢的html解析包,Web界面编写调试脚本、起停脚本、监控执行状态、查看活动历史,并且支持RabbitMQ、Beanstalk、Redis和Kombu作为消息队列。用它做个两个外贸网站采集的项目,感觉还不错。

方法六:用Aiohttp

Aiohttp 是纯粹的异步框架,同时支持 HTTP 客户端和 HTTP 服务端,可以快速实现异步爬虫。坑比其他框架少。并且 aiohttp 解决了requests 的一个痛点,aiohttp 可以轻松实现自动转码,对于中文编码就很方便了。这个做异步爬虫很不错,我当时对几个淘宝网站异步检测商城里面的商品和价格变化后处理时用过一段时间。

方法七:asks

Python 自带一个异步的标准库 asyncio,但是这个库很多人觉得不好用,甚至是 Flask 库的作者公开抱怨自己花了好长时间才理解这玩意,于是就有好事者撇开它造了两个库叫做 curio 和 trio,而这里的 ask 则是封装了 curio 和 trio 的一个 http 请求库。

方法八:vibora

号称是现在最快的异步请求框架,跑分是最快的。写爬虫、写服务器响应都可以用,用过1个月后 就很少用了。

方法九:Pyppeteer

Pyppeteer 是异步无头浏览器(Headless Chrome),从跑分来看比 Selenium + webdriver 快,使用方式是最接近于浏览器的自身的设计接口的。它本身是来自 Google 维护的 puppeteer。我经常使用它来提高selenium采集的一些反爬比较厉害的网站 比如裁判文书网,这种网站反爬识别很厉害。

方法十:Fiddle++node JS逆向+request  (采集APP必用)

Fiddler是一个蛮好用的抓包工具,可以将网络传输发送与接受的数据包进行截获、重发、编辑、转存等操作。我们在采集某个app时候,一般是先用Fiddler抓包 找到这个app请求这个数据时候调取的是后台的那个接口地址,找到这个地址和请求的参数然后再模拟request。今年在处理快手、抖音的粉丝、评价、商品店铺销量时候就用到了Fiddle。某些APP 和网站的参数是通过js加密的,比如商标网、裁判文书网、抖音快手等这些。您如果需要请求它的源api地址就地逆向解析破解这些加密参数,可以使用node解析混淆函数。因为平时需要经常采集一些app,所以和Fiddler打交道的比较多。

前面主要是对网站和APP 数据采集和解析的一些方法,其实对这种网站爬虫技术说无非就解决三个问题:首先是封IP问题,您可以自建代理IP池解决这个问题的,第二个问题就是验证码问题,这个问题可以通过python的图像识别技术来解决或者是您直接调取第三方的打码平台解决。第三问题就是需要会员账号登录后才看到的数据,这个很简单直接用cookie池解决。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/274619.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

反序列化漏洞分析

接着昨天的来说,由于fastjson调试起来过程比较复杂,在这里直接看关键点:首先会获取字符串的第一对引号中的内容 如果内容为type就会加载下一对引号中的类 在JavaBeanInfo.class中会获取类中所有详细详细 在这里匹配以set开头的方法 methodNam…

[C/C++]排序算法 快速排序 (递归与非递归)

目录 🚩概念: 🚩实现: ⚡1.hoare ⚡2.挖坑法 ⚡3.双指针法 🚩快速排序递归实现 🚩快速排序非递归实现 🚩概念: 通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据比另一部分的所有…

Spring中常见的BeanFactory后处理器

常见的BeanFacatory后处理器 先给出没有添加任何BeanFactory后处理器的测试代码 public class TestBeanFactoryPostProcessor {public static void main(String[] args) {GenericApplicationContext context new GenericApplicationContext();context.registerBean("co…

判断电话号码是否重复-excel

有时候重复的数据不需要或者很烦人,就需要采取措施,希望以下的方法能帮到你。 1.判断是否重复 方法一: 1)针对第一个单元格输入等号,以及公式countif(查找记录数的范围,需要查找的单元格) 2…

node.js express框架开发入门教程

文章目录 前言一、Express 生成器(express-generator)二、快速安装1.express框架express-generator生成器安装2.使用pug视图引擎创建项目,projectName 为项目名称自定义 三、安装热更新插件 nodemon四、目录结构1. public文件夹2.routes路由其他请求方式…

解密负载均衡:如何平衡系统负载(下)

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

连接GaussDB(DWS)报错:Invalid or unsupported by client SCRAM mechanisms

用postgres方式连接GaussDB(DWS)报错:Invalid or unsupported by client SCRAM mechanisms 报错内容 [2023-12-27 21:43:35] Invalid or unsupported by client SCRAM mechanisms org.postgresql.util.PSQLException: Invalid or unsupported by client SCRAM mec…

论文阅读《Rethinking Efficient Lane Detection via Curve Modeling》

目录 Abstract 1. Introduction 2. Related Work 3. BezierLaneNet 3.1. Overview 3.2. Feature Flip Fusion 3.3. End-to-end Fit of a Bezier Curve 4. Experiments 4.1. Datasets 4.2. Evalutaion Metics 4.3. Implementation Details 4.4. Comparisons 4.5. A…

Flink on K8S生产集群使用StreamPark管理

(一)直接部署(手动测试用,不推荐) Flink on Native Kubernetes 目前支持 Application 模式和 Session 模式,两者对比 Application 模式部署规避了 Session 模式的资源隔离问题、以及客户端资源消耗问题&am…

用好它们!没有你找不到的电子书

以前读书的时候很喜欢买纸质书籍 ,但自从有了 iPad 和智能手机。我发现用智能设备看书似乎性价比更好,不仅可以随时随地阅读 而且还能省不少书的钱,因为电子书网上很多分享几个本人常用的电子书搜索工具。用好这几个工具99% 的书籍你都可以下…

PAT 乙级 1028 人口普查

解题思路:此题我想到俩种方法,一种是排序方法,一种是不排序的方法,首先都是看是否是有效年龄,然后一种是排序,另一种是维护最大值和最小值的变量,一定要注意如果有效数字是0那就只输出0就可以了…

新版ONENET的物联网环境调节系统(esp32+onenet+微信小程序)

新版ONENET的物联网环境调节系统(esp32onenet微信小程序) 好久没用onenet突然发现它大更新了,现在都是使用新版的物联网开放平台,只有老用户还有老版的多协议接入,新用户是没有的,所以我顺便更新一下新的开…

企业私有云容器化架构运维实战

什么是虚拟化: 虚拟化(Virtualization)技术最早出现在 20 世纪 60 年代的 IBM 大型机系统,在70年代的 System 370 系列中逐渐流行起来,这些机器通过一种叫虚拟机监控器(Virtual Machine Monitor,VMM&#x…

会议室占用时间段 - 华为OD统一考试

OD统一考试 题解: Java / Python / C++ 题目描述 现有若干个会议,所有会议共享一个会议室,用数组表示各个会议的开始时间和结束时间, 格式为: [[会议1开始时间,会议1结束时间],[会议2开始时间,会议2结束时间]] 请计算会议室占用时间段。 输入描述 [[会议1开始时间,…

数据库——LAMP的搭建及MySQL基操

1.实验内容及原理 1. 在 Windows 系统中安装 VMWare 虚拟机,在 VMWare 中安装 Ubuntu 系统,并在 Ubuntu 中搭建 LAMP 实验环境。 2. 使用 MySQL 进行一些基本操作: (1)登录 MySQL,在 MySQL 中创建用户,并对…

关于增强监控以检测针对Outlook Online APT活动的动态情报

一、基本内容 2023年6月,联邦民事行政部门(FCEB)在其Microsoft 365(M365)云环境中发现了可疑活动。该机构迅速向Microsoft和网络安全和基础设施安全局(CISA)报告了此情况。经过深入调查&#x…

【架构】企业信息安全体系架构详解

企业信息安全体系架构来说,是包含技术、运维、管理3个层面。本文说的安全架构,主要集中讨论偏研发技术层面的安全架构。 安全性是软件研发技术体系,系统架构设计阶段的一个关键DFX能力,与可靠性、可服务性、性能等架构属性并列。由于安全性设计自身的特点,涉及到系统架构…

Zblog主题模板:zblog博客主题aymeleven

zblog主题模板:zblog博客主题aymeleven zblog博客主题aymeleven主要是以文字内容为主导,将页面的设计杂乱的图片和元素进行最小化或者去除,从而使整个页面更加简洁、清晰,突出信息的呈现。 下面介绍一下zblog主题模板:zblog博客主…

AI产品经理 - 技术课-要不要懂技术(上)

一、AI产品经理,要不要懂技术:笔者答案是肯定的 1.AI产品经理要懂产品方案 2.不懂算法,会遇到问题:没有核心竞争力,会边缘化

基于ssm的数据结构课程网络学习平台的设计与实现论文

数据结构课程网络学习平台 摘要 本文介绍了数据结构课程网络学习平台的开发全过程。通过分析企业对于数据结构课程网络学习平台的需求,创建了一个计算机管理数据结构课程网络学习平台的方案。文章介绍了数据结构课程网络学习平台的系统分析部分,包括可行…