爬虫知识--01

爬虫介绍

# 爬虫的概念:

        通过编程技术(python:request,selenium),获取互联网中的数据(app,小程序,网站),数据清洗(xpaht,lxml)后存到库中(mysql,redis,文件,excel,mongodb)

# 基本思路:

        通过编程语言,模拟发送http请求,获取数据,解析,入库
# 过程:

        爬取过程,解析过程,会遇到反扒
        抓app,小程序,会通过抓包工具(charles,Fiddler),抓取手机发送的所有请求
# 爬虫协议:
        君子协议:https://xxx/robots.txt
# 百度是个大爬虫:
    百度/谷歌搜索引擎,启动了一个爬虫,一刻不停的在互联网中爬取网站,存到库中(es)
    用户在百度输入框中,输入搜索内容,去百度的库中搜索,返回给前端,前端点击,去了真正的地址
    seo 优化:不花钱,搜索关键词的结果,排的靠前
        -伪静态
    sem 优化:花钱买关键词

requests模块介绍

# requests模块:模拟发送http请求模块,封装了urlib3(python内置的发送http请求的模块)
    爬虫会用
    后端: 向其他api接口发送请求
    同步
#  requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求
# 第三方: pip3 install requests

requests发送get请求

#  requests可以模拟发送http请求,有的时候,网站会禁止

        禁止的原因是:模拟的不像,有的东西没带
# http请求:请求头中没带东西,没带cookie,客户端类型,referer...

import requests
res=requests.get('https://www.cnblogs.com/')  # 这个网站没有反扒
print(res.text) # 响应体内容

携带get参数

# 携带get参数方式一:

import requests
res=requests.get('https://api.map.baidu.com/place/v2/search?ak=6E823f587c95f0148c19993539b99295&region=上海&query=肯德基&output=json')
print(res.text)

# 携带get参数方式二:

import requests
params = {
    'ak': '6E823f587c95f0148c19993539b99295',
    'region': '上海',
    'query': '肯德基',
    'output': 'json',
}
res = requests.get('https://api.map.baidu.com/place/v2/search',params=params)
print(res.text)  # 响应体内容

# url 编码和解码:

from urllib.parse import quote,unquote
s='上海'  # %E4%B8%8A%E6%B5%B7
print(quote(s))
print(unquote('%E4%B8%8A%E6%B5%B7'))

携带请求头

import requests
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
}
res = requests.get('https://dig.chouti.com/',headers=headers)
print(res.text)

发送post请求携带cookie

# 是否登录:有个标志
        前后端混合项目:登录信息-->放在cookie中了
        前后端分离项目:登录信息--》后端规定的--》放在请求头的

# 方式一:放在请求头中

import requests
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36',
    'Cookie': 'deviceId=web.eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiJiNjEzOGM2OS02ZWRlLTQ3MWItODI4Yy03YTg2ZTE3M2E3NjEiLCJleHBpcmUiOiIxNzEwOTAxNjM1MTMxIn0.JluPFMn3LLUGKeTFPyw7rVwR-BWLiG9V6Ss0RGDHjxw; Hm_lvt_03b2668f8e8699e91d479d62bc7630f1=1708309636; __snaker__id=miaeDoa9MzunPIo0; gdxidpyhxdE=lMhl43kDvnAOqQQcQs9vEoTiy8k90nSwfT3DkVSzGwu3uAQWI9jqa2GcIUvryeOY0kX6kfPuhJUAGrR6ql0iv%2F6mCzqh6DHE1%5CP%2BaIXeUQgLcfqlklCcq2V9CgWbvQRGeRaduwzkcPYwf6CXZiW9a87NxU%2BRlYq57Zq01j2gMK0BaX%2FK%3A1708310847499; token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiJjZHVfNTMyMDcwNzg0NjAiLCJleHBpcmUiOiIxNzEwOTAxOTY5NTM2In0.eseWTCMqp-yHa7rWgSvPhnWVhhQAgqGIvIgLGbvcBcc; Hm_lpvt_03b2668f8e8699e91d479d62bc7630f1=1708309982'
}
data = {
    'linkId': '41566118'  # 文章id
}
# 没有登录---》返回的数据不是咱们想要的
res = requests.post('https://dig.chouti.com/link/vote', headers=headers, data=data)
print(res.text)

# 方式二:放在cookie中

        cookie特殊,后期用的频率很高

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36',
}
data = {
    'linkId': '41566118'
}
cookie = {
    'token': 'eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiJjZHVfNTMyMDcwNzg0NjAiLCJleHBpcmUiOiIxNzEwOTAxOTY5NTM2In0.eseWTCMqp-yHa7rWgSvPhnWVhhQAgqGIvIgLGbvcBcc'
}

# 没有登录---》返回的数据不是咱们想要的
res = requests.post('https://dig.chouti.com/link/vote', headers=headers, data=data, cookies=cookie)
print(res.text)

post请求携带参数

# post请求有三种编码方式:

                json,urlencoded,form-data

# 方式一:data参数是urlencoded

        以data字典形式携带urlencoded编码,最终会被编码为name=lqz&age=19放在请体中

import requests
res=requests.post('地址',data={'name':'lqz','age':19})
# res=requests.post('地址',data=b'name=lqz&age=19')

# 方式二:json编码:json
        # 以json字典形式携带json编码,最终它会被编码为{'name':'lqz','age':19}放在请体中

import requests
res=requests.post('地址',json={'name':'lqz','age':19})

模拟登录

# 登录接口通过post请求,登录后能拿到登录信息,再发请求携带登录信息就是登录状态

        可见即可爬

import requests

data = {
    'username': '616564099@qq.com',
    'password': 'lqz123',
    'captcha': '3333',
    'remember': '1',
    'ref': ' http://www.aa7a.cn/',  # 登录成功,重定向到这个地址
    'act': 'act_login',
}
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
}
res = requests.post('http://www.aa7a.cn/user.php', headers=header, data=data)
print(res.text)
# 登录成功的cookie
cookies=res.cookies
print(cookies)


# 向首页发送请求--->携带cookie便是登录状态
res=requests.get('http://www.aa7a.cn/',cookies=cookies)
print('616564099@qq.com' in res.text)

响应对象

# 使用requests模块发送请求:  request对象请求头,请求参数,请求体

        本质就是http请求,被包装成一个对象
# 响应回来:response对象有http响应,cookie,响应头,响应体...
        request:http请求
        response:http响应    


# 爬取普通图片:

import requests
header = {
     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
 }
respone = requests.get('https://www.jianshu.com/',headers=header)

#  如果下载图片,视频:

        图片防盗链,通过referer做的,请求头中有个referer参数,上次访问的地址

import requests
header={
    'Referer':'https://www.tupianzj.com/'
}
res=requests.get('https://img.lianzhixiu.com/uploads/allimg/180514/9-1P514153131.jpg',headers=header)
print(res.content)
with open('美女.jpg','wb') as f:
    f.write(res.content)
#  图片,视频---》迭代着把数据保存到本地
# with open('code.jpg','wb') as f:
#     for line in res.iter_content(chunk_size=1024):
#        f.write(line)

# respone属性:

print(respone.text)  # 响应体---》字符串形式
print(respone.content)  # 响应体---》bytes格式

print(respone.status_code)  # 响应状态码
print(respone.headers)  # 响应头

print(respone.cookies)  # 响应的cookie
print(respone.cookies.get_dict())  # cookiejar对象--->转成字典格式
print(respone.cookies.items())  # cookie的value值

print(respone.url)  # 请求地址
print(respone.history)  # 访问历史---》重定向,才会有

print(respone.encoding)  # 编码格式

response.iter_content() # 图片,视频---》迭代着把数据保存到本地

ssl 认证

# http和 https:
    http:超文本传输协议
    https:安全的超文本传输协议,防止被篡改,截取...
    https=http+ssl/tls
    必须有证书:才能通信

import requests

header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
}
respone = requests.get('https://www.jianshu.com/',headers=header,verify=False)
# respone = requests.get('https://www.jianshu.com/',headers=header,cert=('/path/server.crt','/path/key'))
print(respone.text)

使用代理

# 代理有正向代理和向代理

# 大神写了开源的免费代理:

        原理:有些网站提供免费的代理,通过爬虫技术爬取别人的免费代理,验证过后自己用

               加入自己的id访问不了,可以使用免费代理生成id再去访问

import requests

res = requests.get('http://demo.spiderpy.cn/get/?type=https')
print(res.json())
print(res.json()['proxy'])

# 112.30.155.83:12792
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
}
# respone = requests.get('https://www.jianshu.com/', headers=header, proxies={'https': res.json()['proxy']})
respone = requests.get('https://www.jianshu.com/', headers=header)
print(respone.text)

超时设置,异常处理,上传文件

# 超时:

import requests
respone=requests.get('https://www.baidu.com',timeout=0.0001)
print(respose.text)

# 异常处理:

import requests
from requests.exceptions import * #可以查看requests.exceptions获取异常类型
try:
    r=requests.get('http://www.baidu.com',timeout=0.00001)
except RequestException:
    print('Error')
# except ConnectionError: #网络不通
#     print('-----')
# except Timeout:
#     print('aaaaa')

# 上传文件:

import requests
files={'file':open('a.jpg','rb')}
respone=requests.post('http://httpbin.org/post',files=files)
print(respone.status_code)

今日思维导图: 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/397579.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

探索未来-Sora

AI如何将静态图像转化为动态、逼真的视频? OpenAI 的 Sora 通过时空片段(以下统称片段)的创新使用给出了答案。 Sora 展示与探讨 在快速发展的生成模型领域,OpenAI 的 Sora成为一个重要的里程碑,有望重塑我们对视频生…

uniapp离线打包(使用Android studio打包)

一、准备工作 安装HbuilderX,记住版本号下载对应HbuilderX版本的Android离线SDK,如我使用3.6.18版本打包,则对应应下载3.6.18版本的SDK(官网不提供旧版本的SDK,有些需要自己找)官网下载地址:ht…

亚马逊鲲鹏系统一键注册亚马逊买家号的软件

在如今的电商世界中,自动注册亚马逊买家号已经成为了一种必要的操作需求。为了规避关联性问题,许多用户选择借助专门设计的软件工具,其中最为流行的就是亚马逊鲲鹏系统。这款软件以其自带防指纹浏览器和全自动化操作功能而闻名。 亚马逊鲲鹏系…

《摔跤吧爸爸》19岁女星突患皮肌炎离世

从确诊到离世仅10天……罕见病“皮肌炎”! 曾凭借在知名电影《摔跤吧!爸爸》中饰演童年时期“小芭比塔”一角而广受喜爱的年轻演员苏哈尼巴特纳格尔不幸离世,年仅19岁。她的突然逝世引发了全球关注,据苏哈妮的家人表示&#xff0…

基于docker安装HDFS

1.docker一键安装见 docker一键安装 2.拉取镜像 sudo docker pull kiwenlau/hadoop:1.03.下载启动脚本 git clone https://github.com/kiwenlau/hadoop-cluster-docker4.创建网桥 由于 Hadoop 的 master 节点需要与 slave 节点通信,需要在各个主机节点配置节点…

ACE 中的Active Object模式

Active Object 设计模式: 1) 根据对象被调用的方式,可以将对象分为两类: Passive Object和Active Object。Passive 和 Object和调用者在同一个线程中,这就是我们通常所用的函数调用。而Active Object和调用在不同的线程中&#xf…

漏洞挖掘 | 编辑器漏洞之kindeditor

本文由掌控安全学院 - master666 投稿 今天呢给大家复现一个kindeditor<4.1.5上传漏洞。小弟能力有限&#xff0c;还在坚持学习的路上&#xff0c;还请大佬多多指教。自我感觉编辑器漏洞很容易忽视。此文章作为记录本人学习的开始&#xff0c;丰富自己的阅历。我们共同进步…

TLS指纹校验原理和绕过

TLS指纹校验原理和绕过 1.指纹校验案例 当用浏览器访问时能够正常访问&#xff0c;而用代码请求却得不到相应结果 1.1 案例&#xff1a;ascii2d https://ascii2d.net/ 1.2 案例&#xff1a;investing https://cn.investing.com/equities/amazon-com-inc-historical-data 2.T…

【JavaScript】数组操作 遍历、修改、新增、删除等...

目录 一、数组是什么&#xff1f; 二、数组操作 2.1、遍历 2.2、数组求最大值和最小值 2.3、修改 2.4、新增 追加到数组末尾 添加到数组开头 2.5、删除 一、数组是什么&#xff1f; 数组是一种可以按顺序保存数据的数据类型。 二、数组操作 2.1、遍历 let arr [马…

14. UE5 RPG使用曲线表格设置回复血量值

之前的文章中&#xff0c;我使用的都是固定的数值来设置血量回复或者蓝量回复&#xff0c;在这篇文章里面&#xff0c;介绍一下使用曲线表格。通过曲线表格我们可以设置多个数值&#xff0c;然后通过去通过修改索引对应的数值去修改回复的血量或者蓝量。 创建曲线表格 首先创…

【Unity】【VRTK】【VR开发】同时保持高效打包和调试的VRTK项目设置方式

【背景】 开发功能时希望能够快速调试&#xff0c;在Preview和开发编辑器间流畅切换。后期又希望快速打包到目标安卓平台&#xff0c;感受头盔内部的画面和操作效果。麻烦在于&#xff0c;这两者往往不是明确区分的&#xff0c;很可能一会儿只是想快速验证一下某些功能动作&am…

安全名词解析-攻防演练

为方便您的阅读&#xff0c;可点击下方蓝色字体&#xff0c;进行跳转↓↓↓ 01 攻防演练 01 攻防演练 《网络安全法》中明确提出&#xff0c;“定期组织关键信息基础设施的运营者进行网络安全应急演练&#xff0c;提高应对网络安全事件的水平和协同配合能力。”攻防演练目前已经…

机器视觉【3】非线性求解相机几何参数

线性求解相机几何参数的缺点 上一章节介绍学习了&#xff08;DLT&#xff09;线性求解相机几何参数&#xff0c;了解到线性求解法当中比较明显的缺点&#xff1a; 没有考虑到镜头畸变的影响不能引入更多的约束条件融入到DLT算法当中优化最关键的是&#xff0c;代数距离并不是…

OpenCV中inRange函数

在OpenCV中&#xff0c;inRange函数用于根据颜色范围从图像中提取特定的颜色区域。这个函数检查输入图像中的每个像素&#xff0c;如果像素值位于指定的范围内&#xff0c;则在输出图像&#xff08;或掩码&#xff09;中对应位置的像素被设置为白色&#xff08;或者说是255&…

QT中事件过滤器

Qt添加事件过滤器&#xff0c;设置拖放listWidget、TreeWidget、TableWidget控件。 #include "mainwindow.h" #include "ui_mainwindow.h"MainWindow::MainWindow(QWidget *parent): QMainWindow(parent), ui(new Ui::MainWindow) {ui->setupUi(this)…

Lightfm学习记录

推荐参考资料 官方文档仓库地址论文地址LightFM推荐系统框架学习笔记LightFM推荐模型库(利于入门)how-i-would-explain-building-lightfm-hybrid-recommenders-to-a-5-year-old(用处不大)协同推荐 lightfm 根据用户已读诗词推荐(可能有用)Recommendation System in Python: L…

Learn HTML in 1 hour

website address https://www.youtube.com/watch?vHD13eq_Pmp8 excerpt All right, what’s going on? everybody. It’s your Bro, hope you’re doing well, and in this video I’m going to help you started with html; so sit back, relax and enjoy the show. If y…

Vue3自定义全局指令批量注册

指令封装代码&#xff1a; import type { App } from "vue";const content {mounted(el : any, binding : any) {console.dir(binding.value);el.remove();} };const operate {mounted(el : any, binding : any) {console.dir(binding.value);el.remove();} };cons…

01_02_mysql06_视图-存储过程-函数

视图 使用 视图一方面可以帮我们使用表的一部分而不是所有的表&#xff0c;另一方面也可以针对不同的用户制定不同的查询视图。比如&#xff0c;针对一个公司的销售人员&#xff0c;我们只想给他看部分数据&#xff0c;而某些特殊的数据&#xff0c;比如采购的价格&#xff0…

助力精准可信时空智能:卫星授时安全隔离装置

随着信息化、数字化、智能化发展浪潮的不断推进&#xff0c;各行业对卫星导航授时信息的精准可信度需求也越来越高。面对有意/无意的导航信号欺骗干扰&#xff0c;一旦发生时间信息错误&#xff0c;将导致巨大的经济损失甚至严重的安全事故。在复杂的电磁环境下&#xff0c;亟需…