python爬虫学习简记

目录

页面结构的简单认识

爬虫概念理解 

urllib库使用

爬虫解析工具xpath

JsonPath 

Selenium

requests基本使用

scrapy


页面结构的简单认识

如图是我们在pycharm中创建一个HTML文件后所看到的内容

这里我们需要认识的是上图的代码结构,即html标签包含了head标签与body标签


table标签

 table标签代表了一个网页页面中的表格,其包含了行和列,其中行标签我们使用tr标签,在行中我们可以定义列,列我们使用的是td标签

如图我们在body标签中 编写了上图代码,即定义了一个一行三列的表格

在浏览器中运行可以看到

如果想要表格的结构更明确,我们可以这样

 为表格添加一些属性,运行结果如下 


ul标签 

ul标签代表的是网页中的无序列表,我们可以往列表中添加我们想要的元素,这些元素我们使用li标签进行定义


ol标签

ol标签代表的是网页中的有序列表,其中的元素也是使用li标签定义


a标签 

a标签代表的是网页中的超链接,即点击后可以进行页面的跳转,我们使用href属性指定想要的跳转到的域名

点击即跳转到百度

爬虫概念理解 

我们一般有以下两种理解

  • 通过一个程序,根据url进行爬取网页,获取有用信息
  • 使用程序模拟浏览器,去向服务器发送请求,获取相应信息

爬虫核心

  1. 爬取网页:爬取整个网页,包含了网页中所有的内容
  2. 解析数据:将你得到的数据进行解析
  3. 难点:爬虫与反爬虫之间的博弈

urllib库使用

urllib是python自带的库,我们可以直接使用,无需下载,下面演示使用urllib爬取baidu首页源码

先导入该库

 

再使用urlopen()函数去向参数url发出请求,返回值为服务器的响应对象 ,其中包含了关于该网页的内容,也包括源码,我们使用read()方法即可得到源码,但是注意得到的是二进制形式的数据,因此我们需要将其解码,这里使用编码为utf8的decode()方法进行解码

再打印出解码后的数据即可         


一个类型与六个方法

  • 一个类型即我们上面样例中urlopen()的返回值为HTTPResponse类型

六个方法如下:


将爬取到的网页、图片、视频下载到本地 

这里主要使用的函数是urlretrieve(参数1,参数2)

其中参数1是需要下载的对象地址,参数2是想要下载到的本地位置,上图中我没有指定位置,因此直接下载到的该python文件的目录下 


反爬手段User-Agent

User Agent中文名为用户代理,简称 UA。

它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等等。

也就是说,假设:一个平台,设置了UA权限,必须以浏览器进行访问

当你使用爬虫脚本去访问该网站的时候,就会出现,访问失败、没有权限 、或者没有任何资源返回的结果等错误信息。

那么我们应该如何克服它呢??

我们需要在爬虫时添加一个User-Agent请求头即可

具体怎么做呢?

如上图所示,我们在爬取协议为https的百度首页时发现得到的源码很少,就是遇到了反爬手段UA

下面是对url知识的补充

 https协议比http协议更为安全

好了继续解决UA

如上,我们在最下面可以看到我们的UA

我们将其复制下来,在代码中存储为一个字典,然后使用Request得到一个带有UA的请求头的url,然后按照前面所学即可爬取内容啦

需要强调的是,这里因为Request()方法的参数第二个参数并非headers因此我们需要使用关键字传参


get请求的quote方法

在前面我们在代码中输入一个url时,我们可能会输入包含有中文字符的url

例如

 此时如果我们直接就这样按照前面所学去爬取该域名内的源码,会出现编码报错问题,因此我们需要将“周杰伦”进行编码,这里就使用到了urllib.parse.quote()方法,该方法可以将中文字符编码为Unicode,再将其拼接到我们将被输入的url上即可


get请求的urlencode()方法

有时候我们会需要将多个参数拼接到我们的url上,但是此时再去使用quote方法便会变得麻烦,因此就有了urlencode方法,它用于拼接多个参数的url

 如下我们将我们需要的参数wd与sex与location拼接到了我们的url上同时实现了爬虫


post请求

post是相对于前面所学的get请求的另外一种请求,二者的区别在于post请求的url参数并不是直接拼接在url后面的,而是在进行 请求对象的定制中 进行传参赋值

下面通过百度翻译例子进行解析

在百度翻译中输入python进行翻译后刷新,其实不难发现,页面上马上就发生了改变,其实这是浏览器快速对服务器进行了请求,我们通过查看这些请求,发现上图中该请求实现了翻译

在获取到该请求的url地址后,我们希望将kw参数传给它

 正如上面所说,我们在进行请求对象定制的时候将参数data传给了url,这里需要注意的是data在作为参数传递时必须是编码后的形式,而urlencode得到的是字符串类型是不能直接作为data传给Request的,因此需要encode('utf-8')


反爬手段之header

有时候请求头中仅仅包含UA是不够的,我们需要得到更多的请求头参数

样例演示(爬取百度翻译的详细翻译):

首先在百度翻译的网络请求中找到下面这一条

再得到它的URL

 得到对应参数

写入代码

然后按照前面所学的进行爬虫即可

 

得到结果如下:

 我们发现这与我们想要的结果并不同

这是因为网站有另外一种反爬虫手段,即header参数要求更多

 我们只需在网站上的请求头所有参数给到 对象的定制里面即可

再次运行 即可


将json文件下载到本地

样例演示(豆瓣动作电影排行榜第一页的爬取)

首先需要找到有效的网络请求

 得到对应的URL及其UA

 输入代码

 需要注意的是这里对于open方法默认是使用gbk编码,我们需要传参时指定为utf-8

如果想要爬取多页数据我们则需要观察网络请求中每一页请求的url

还是上面的例子

我们在找到前三页的网络请求便很容易得到其中的规律

然后遍历我们想要的页数 ,得到对应的url,循环前面的操作即可


多页数据的post爬取

在面对爬取多页数据的需求上,还是一样的步骤

  1. 在网络请求中找到页面数据的那个请求,对比每一页的请求的URL,找到规律
  2. 循环遍历每一页,对每一页操作即可

我们观察发现因为网页时post类型的,所以参数并没有直接包含在URL里,因此需要到payload中寻找

对比多页数据不难发现其规律,即每一页的页码即参数中的pageIndex

因此我们循环遍历页数page,每次构建对象的定制时传入对应的page,然后后续按照post的爬虫步骤来即可


urllib中的异常

主要包含以下两类

  • URLError
  • HTTPError该异常时URLRError的子类

它们都属于urllib.error这个包

其中http异常可能是针对浏览器无法链接到服务器所产生的错误提示

url异常则可能是主机名上出现的错误

我们都可以采用try-except对上述两类异常进行捕获


cookie登录

只要我们拥有某个需要登录才能进入的页面的cookie,我们就可以爬进这个页面,就可以携带者cookie进入到任何页面

因为cookie中包含着登录信息

此外还有一个header参数referer是用来制作图片的防盗链的,即它会判断当前路径是不是由上一个路径进来的

因此如果想要进入一些需要登陆才能进入的页面则一般需要上面两个header参数


Handler处理器

随着业务逻辑的复杂,请求对象的定制已经满足不了我们的需求,例如动态cookie和代理不能仅仅使用urlopen()函数来解决

因此这里提出Handler处理器来处理一些复杂的需求

基本步骤如下:

  1. 获取Handler对象
  2. 获取opener对象
  3. 调用open方法

 如上图所示,我们使用Handler来爬取百度首页的源码


代理服务器

我们还可以使用代理IP来实现爬虫

  • 代理可以帮助我们突破自身IP限制,访问国外站点
  • 访问一些单位或团体内部资源
  • 提高访问速度
  • 隐藏自身真实IP

具体实现步骤如下:

  1. 创建request对象
  2. 创建ProxyHandler对象
  3. 使用handler对象创建opener对象
  4. 使用opener.open()函数发送请求

实际上步骤与前面所学类似的,只不过这里使用的是ProxyHandler函数来创建一个handler对象,之后步骤与前面所学一致

爬虫解析工具xpath

首先需要先安装xpath插件到你的浏览器中,这样方便后续使用

然后我们需要下载python的库lxml

可以使用如下命令进行安装

pip install lxml -i https://pypi.douban.com/simple

下面是xpath的一些基本语法

xpath可以用于本地的文件解析,也可以对服务器的页面进行解析

但是我们更多地使用xpath对服务器的网页进行解析


下面我们进行简单的样例演示

如上图所示,我们在本地创建一个简单的HTML页面,然后使用xpath对其进行解析

 

 

 需要注意的是 逻辑运算中的或操作只能针对标签操作

xpath中严格要求标签的成对出现,因此对于单个标签我们需要在其末尾加上/

下面演示解析网页页面(获取百度页面的百度一下)

解析网页页面与本地页面的差别只在于我们在获取页面的tree时,网页页面用的时etree.HTML方法且其参数为网页响应的内容,而本地用的是etree.parse方法且参数为html文件的路径

 

from lxml import etree
import urllib.request
#关于爬取图片网站并下载到本地
def create_request(page):
    if page==1:
        url = 'https://sc.chinaz.com/tupian/QiCheTuPian.html'
    else:
        url = 'https://sc.chinaz.com/tupian/QiCheTuPian_'+str(page)+'.html'
    header={
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.57'
    }
    req=urllib.request.Request(url=url,headers=header)
    return req

def getContent(req):
    response=urllib.request.urlopen(req)
    content=response.read().decode('utf-8')
    return content

def download(content):
    print(content)
    tree=etree.HTML(content)
    name_list=tree.xpath('//div[@class="item"]/img/@alt')
    src_list=tree.xpath('//div[@class="item"]/img/@data-original')
    for i in range(len(name_list)):
        name=name_list[i]
        src='https:'+src_list[i]
        # print(name,src)
        urllib.request.urlretrieve(src,'./img/'+name+'.jpg')


if __name__=='__main__':
    st=int(input())
    ed=int(input())
    for page in range(st,ed+1):
        #获取对象的定制
        req=create_request(page)
        #获取页面响应内容
        content=getContent(req)
        #下载图片
        download(content)

懒加载

需要注意的是,在一些需要加载大量图片的网页中常常会使用到一种策略名为懒加载,即是一种将资源标识为非阻塞(非关键)资源并仅在需要时加载它们的策略

这种策略在我们爬虫时需要注意的是,页面在加载出来的时候的标签可能是错误的,因此我们常常需要在页面加载后查看页面观察页面标签的变化,但是我们的选择是刚开始的标签而非懒加载后的标签!

JsonPath 

需要注意的是JsonPath只能对本地文件进行操作

具体语法可参考JSONPath-简单入门

下面是样例演示

这里是爬取淘票票网站的城市信息

首先在其页面请求得到对应的JSON对象的URL

这里为了验证其是否存在反爬,我们输入其URL,发现并没有得到其数据,因此它有反爬

因此我们需要在header中添加更多的请求头来解决反爬

这样我们就得到JSON文件了 

 

 爬取成功

Selenium

Selenium是一个可以帮助我们更好地模拟浏览器功能,避免爬取的内容缺失的一个工具 

这里所谓的驱动与浏览器版本之间的映射表实际用处不大

演示样例

 此时content中便是页面的源码了


下面是对于页面元素的获取(参考这里)

首先找到想要的标签及其属性

from selenium import webdriver
from selenium.webdriver.common.by import By

url = 'https://www.baidu.com'
path = r'chromedriver.exe'
# 得到浏览器对象
browser = webdriver.Chrome()

browser.get(url)
#通过ID查找
# ele=browser.find_elements(By.ID,'kw')

#通过CSS选择器查找
# ele=browser.find_elements(By.CSS_SELECTOR,'#kw')

#通过XPATH查找
# ele=browser.find_elements(By.XPATH,'//input[@id="kw"]')

#通过属性name查找
# ele=browser.find_elements(By.NAME,'wd')

#通过class查找
# ele=browser.find_elements(By.CLASS_NAME,'s_ipt')

#通过标签文本查找
# ele=browser.find_elements(By.LINK_TEXT,'贴吧')

#通过标签名查找
# ele=browser.find_elements(By.TAG_NAME,'input')
print(ele)

元素信息的获取

按照前面所学获取到目标标签之后使用其方法及属性即可获取该标签的信息 


selenium的交互

我们在使用selenium操作浏览器的时,还可以与浏览器进行交互

如下:我们打开百度首页后操作浏览器输入“周杰伦”,并搜索,之后操作滚动条到底部点击下一页,再回退到上一页,再进入下一页

import selenium.webdriver
import time
from selenium.webdriver.common.by import By

url='https://www.baidu.com'

browser=selenium.webdriver.Edge()
#打开页面
browser.get(url)

time.sleep(2)

inputEle=browser.find_element(By.ID,"kw")
#输入周杰伦
inputEle.send_keys("周杰伦")

time.sleep(2)

baiduEle=browser.find_element(By.ID,"su")
#点击百度一下
baiduEle.click()

time.sleep(2)

#JS脚本
js="document.documentElement.scrollTop=100000"
browser.execute_script(js)
#滑动到底部

time.sleep(2)

next=browser.find_element(By.XPATH,"//a[@class='n']")
#点击下一页
next.click()

time.sleep(2)
#回到上一页
browser.back()

time.sleep(2)
#回到下一页
browser.forward()

time.sleep(2)
#退出浏览器
browser.quit()

input()

无界面浏览器handless的使用

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

def share_browser():
    chrome_option = Options()
    chrome_option.add_argument('--headless')
    chrome_option.add_argument('--disable-gpu')

    # path是你自己的chrome浏览器的文件路径
    path = r'C:\Program Files\Google\Chrome\Application\chrome.exe'
    chrome_option.binary_location = path

    browser = webdriver.Chrome(options=chrome_option)
    return browser

获取浏览器对象的代码是固定的,具体的模板如上

后面我们得到浏览器对象browser后即可正常按照前面所学进行爬虫操作

requests基本使用

 


requests的get请求

import requests

url='https://www.baidu.com/s'

header={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.43'
}

data={
    'wd':'北京'
}
# get方法有三个参数
# url为请求资源路径
# params为参数
# kwargs为字典
response=requests.get(url=url,params=data,headers=header)

print(response.text)

对比urllib的使用,我们可以发现,requests不需要请求对象的定制,且参数无需进行urlencode编码,而参数是使用params进行传递


requests的post请求

import requests

url='https://fanyi.baidu.com/v2transapi?from=en&to=zh'

header={
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.5359.95 Safari/537.36"
}

data={
    'from': 'en',
    'to': 'zh'
}

response=requests.post(url=url,headers=header,data=data)

content=response.text

import json

obj=json.loads(content)

print(obj)

上面的代码是对百度翻译的某个请求进行爬取的代码示例

可以看到post请求无需编解码,且post请求的参数是data,也无需请求对象的定制


requests的代理使用

import requests

url='http://www.baidu.com/s?'

header={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.43'
}

data={
    'wd':'周杰伦'
}

proxy={
    'http':'183.236.232.160:8080'
}
#直接在参数中加入我们的代理ip字典即可
response=requests.get(url=url,headers=header,params=data,proxies=proxy)

print(response.text)

requests只需将我们的ip作为字典传入get方法中即可


古诗文网登录样例(requests的cookie登录)

需求为越过登录页面进入到个人信息页面

首先我们需要找到“登录”的请求

这里有个技巧即我们故意输入错误的信息

这样我们就捕获到了上图所示的登录请求

可以观察到该POST请求的参数如上图所示, 

 观察到前面两个参数我们并不认识并且它们是可变的,这里的技巧是“一般这种我们不认识的参数可能是页面源码中的隐藏标签”

 可以看到我们在页面源码中找到了这两个标签,因此这两个参数的值我们可以使用解析工具Xpath得到即可

 接着我们只需要再得到验证码参数的值即可,首先再页面源码中得到验证码的来源

 接着下载图片即可

注意这里不能使用urllib的urlretrieve方法,因为这样会导致其向服务器发送一次请求,导致验证码改变,即我们获取的验证码不是当前的验证码了,而我们后面使用获取的参数登录时也会失败

这里要使用requests的session方法,该方法可以使得请求变为一个对象

参考

import requests
from lxml import etree

url='https://so.gushiwen.cn/user/login.aspx?from=http%3a%2f%2fso.gushiwen.cn%2fuser%2fcollect.aspx'

header={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.43'
}

response=requests.post(url=url,headers=header)

content=response.text

tree=etree.HTML(content)

#得到隐藏标签属性值
value1=tree.xpath("//input[@id='__VIEWSTATE']/@value")[0]
value2=tree.xpath("//input[@id='__VIEWSTATEGENERATOR']/@value")[0]

img_url='https://so.gushiwen.cn/RandCode.ashx'

session=requests.session()
#发送请求
response_img=session.get(img_url)
#注意这里是图片,因此要使用content存储二进制
content_img=response_img.content

with open('code.jpg','wb') as fp:
    fp.write(content_img)

code=input()

data={
    '__VIEWSTATE': value1,
    '__VIEWSTATEGENERATOR': value2,
    'from': 'http://so.gushiwen.cn/user/collect.aspx',
    'email': 你的正确账号,
    'pwd': 你的正确密码,
    'code': code,
    'denglu': '登录'
}

response_post = session.post(url=url,headers=header,data=data)

content_post=response_post.text

with open('res.html','w',encoding='utf-8') as fp:
    fp.write(content_post)

实际上在企业的开发中我们并不会像上面那样自己人为输入验证码,而是我们会自己实现图像识别或者是外包给第三方进行图像识别

scrapy

什么是scrapy?

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,可以应用在包括数据挖掘,信息处理或存储历史数据等一系列程序中


安装scrapy

pip install scrapy

创建爬虫的项目

scrapy startproject 项目的名字

注意:项目的名字不能以数字开头且不能包含中文

项目结构具体如下:


创建爬虫文件

要在spiders文件夹中去创建爬虫文件

scrapy genspider 爬虫文件的名字 要爬取的网页


运行爬虫代码

scrapy crawl 爬虫的名字

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/32176.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

前端页面的性能测试

目录 前言: 介绍 Lighthouse Cypress和Lighthouse 总结 前言: 前端页面性能测试是指对前端页面的响应时间、加载速度、页面交互性等方面进行测试和评估。 介绍 随着 Web 应用的空前发展,前端业务逐渐复杂,为了处理这些复杂…

编程的未来 - 还有未来么?

缘起 唐门教主上个月某天深夜写了一篇博客 --《编程的未来》,要我谈谈感想。 这也是最近软件工程师们聊得比较多的问题,上周,在上海的 “关东小磨” 和十多位 CSDN 博主聚会的时候,大家也稍微谈了一下这个话题,但是谈…

Vue-全局事件总线(GlobalEventBus)

全局事件总线(GlobalEventBus) 全局事件总线是vue中特别厉害的一种组件中通信的方式,它可以实现任意组件中通信,随便拿出来两个组件就能互通数据,就像对讲机一样,它在开发中用的也是特别的多 1 编写案例 首先准备两个组件&…

diffusion model(三)—— classifier guided diffusion model

classifier guided diffusion model 背景 对于一般的DM(如DDPM, DDIM)的采样过程是直接从一个噪声分布,通过不断采样来生成图片。但这个方法生成的图片类别是随机的,如何生成特定类别的图片呢?这就是clas…

【Vue】Vite基础学习

文章目录 Vite 基础学习一、单页面应用程序二、Vite 基本使用2.1 创建 vite 项目2.2 项目结构2.3 项目运行流程 Vite 基础学习 一、单页面应用程序 单页面应用程序(英文名:Single Page Application)简称 SPA,顾名思义&#xff0c…

Server - 配置安装 Git LFS | BWM-NG | Tmux | BOS 等命令

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/131302104 构建实验Docker: nvidia-docker run -it --name git-lfs-[your name] --nethost -p [port]:[port] -v [nfs path…

基于Python+Django+mysql+html图书管理系统

基于PythonDjangomysqlhtml图书管理系统 一、系统介绍二、功能展示1.用户登陆2.用户注册3.密码修改4.图书查询5.图书添加6.图书修改7.图书删除 三、其它系统四、获取源码 一、系统介绍 该系统实现了 用户登陆、用户注册、密码修改、图书查询、图书添加,图书修改、图…

大厂OKR管理法:公开透明是最大特点

大厂OKR管理法:公开透明是最大的特点 仔细想,这是一件破天荒的事情 企业内部大部分的任务“公开透明” 公开透明会减少巨大的沟通成本 每个人的关键任务几乎是全部公开 估计少数的财务、人事、公关方面的不会 趣讲大白话:公开透明损耗少 【趣…

尚硅谷甄选--(暂时不更新,实习,后期有时间更)

文章目录 搭建后台管理系统模板项目的资源地址项目初始化2.1.1环境准备2.1.2初始化项目2.2项目配置一、eslint配置1.1vue3环境代码校验插件1.2修改.eslintrc.cjs配置文件1.3.eslintignore忽略文件1.4运行脚本 二、配置**prettier**2.1安装依赖包2.2.prettierrc.json添加规则2.3…

高速电路设计系列分享-熟悉JESD204B(上)

目录 概要 整体架构流程 技术名词解释 技术细节 1.应用层 2.传输层 小结 基本概要 随着高速ADC跨入GSPS范围,与FPGA(定制ASIC)进行数据传输的首选接口协JESD204B。为了捕捉频率范围更高的RF频谱,需要宽带RFADC。在其推动下,对于能够捕捉更宽带…

SpringBoot3 快速入门及原理分析

1. 环境要求 环境&工具版本SpringBoot3.0.5IDEA2021.2.1Java17Maven3.5Tomcat10.0 2. SpringBoot是什么 SpringBoot 能帮我们简单、快速地创建一个独立的、生产级别的 Spring 应用(说明:SpringBoot底层是Spring) SpringBoot 应用只需…

【复杂网络建模】——基于微博数据的影响力最大化算法(PageRank)

🤵‍♂️ 个人主页:Lingxw_w的个人主页 ✍🏻作者简介:计算机科学与技术研究生在读 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 &#x1f4a…

【吴恩达deeplearning.ai】基于LangChain开发大语言应用模型(下)

以下内容均整理来自deeplearning.ai的同名课程 Location 课程访问地址 DLAI - Learning Platform Beta (deeplearning.ai) LangChain for LLM Application Development 基于LangChain开发大语言应用模型(上) 一、LangChain: Q&A over Documents基于文…

MySQL进阶SQL语句2之表连接

目录 1.连接查询 1.1inner(内连接) 1.2left join(左连接) 1.3right join(右连接) 1.4直接查询两个表相同的字段值的数据 2. VIEW(视图) 2.1create view(创建视图…

3.CSS 的背景

通过CSS背景属性,可以给页面元素添加背景样式。 背景属性可以设置背景颜色、背景图片、背景平铺、背景图片位置、背景图像固定等。 3.1背景颜色 background-color属性定义了元素的背景颜色 background-color:颜色值;一般情况下元素背景颜色默认值是transparent(透…

MySQL数据库主从复制与读写分离(图文详解!)

目录 前言 一:MySQL数据库主从复制与读写分离 1、什么是读写分离? 2、为什么要读写分离呢? 3、什么时候要读写分离? 4、主从复制与读写分离 5、mysql支持的复制类型 (1)STATEMENT (2&…

云原生时代数据治理的变革与创新

随着数字化进程的深入,企业对数据的依赖日益加深,数据资源的重要性愈发凸显。如何管好、用好数据,做好数据治理工作,发挥数据资源价值,成为企业提质增效过程中的重要议题。 在本次直播中,我们介绍了数据治…

计算机网络管理- SNMP协议报文和报文格式分析,SNMP PDU分析

⬜⬜⬜ 🐰🟧🟨🟩🟦🟪(*^▽^*)欢迎光临 🟧🟨🟩🟦🟪🐰⬜⬜⬜ ✏️write in front✏️ 📝个人主页:陈丹宇jmu &am…

【MongoDB】五、MongoDB分片集群的部署

【MongoDB】五、MongoDB分片集群的部署 实验目的实验内容实验步骤环境准备部署 Config server配置Config Server副本集部署Shard部署mongos启动分片功能查看分片信息 实验小结 实验目的 能够通过部署MongoDB分片集群熟悉MongoDB分片集群架构和基本操作,从而解决大数…

在spring事务中扩展业务操作;spring事务同步器TransactionSynchronizationManager

概述 业务上经常会有一些需求是需要在某个数据库操作事务提交之后再去操作。 我常用的就方式有TransactionalEventListener和TransactionSynchronizationManager. 其实TransactionalEventListener背后使用的也是TransactionSynchronizationManager。 注意点:在a…