python爬虫之xpath4

1 最终项目实现的代码

仙剑

#!/usr/bin/env python
​
import logging
import requests
import re
from urllib.parse import urljoin
import pymongo
import multiprocessing
​
mongo_client = pymongo.MongoClient("mongodb://192.168.135.131:27017/")
db = mongo_client["wy_movies"]
collection = db["movies"]
​
logging.basicConfig(level=logging.INFO,
                    format='%(asctime)s - %(levelname)s - %(message)s')
​
BASE_URL = 'https://ssr1.scrape.center'
TOTAL_PAGE = 10
​
#抓取某一页面的内容
def scrape_index(page):
    index_url = f'{BASE_URL}/page/{page}'
    return scrape_page(index_url)
​
#定义一个函数抓取网页的内容    
def scrape_page(url):
    logging.info("正在抓取 %s.....",url)
    #发起get请求
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        else:
            logging.error("抓取 %s 时返回无效的状态码 %s",url,response.status_code)
    except requests.RequestException :
        #如果发生异常,就报错
        logging.error("抓取%s时发生异常",url,exc_info=True) 
        
#解析内容,并提取出详情页面的url
def parse_index(html):
    #用正则把连接给提取出来
    # print(type(html))
    pattern = re.compile('<a.*href="(.*?)".*?class="name">')
    items = re.findall(pattern,html)
    # print(items)
    if not items:
        return []
    for item in items:
        #把相对链接转为绝对链接           
        detail_url = urljoin(BASE_URL,item)
        # print(detail_url)
        logging.info('找到详情页面了,链接%s',detail_url)
        yield detail_url
​
def scrape_detail(url):
    return scrape_page(url)        
        
def parse_detail(html):
    
    cover_pattern = re.compile(
        'class="el-col.*?<img.*?src="(.*?)".*?class="cover">', re.S)
    
    # cover_pattern = re.compile(
    #     '<img.*?src="(.*?)".*?class="cover">', re.S)
    name_pattern = re.compile('<h2.*?>(.*?)</h2>')
    categories_pattern = re.compile(
        '<button.*?category.*?<span>(.*?)</span>.*?</button>', re.S)
    published_at_pattern = re.compile('(\d{4}-\d{2}-\d{2})\s?上映')
    drama_pattern = re.compile('<div.*?drama.*?>.*?<p.*?>(.*?)</p>', re.S)
    score_pattern = re.compile('<p.*?score.*?>(.*?)</p>', re.S)
​
    cover = re.search(cover_pattern, html).group(1).strip() if re.search(cover_pattern, html) else None
    name = re.search(name_pattern, html).group(1).strip() if re.search(name_pattern, html) else None
    categories = re.findall(categories_pattern, html) if re.findall(categories_pattern, html) else []
    published_at = re.search(published_at_pattern, html).group(1) if re.search(published_at_pattern, html) else None
    drama = re.search(drama_pattern, html).group(1).strip() if re.search(drama_pattern, html) else None
    score = float(re.search(score_pattern, html).group(1).strip()) if re.search(score_pattern, html) else None
    # print(type(cover))
    return {
        'cover': cover,
        'name': name,
        'categories': categories,
        'published_at': published_at,
        'drama': drama,
        'score': score
    }   
​
def save_data(data):
    collection.insert_one(data)
    logging.info("数据保存到mongodb成功!!!!")
        
def main(page):
    # for page in range(1,TOTAL_PAGE+1):
    index_html = scrape_index(page)
    detail_urls = parse_index(index_html)
    for detail_url in detail_urls:
        detail_html = scrape_detail(detail_url)
        data = parse_detail(detail_html)
        logging.info('get detail data %s', data)
        save_data(data=data)
        logging.info('data saved successfully')
​
def run_main(page):
    main(page)            
​
if __name__ == '__main__':
    #获取CPU的核心数量
    num_process = multiprocessing.cpu_count()
    #创建进程池
    pool = multiprocessing.Pool(num_process)
    #要抓取的页面数量
    page_to_scrape = list(range(1,TOTAL_PAGE+1))
    #使用进程池运行
    pool.map(run_main,page_to_scrape)
    #关闭进程池
    pool.close()    

结果

2 xpath

2.1 xpath介绍

XPath是一种在XML或HTML文档中查找信息的强大语言,通过简洁的路径表达式和丰富的内置函数,能够精确定位并提取文档中的特定节点或内容。而HTML解析器的原理则在于将HTML文档转化为易于程序操作的DOM树形结构,通过词法分析和语法分析将文档分解为标记并组合成节点,最终构建出完整的DOM树,从而实现对HTML内容的解析和提取。在Python中,我们常结合如BeautifulSoup和lxml等库来使用XPath,这些库不仅内置了对XPath的支持,还提供了高效的解析和查询机制,使得处理HTML文档变得简单而高效。

2.2 xpath案例

案例1

#! /usr/bin/env python  
  
# 导入html模块,用于处理HTML实体编码  
import html  
  
# 导入lxml库的etree模块,用于解析HTML和XML  
from lxml import etree  
  
# 定义一段HTML文本  
text = """  
    <div>  
        <ul>  
            <li class="item-0"><a href="link1.html">1-item</a></li>  
            <li class="item-1"><a href="link2.html">2-item</a></li>  
            <li class="item-0"><a href="link3.html">3-item</a></li>  
            <li class="item-1"><a href="link4.html">4-item</a></li>  
            <li class="item-1"><a href="link5.html">5-item</a></li>  
            <li class="item-0"><a href="link6.html">6-item</a></li>  
        </ul>  
    </div>  
"""  
  
# 1. 使用etree.HTML方法将HTML文本解析成一个Element对象  
# 这个Element对象代表整个HTML文档结构,可以进一步查询和操作  
html = etree.HTML(text)  
  
# 2. 使用etree.tostring()方法将Element对象再次转换为HTML文本  
# 这个方法返回的是字节串,所以需要使用decode('utf-8')来解码为字符串  
result = etree.tostring(html)  
  
# 打印转换后的HTML文本  
print(result.decode('utf-8'))  
  
# 打开一个名为'a.html'的文件,以写入模式打开  
with open('a.html', 'w') as file:  
    file.write(text)  
​
  
​

结果

案例2

#!/usr/bin/env python  
  
# 导入html模块,用于处理HTML实体编码,但在这个示例中并未实际使用  
import html  
  
# 导入lxml库的etree模块,用于解析HTML和XML  
from lxml import etree  
  
# 使用etree.parse方法和etree.HTMLParser()解析器来解析名为'a.html'的文件  
# etree.parse方法返回一个ElementTree对象,它代表整个HTML文档的结构  
html = etree.parse('a.html', etree.HTMLParser())  
  
# 使用etree.tostring方法将ElementTree对象转换为字节串形式的HTML文本  
# 这个方法返回的是字节串,所以需要使用decode('utf-8')来解码为字符串  
result = etree.tostring(html, pretty_print=True)  # 添加pretty_print=True可以美化输出格式  
  
# 打印转换后的HTML文本  
print(result.decode('utf-8'))  

结果

案例3

#!/usr/bin/env python  
  
# 导入lxml库,虽然这里直接导入了lxml,但实际上只需要使用etree模块  
import lxml  

  
# 从lxml库中导入etree模块,用于解析HTML和XML  
from lxml import etree  
  
# 创建一个自定义的HTML解析器  
# remove_comments=True: 解析时移除HTML中的注释  
# recover=True: 尝试修复不规范的HTML代码  
# remove_blank_text=True: 移除空白文本节点  
parser = etree.HTMLParser(remove_comments=True, recover=True, remove_blank_text=True)  
  
# 使用etree.parse方法和自定义的解析器来解析名为'a.html'的文件  
# 解析后返回一个ElementTree对象,它代表整个HTML文档的结构  
html = etree.parse('a.html', parser)  
  
# 使用etree.tostring方法将ElementTree对象转换为字节串形式的HTML文本  
# 注意:这里应该添加pretty_print=True以美化输出格式  
result = etree.tostring(html, pretty_print=True)  
  
# 打印转换后的HTML文本  
# 使用decode('utf-8')将字节串解码为字符串  
print(result.decode('utf-8'))  
  

案例4 使用xpath进行查询

#!/usr/bin/env python  
  
# 导入html模块,虽然在这个脚本中并未使用到,可能是为了演示或其他部分使用的。  
import html  
  
# 导入lxml库中的etree模块,用于解析HTML或XML文档。  
from lxml import etree  
  
# 使用etree.parse函数和etree.HTMLParser()来解析名为'a.html'的文件。  
# 这里'a.html'应该是一个包含HTML内容的文件。  
html = etree.parse('a.html', etree.HTMLParser())  
  
# 使用XPath查询语言,'//*'是一个XPath表达式,表示选取文档中所有的节点。  
# 无论节点的类型(比如元素、属性、文本等)或名称是什么,都会被选取。  
result = html.xpath('//*')  
  
# 打印查询结果,result将是一个列表,包含文档中所有的节点。  
print(result)

结果

案例5

#!/usr/bin/env python 
​
import html
from lxml import etree
​
html = etree.parse('a.html',etree.HTMLParser())
result = html.xpath('//li')
print(result)

案例6

#!/usr/bin/env python 
​
import html
from lxml import etree
​
html = etree.parse('a.html',etree.HTMLParser())
#使用xpath语法选取所有位于li标签内的a标签
result = html.xpath('//li//a')
print(result)
​

案例7

#!/usr/bin/env python 
​
import html
from lxml import etree
​
html = etree.parse('a.html',etree.HTMLParser())
# 使用XPath查询语言查询文档中所有class属性值为'item-0'的li元素。
result = html.xpath("//li[@class='item-0']")
print(result)

案例8

#!/usr/bin/env python 
​
import html
from lxml import etree
​
html = etree.parse('a.html',etree.HTMLParser())
# XPath表达式'//a[@href="link6.html"]/parent::*/@class'的作用是:  
# 1. '//a[@href="link6.html"]':查找所有href属性值为"link6.html"的<a>标签。  
# 2. '/parent::*':选取这些<a>标签的父元素,'*'表示任意类型的父元素。  
# 3. '/@class':从选取的父元素中获取class属性的值。  
result = html.xpath('//a[@href="link6.html"]/parent::*/@class')
print(result)

案例9

#!/usr/bin/env python 
​
import html
from lxml import etree
​
html = etree.parse('a.html',etree.HTMLParser())
# XPath表达式"//li[@class='item-1']/a/text()"的作用是:  
# 1. "//li[@class='item-1']":查找所有class属性值为'item-1'的<li>标签。  
# 2. "/a":从这些<li>标签中选择直接子元素<a>。  
# 3. "/text()":从这些<a>标签中提取文本内容。
result = html.xpath("//li[@class='item-1']/a/text()")
print(result)

案例10

#!/usr/bin/env python 
​
import html
from lxml import etree
​
html = etree.parse('a.html',etree.HTMLParser())
result = html.xpath('//li/a/@href')
print(result)

案例11

#!/usr/bin/env python 
​
import html
from lxml import etree
​
text = '''
    <li class="li item-0"><a href="link1.html">1-item</a></li>
'''
​
html = etree.HTML(text)
result = html.xpath('//li[contains(@class,li)]/a/text()')
print(result)

案例12

#!/usr/bin/env python   
  
# 导入html模块,虽然在这个脚本中并未使用到,但通常用于处理HTML字符串  
import html  
  
# 导入lxml库中的etree模块,用于解析HTML字符串  
from lxml import etree  
  
# 定义一个包含HTML内容的字符串  
text = '''  
    <li class="li item-0" name="wuyue"><a href="link1.html">1-item</a></li>  
    <li class="li item-0"><a href="link1.html">2-item</a></li>  
'''  
  
# 使用etree.HTML()函数将字符串解析为HTML对象  
html = etree.HTML(text)  
  
# 使用XPath查询语言来查找匹配的元素  
# XPath表达式'//li[contains(@class,li) and @name="wuyue"]/a/text()'的意思是:  
# 1. //li:选择所有<li>标签  
# 2. [contains(@class,li) and @name="wuyue"]:条件筛选,只选取class属性中包含"li"且name属性值为"wuyue"的<li>标签  
# 3. /a:选择这些<li>标签下的直接子元素<a>  
# 4. /text():提取这些<a>标签内的文本内容  
result = html.xpath('//li[contains(@class, "li") and @name="wuyue"]/a/text()')  
  
# 打印查询结果,result是一个包含匹配到的<a>标签内文本内容的列表  
print(result)

案例13

#!/usr/bin/env python 
​
import html
from lxml import etree
​
html = etree.parse('a.html',etree.HTMLParser())
#只要第一个li节点里面的a元素的文本
result = html.xpath('//li[1]/a/text()')
# print(result)
#只要第最后一个li节点里面的a元素的文本
result = html.xpath('//li[last()]/a/text()')
# print(result)
#查询前两元素下的a标签的文本内容
result = html.xpath('//li[position()<3]/a/text()')
# print(result)
#查询倒数第三个呢
result = html.xpath('//li[last()-2]/a/text()')
print(result)

2.3 xpath综合性练习小项目

#!/usr/bin/env python   
  
# 导入html模块,但在这个脚本中实际上并未使用到html模块的功能  
import html  
  
# 从lxml库中导入etree模块,用于解析HTML字符串  
from lxml import etree  
  
# 定义一个包含HTML内容的字符串  
html = '''  
    <html>  
    <body>  
        <div class="item" id="item1">item 1</div>  
        <div class="item" id="item2">item 2</div>  
        <div class="item" id="item3">item 3</div>  
        <div class="price">price:$50</div>  
    </body>  
</html>  
'''  
  
# 使用etree.HTML()函数将字符串解析为HTML对象  
tree = etree.HTML(html)  
  
# 此处注释了几个XPath查询示例,它们演示了如何使用XPath查询不同的内容  
  
# 查询价格大于40的div内容(此查询无法正常工作,因为XPath无法直接对文本进行数值比较)  
# xpth_exp = '//div[contains(text(),"$") and number(substring-after(text(),"$")) > 40]/text()'  
# result = tree.xpath(xpth_exp)  
# print(result)  
  
# 查询第二个div元素的内容  
# xpth_exp = '//div[position()=2]/text()'  
# result = tree.xpath(xpth_exp)  
# print(result)  
  
# 查询第一个div元素的内容和最后一个div的内容  
# 使用'|'操作符可以同时查询多个XPath表达式,并将结果合并  
xpth_exp = '//div[position()=1]/text() | //div[position()=last()]/text()'  
  
# 执行XPath查询  
result = tree.xpath(xpth_exp)  
  
# 打印查询结果,result是一个包含匹配到的div元素内文本内容的列表  
print(result)

3 xpath项目:

3.1 需求:

1.抓图片and名称 2.抓到图片and名称后 3.保存到本地 4.从本地发送到远程文件服务器 (是一个中项目)

3.2 xpath项目1

对图片进行抓取

#!/usr/bin/env python
import requests
from lxml import etree
import logging
import random
from fake_useragent import UserAgent
import os
​
ua = UserAgent()
logging.basicConfig(level=logging.INFO,
                    format='%(asctime)s - %(levelname)s : %(message)s')
​
url = 'https://www.4399dmw.com/search/dh-1-0-0-0-0-0-0/'
filepath = "D:\\code\\html\\http_proxies.txt"
​
def read_proxy_file(filepath):
    proxy_list = []
    try:
        with open(filepath,'r') as file:
            for line in file:
                if line:
                    proxy_list.append(line.strip())
    except FileExistsError:
        logging.error("文件未找到")
    except Exception as e:
        logging.error(f"发生错误:{e}")   
        
    return proxy_list
​
def get_proxy():
    proxy = random.choice(read_proxy_file(filepath))
    return {"http":proxy}       
​
#下载图片并保存到本地
def save_image(img_url,img_name):
    headers = {
        "User-Agent":ua.random,
        "Cookie":"UM_distinctid=18a97aab8cf882-083b9875fb34fe-7f5d5476-1bcab9-18a97aab8d0d81; Hm_lvt_6bed68d13e86775334dd3a113f40a535=1695364979,1695696815,1695798201,1695816352; a_180_90_index=2; CNZZDATA3217746=cnzz_eid%3D924600740-1694761663-%26ntime%3D1695816461; Hm_lpvt_6bed68d13e86775334dd3a113f40a535=1695816461; a_200_90_index=4; a_980_90_index=1",
        "Referer":"https://www.4399dmw.com/donghua/"
    }
    try:
        img = requests.get(url=img_url,headers=headers)
        iamge_name = img_name + ".jpg"
        with open(iamge_name,'ab') as f:
            f.write(img.content)
    except Exception as e:
        logging.error(e)    
        
def mk_dir(path):
    #判断这个目录是否存在  
    #os.path.exists判断是否存在路径
    #os.path.join连接路径和文件名
    is_exist = os.path.exists(os.path.join('D:\\code\\html\image_dir',path))
    if not is_exist:
        #创建文件夹
        os.mkdir(os.path.join('D:\\code\\html\\image_dir',path))
        os.chdir(os.path.join('D:\\code\\html\\image_dir',path))
        return True
    else:
        os.chdir(os.path.join('D:\\code\\html\\image_dir',path))
        return True  
    
def next_page(html):
    next_url = html.xpath('//a[@class="next"]/@href')
    #拼接
    if next_url:
        next_url = "https://www.4399dmw.com/" + next_url[0]
        return next_url
    else:
        return False               
​
def spider_4399dmw(url):
    # 图片的xpath 
    # result = html.xpath('//div[@class="lst"]/a[@class="u-card"]/img/@data-src')
    #title的xpath
    #html.xpath('//div[@class="lst"]/a[@class="u-card"]/div[@class="u-ct"]/p[@class="u-tt"]/text()')
    headers = {
        "User-Agent":ua.random,
        "Cookie":"UM_distinctid=18a97aab8cf882-083b9875fb34fe-7f5d5476-1bcab9-18a97aab8d0d81; Hm_lvt_6bed68d13e86775334dd3a113f40a535=1695364979,1695696815,1695798201,1695816352; a_180_90_index=2; CNZZDATA3217746=cnzz_eid%3D924600740-1694761663-%26ntime%3D1695816461; Hm_lpvt_6bed68d13e86775334dd3a113f40a535=1695816461; a_200_90_index=4; a_980_90_index=1",
        "Referer":"https://www.4399dmw.com/donghua/"
    }
    
    logging.info("开始爬取: "+url)
    resp=requests.get(url=url,headers=headers,proxies=get_proxy())
    html_text = resp.content.decode('utf-8')
    html = etree.HTML(html_text)
    page = html.xpath('//span[@class="cur"]/text()')
    mk_dir("第"+page[0]+"页")
    #title的xpath
    title = html.xpath('//div[@class="lst"]/a[@class="u-card"]/div[@class="u-ct"]/p[@class="u-tt"]/text()')
    #image的xpath
    image_src = html.xpath('//div[@class="lst"]/a[@class="u-card"]/img/@data-src')
    #讲链接前面拼上http
    image_url = []
    for i in image_src:
        image_url.append("http:"+i)
    #保存图片
    #1.请求图片的url
    #2.将请求的内容保存成图片
    for nurl,ntitle in zip(image_url,title):
        save_image(nurl,ntitle)
    if next_page(html=html):
        spider_4399dmw(next_page(html))
    else:
        logging.warning("已完成,无法找到下一页")    
        
        
             
    
spider_4399dmw(url)    
# read_proxy_file(filepath)
# logging.warning(get_proxy())

3.3.xpath项目2

对图片进行抓取下载到本地以及服务器上

import os
import paramiko
​
# 远程服务器的连接信息
hostname = '192.168.135.131'  # 远程服务器的IP地址或主机名
port = 22  # SSH连接的端口号,默认为22
username = 'root'  # SSH连接的用户名
password = '123456'  # SSH连接的密码(或者可以使用密钥认证)
​
# 本地图片文件夹路径
local_image_folder = 'D:\\code\\html\\image_dir'  # 本地图片文件夹的路径
​
# 远程服务器上的目标路径,可以根据需要进行更改
remote_target_path = '/root/spider_img/'  # 远程服务器上存储图片的目标路径
​
def upload_images_recursively(local_folder, remote_folder, ssh_client):
    # 打开SFTP连接
    with ssh_client.open_sftp() as sftp:
        # 递归遍历本地文件夹及其子文件夹
        for root, _, files in os.walk(local_folder):
            for filename in files:
                # 检查文件是否以指定图片文件扩展名之一结尾
                if filename.endswith(('.jpg', '.jpeg', '.png', '.gif', '.bmp')):
                    local_filepath = os.path.join(root, filename)  # 获取本地文件的完整路径
                    
                    # 构建远程服务器上的文件路径,使用相对路径并连接到远程基础路径
                    relative_path = os.path.relpath(local_filepath, local_folder)
                    remote_filepath = os.path.join(remote_folder, relative_path)
                    
                    # 输出上传信息,包括本地文件路径和远程文件路径
                    print(f'Uploaded: {local_filepath} to {hostname}:{remote_filepath}')
                    
                    # 创建远程文件夹以确保上传路径存在
                    remote_folder = os.path.dirname(remote_filepath)
                    sftp.mkdir(remote_folder)
                    
                    # 上传文件到远程服务器
                    sftp.put(local_filepath, remote_filepath)
​
try:
    # 建立SSH连接
    ssh_client = paramiko.SSHClient()
    ssh_client.set_missing_host_key_policy(paramiko.AutoAddPolicy())  # 设置自动添加远程主机密钥策略
    ssh_client.connect(hostname, port, username, password)  # 连接到远程服务器
​
    # 调用递归函数上传所有图片文件
    upload_images_recursively(local_image_folder, remote_target_path, ssh_client)
​
    print(f'All images successfully uploaded to {hostname}:{remote_target_path}')
​
except Exception as e:
    print(f'Error: {e}')  # 捕获并打印任何异常信息
​
finally:
    ssh_client.close()  # 最终关闭SSH连接               

结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/571976.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

短视频评论ID批量爬虫提取获客软件|视频评论下载采集工具

短视频评论批量抓取软件&#xff1a;智能拓客&#xff0c;精准抓取用户反馈 主要功能一览 1. 智能抓取任务创建&#xff1a; 软件提供了任务创建功能&#xff0c;用户只需输入任务名称、搜索关键词以及评论监控词&#xff0c;即可开始智能抓取。不仅能够搜索关键词匹配的视频…

【学习记录】autoware标定相机与激光雷达外参

一、autoware选择 这里踩了好几个坑&#xff0c;首先autoware作为一个无人驾驶知名框架&#xff0c;其内部实际上是有两套标定的东西的&#xff0c;这一点绝大多数博客没有提到。其中最常用的是一个叫标定工具箱的东西&#xff0c;这个ros包已经在1.10往后的版本中被删掉了&am…

全彩屏负氧离子监测站的使用

TH-FZ5在繁忙的都市生活中&#xff0c;我们往往忽视了一个至关重要的问题——空气质量。随着工业化的进程加速&#xff0c;空气污染已成为影响人们健康的一大隐患。为了实时监测和了解身边的空气质量&#xff0c;全彩屏负氧离子监测站应运而生&#xff0c;成为了我们守护呼吸健…

百篇博客 · 千里之行

时光荏苒流逝&#xff0c;白驹匆匆过隙&#xff0c;不知不觉间&#xff0c;Damon小智已经在CSDN上记录了第一百多篇文章。恰逢128天创作纪念日的此刻&#xff0c;我感慨良多&#xff0c;这百余篇博客不仅是我的创作历程&#xff0c;更见证了我在这五年技术生涯中走过心路历程。…

用友政务财务系统 FileDownload 任意文件读取漏洞复现

0x01 产品简介 用友政务财务系统具有多项核心功能,旨在满足各类组织的财务管理需求。首先,它提供了财务核算功能,能够全面管理企业的总账、固定资产、现金、应付应收等模块,实时掌握企业的财务状况,并通过科目管理、凭证处理、报表分析等功能为决策提供有力支持。 0x02 …

【WEEK9】 【DAY3】JSR303数据校验及多环境切换【中文版】

2024.4.24 Wednesday 目录 4.JSR303数据校验及多环境切换4.1.JSR303数据校验&#xff08;了解即可&#xff09;4.1.1.修改Person.java4.1.2.修改pom.xml&#xff08;添加依赖&#xff09;4.1.3.运行Springboot02ConfigApplicationTests.java进行测试4.1.4.使用数据校验&#x…

JavaScript系列------2

1. JS 数据类型&#xff1a; 基本数据类型&#xff1a;number数字型,string字符串型,boolean布尔型,undefined未定义型,null空类型 引用数据类型&#xff1a;object对象 js 是弱数据类型的语言&#xff0c;只有当我们赋值了才知道是什么数据类型。 声明一个变量未赋值就是 un…

智慧校园:大数据助力校情分析

随着信息技术的快速发展&#xff0c;数据信息资源以井喷的姿态涌现。数据信息的大量涌现给人们带来丰富的数据信息资源&#xff0c;但面对海量的信息资源时&#xff0c;加大了人们对有效信息资源获取的难度&#xff0c;数据挖掘技术正是这一背景下的产物&#xff0c;基于数据挖…

【安卓13】解决带GMS编译报super分区空间不足错误

1、错误信息 2、解决方案 不同供应商修改分区大小的文件路径不一样&#xff0c;但是万变不离其宗&#xff0c;根据报错信息全局搜索关键词BOARD_SUPER_PARTITION_SIZE 这里以RK供应商和AML供应商修改为例&#xff1a; &#xff08;1&#xff09;RK改法&#xff1a; 根目录下…

2024深圳杯数学建模竞赛D题(东三省数学建模竞赛D题):建立非均质音板振动模型与参数识别模型

更新完整代码和成品完整论文 《2024深圳杯&东三省数学建模思路代码成品论文》↓↓↓&#xff08;浏览器打开&#xff09; https://www.yuque.com/u42168770/qv6z0d/zx70edxvbv7rheu7?singleDoc# 2024深圳杯数学建模竞赛D题&#xff08;东三省数学建模竞赛D题&#xff0…

构建高效智能的理赔业务系统:保险科技的未来

随着保险行业的发展和科技的不断进步&#xff0c;理赔业务作为保险服务的重要环节&#xff0c;也在不断演进和改进。传统的理赔流程可能存在效率低下、信息不透明等问题&#xff0c;而现代化的理赔业务系统则能够通过数字化、智能化等手段提升理赔服务的质量和效率&#xff0c;…

【机器学习】朴素贝叶斯解决实际问题

之前写过这样一道题&#xff1a; 现在换成使用朴素贝叶斯解决这个问题 首先先了解一下朴素贝叶斯 这是之前课本里的笔记记录&#xff1a; 【机器学习笔记】朴素贝叶斯&#xff08;从先验分布到后验分布&#xff09;-CSDN博客 简单的讲解一下这道题需要的知识点 朴素贝叶斯是…

【ensp】网关冗余vrrp实验

备战中级网络工程师 目录 vrrp&#xff08;虚拟路由冗余技术&#xff09; 为什么会出现vrrp&#xff1f; 两个角色 选举流程 基本原理 VRRP 的两个定时器 VRRP 的主备切换 主备切换的条件 VRRP 主备回切 认证方式 冗余路由器 冗余核心交换机 vrrp&#xff08;虚拟路…

【04-提升模型性能:集成学习与超参数优化】

文章目录 前言集成学习BaggingBoosting超参数优化随机搜索贝叶斯优化总结前言 在前几篇博文中,我们已经介绍了一些机器学习的基础知识、Scikit-learn的核心工具与技巧,以及如何评估模型性能。本篇博文将重点讲解两个可以显著提升机器学习模型性能的高级策略:集成学习和超参数…

Github 2024-04-25Go开源项目日报Top10

根据Github Trendings的统计,今日(2024-04-25统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Go项目10Vue项目1Go编程语言:构建简单、可靠和高效的软件 创建周期:3474 天开发语言:Go协议类型:BSD 3-Clause “New” or “Revised” Lic…

基于spark进行数据分析的心力衰竭可视化大屏项目

基于spark进行数据分析的心力衰竭可视化大屏项目 项目背景 在当今的医疗领域&#xff0c;数据驱动的决策变得日益重要。心力衰竭作为常见的心血管疾病&#xff0c;其临床数据的分析对于改善患者治疗结果至关重要。本文将介绍如何利用Apache Spark进行大规模心力衰竭临床数据的…

浅谈免杀下的持久化

文章目录 前记注册表计划任务COM劫持后记reference 前记 实战中持久化的手段常用的就是加服务、添改注册表、加计划任务、劫持等&#xff0c;这里探索c/c下的维权免杀 注册表 用户级 \HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Run \HKEY_CURRENT_USER…

正则表达式.java

正则表达式的作用&#xff1a; ①可以校验字符串是否满足一定的规则&#xff0c;并用来校验数据格式的合法性&#x1f9f8; &#x1f9e9;[]:只能是括号里的字符 &#x1f9e9;[^]&#xff1a;除了括号里的字符 &#x1f9e9;[- -]:表示两段范围&#xff0c;满足其一即可 &a…

Linux系统内存持续飙高,如何排查

若一台服务器内存使用率持续处于高峰值&#xff0c;可能会导致响应慢&#xff08;如&#xff1a;ssh操作卡顿、用户访问失败或超时等&#xff09; 1.查看系统内存使用情况 free -m 2.查看哪些进程内存占用比较高 top 或htop 观察进程PID和命令确认是哪一个进程占用内存较高 …

Mogdb 5.0新特性:SQL PATCH绑定执行计划

前言 熟悉Oracle的dba都知道&#xff0c;生产系统出现性能问题时&#xff0c;往往是SQL走错了执行计划&#xff0c;紧急情况下&#xff0c;无法及时修改应用代码&#xff0c;dba可以采用多种方式针对于某类SQL进行执行计划绑定&#xff0c;比如SQL Profile、SPM、SQL Plan Base…