百日筑基篇——python爬虫学习(一)

百日筑基篇——python爬虫学习(一)

文章目录

  • 前言
  • 一、python爬虫介绍
  • 二、URL管理器
  • 三、所需基础模块的介绍
    • 1. requests
    • 2. BeautifulSoup
      • 1. HTML介绍
      • 2. 网页解析器
  • 四、实操
    • 1. 代码展示
    • 2. 代码解释
      • 1. 将大文件划分为小的文件
      • 2. 获得结果页面的url
      • 3. 获取结果页面,提取出所需信息
      • 4. 文件合并操作
  • 总结


前言

随着学习的深入,有关从各种不同的数据库中以及互联网上的海量信息,如何有选择性的爬取我们所需的数据以方便我们的数据分析工作,爬虫的学习是必要的。


一、python爬虫介绍

Python爬虫是指使用Python编程语言编写的程序,通过模拟浏览器行为从网页中提取数据的过程

主要用途包括:

  1. 数据采集:通过爬虫可以从互联网上收集大量的数据,如新闻、论坛帖子、商品信息等。

  2. 数据分析:爬虫可以获取特定网站或多个网站的数据,进行统计和分析。

  3. 自动化测试:爬虫可以模拟用户行为,自动化地访问网站,并检查网站的功能、性能等。

  4. 内容聚合:通过爬虫可以自动化地从多个网站上获取信息,并将其聚合成为一个平台,方便用户浏览。

二、URL管理器

是指对爬取URL进行管理,防止重复和循环爬取,方便新增URL和取出URL。

class UrlManager():
    """
   url管理器
    """
    def __init__(self):
        self.new_urls = set()
        self.old_urls = set()
    def add_newurl(self,url):
        if url is None or len(url) == 0:
            return
        if url in self.new_urls or url in self.old_urls:
            return
        self.new_urls.add(url)
    def add_newurls(self,urls):
        if urls is None or len(urls) == 0:
            return
        for url in urls:
            self.add_newurl(url)
    def get_url(self):
        if self.has_newurl():
            url = self.new_urls.pop()
            self.old_urls.add(url)
            return url
        else:
            return None
    def has_newurl(self):
        return len(self.new_urls) > 0

该类中创建了两个集合:new_urls和 old_urls ,分别表示新增url和已爬取完的url的存储集合。
定义了四个方法,

  1. add_newurl(self, url): 添加新的URL到new_urls集合中。如果URL为空或已经存在于new_urls或old_urls中,则不添加。
  2. add_newurls(self, urls): 批量添加URL到new_urls集合中。如果URL为空,则不添加。
  3. get_url(self): 从new_urls中获取一个未爬取的URL,将其移动到old_urls集合中,并返回该URL。如果new_urls为空,则返回None。
  4. has_newurl(self): 判断是否还有未爬取的URL。返回new_urls集合的长度是否大于0。

三、所需基础模块的介绍

1. requests

用于发送HTTP请求,并获取网页内容。

import requests
requests.post(url=,params=,data=,headers=,timeout=,verify=,allow_redirects=,cookies=)
#里面的参数依次代表请求的URL、查询参数、请求数据、请求头、超时时间、SSL证书验证、重定向处理和Cookies。


url = "https://wolfpsort.hgc.jp/results/pLAcbca22a5a0ccf7d913a9fc0fb140c3f4.html"

r = requests.post(url)
#查看状态码,200为请求成功
print(r.status_code)

#查看当前编码,以及改变编码
print(r.encoding)
r.encoding = "utf-8"
print(r.encoding)

#查看返回的网页内容
print(r.text)

#查看返回的http的请求头
print(r.headers)

#查看实际返回的URL
print(r.url)

#以字节的方式返回内容
print(r.content)

#查看服务端写入本地的cookies数据
print(r.cookies)

2. BeautifulSoup

用于解析HTML或XML等文档,提取所需的数据。

1. HTML介绍

HTML指的是超文本标记语言,一种用于创建网页结构的标记语言。它由一系列的元素(标签)组成,通过标签来描述网页中的内容和结构。

HTML标签:
是由< >包围的关键词,标签通常成对出现,且标签对中的第一个标签是开始标签,第二个则是结束标签,如下图所示:
请添加图片描述

在HTML语言中,标签中一般伴随着属性,比如:”id、class、herf等"

在这里插入图片描述

2. 网页解析器

导入 BeautifulSoup 模块
解析的一般步骤是:

  1. 得到HTML网页的文本
  2. 创建BeautifulSoup对象
  3. 搜索节点 (使用find_all或 find,前者返回满足条件的所有节点,后者返回第一个)
  4. 访问节点 (名称、属性、文字等)

示例代码如下:

base_url = "https://wolfpsort.hgc.jp/"

from bs4 import BeautifulSoup

with open("D:\python\PycharmProjects\pythonProject1\pachou\linshi.html", "r", encoding="utf-8") as f:
    html_doc = f.read()

soup = BeautifulSoup(
    html_doc,  # HTML文档字符串
    "html.parser",  # 解析器
)

#可以分区
div_node = soup.find("div",id ="content")
links= div_node.find_all("a")

# links = soup.find_all("a")
for link in links:
    print(link.name,base_url+link["href"],link.get_text())

imgs = soup.find_all("img")
for img in imgs:
    print(base_url+img["src"])


请添加图片描述
这是一个基于wolfpsort网页的页面内容的爬取,根据该网页的HTML文本,可以通过标签以及属性的设置,来获得我们所需的指定的节点,再获取节点中的内容,如"herf"等

四、实操

1. 代码展示

import time
from selenium import webdriver
from selenium.webdriver.common.by import By
import requests
import os
import pandas as pd


def split_gene_file(source_file, output_folder, genes_per_file):
    df = pd.read_csv(source_file, sep='\t')
    num_files = len(df) // genes_per_file + 1
    os.makedirs(output_folder, exist_ok=True)

    for i in range(num_files):
        start = i * genes_per_file
        end = start + genes_per_file
        df_subset = df.iloc[start:end]
        output_file = f"{output_folder}/gene_file_{i + 1}.csv"
        df_subset.to_csv(output_file, index=False)


split_gene_file("D:\yuceji\Lindera_aggregata.gene.pep", "gene1", 3100)

files = os.listdir("D:\python\PycharmProjects\pythonProject1\pachou\gene1")

result_urls = []

for i in range(0, 4):    #可自行设置所需文件数
    # 设置WebDriver路径,启动浏览器
    driver = webdriver.Edge()

    # 打开网页
    url = "https://wolfpsort.hgc.jp/"
    driver.get(url)
    time.sleep(5)

    wuzhong_type = driver.find_element(By.XPATH, '//*[@id="content"]/form/table/tbody/tr[1]/td[1]/p[1]/input[2]')
    wuzhong_type.click()
    wenjian_type = driver.find_element(By.XPATH, '//*[@id="content"]/form/table/tbody/tr[1]/td[1]/p[2]/input[2]')
    wenjian_type.click()

    input_element = driver.find_element(By.XPATH, '//*[@id="content"]/form/table/tbody/tr[1]/td[1]/p[3]/input')
    input_element.send_keys(f"D:\python\PycharmProjects\pythonProject1\pachou\gene1\gene_file_{i + 1}.csv")
    time.sleep(10)

    # 提交表单
    submit_button = driver.find_element(By.XPATH, '//*[@id="content"]/form/table/tbody/tr[2]/td/p/input[1]')
    submit_button.click()
    time.sleep(30)
    with open("result_urls","a",encoding="utf-8") as f:
        # 获取结果页面的URL
        result_url = driver.current_url
        f.write(result_url+ "\n")

    # 输出结果页面的URL
    print(result_url)
    result_urls.append(result_url)
    # 关闭浏览器
    driver.quit()

for i in range(len(result_urls)):
    r = requests.get(result_urls[i])
    print(r.status_code)
    text = r.text
    lines = text.split("<BR>")
    AA_ID_list = []
    yaxibao_list = []
    for line in lines:
        if "details" in line:
            AA_ID = line.split("<A")[0].strip().split()[-1]
            yaxibao = line.split("details")[1].strip().split()[1][:-1]
            AA_ID_list.append(AA_ID)
            yaxibao_list.append(yaxibao)
    with open(fr"D:\python\PycharmProjects\pythonProject1\pachou\result_dir\yaxibao{i}.csv", "w", encoding="utf-8") as f:
        f.write("AA_ID, yaxibao\n")  # 写入列名
        for j in range(len(AA_ID_list)):
            f.write(f"{AA_ID_list[j]}, {yaxibao_list[j]}\n")

print(result_urls)



# 再将所有的结果文件合并为一个大文件
result_csv = r"D:\python\PycharmProjects\pythonProject1\pachou\result_dir"
# 获取结果文件列表
result_files = os.listdir(result_csv)[:-1]
print(result_files)
# 创建一个空的DataFrame用于存储合并后的结果
merged_data = pd.DataFrame()
# 遍历每个结果文件
for file in result_files:
    # 读取结果文件
    df = pd.read_csv(result_csv + "\\" + file)
    #print(df)
    # 将结果文件的数据添加到合并后的DataFrame中
    merged_data = pd.concat([merged_data, df])
#print(merged_data)
# 保存合并后的结果到一个大文件
merged_data.to_csv("merged_results.csv", index=False)


我运行了这个代码,遍历前面四个文件,发现都很好的得到了结果页面的URL。说明这个代码是可行的。

请添加图片描述

2. 代码解释

这个代码差不多可以分为四个部分:

  1. 将大文件划分为小的文件
  2. 使用selenium库进行模拟用户行为,以获得结果页面的url
  3. 使用requests模块,通过上一步获得的url,发送请求,获取结果页面,并提取出所需信息
  4. 文件合并操作,使用pandas库中的concat方法,将前面得到的众多小文件的结果整合到一个大文件中。

1. 将大文件划分为小的文件

请添加图片描述

定义一个split_gene_file() 函数
先读取源文件source_file,将其转换为一个DataFrame对象。
再通过设置希望每个文件中的AA序列数(genes_per_file),计算出生成的小文件数(num_files), 并且生成一个文件夹用来放置得到的小文件。
然后,使用一个循环来迭代每个小文件的索引。循环中的每一次迭代都会计算起始索引start和结束索引end,并使用这些索引从原始DataFrame中选择相应的记录。
最后使用.iloc方法提取选择的子集,并保存为csv文件

2. 获得结果页面的url

在这里插入图片描述

这是基于python的selenium库,
Selenium是一个用于Web自动化的工具,可以用于模拟用户在网页浏览器上的行为,包括点击、输入、提交表单等操作。

其中最主要的步骤还是查看官网页面的源代码,通过HTML文本的标签获取元素的定位。
例如:
我要查看”Please select an organism type:" ,可以右键单击,然后点击检查
在这里插入图片描述
得到有关信息:
在这里插入图片描述
比如我在”Please select an organism type:“框中想选择"Plant”,那么我只要选择上图红框中表示输入是"plant"的框就行,然后再右键选择复制 “Xpath”
之后再将复制的Xpath粘贴到函数中,充当参数,如下所示:

 wuzhong_type = driver.find_element(By.XPATH, '//*[@id="content"]/form/table/tbody/tr[1]/td[1]/p[1]/input[2]')

因为在这个定位元素函数中,我第一个参数填的是“By.XPATH”,故后面那个参数就便是元素的“Xpath”。

3. 获取结果页面,提取出所需信息

请添加图片描述

对前面得到的URL列表(result_urls)进行循环遍历,并将得到的结果保存于指定文件中

4. 文件合并操作

请添加图片描述

前面得到的结果文件是通过循环得到的,故会是众多小文件。若是欲将所有的结果信息合并于一个大文件中,可以使用pandas库中的concat方法,来合并文件,最后将循环完毕后的合并结果,保存为一个csv文件。


总结

本章主要简述了python爬虫的有关信息,并且进行了一个实操(这个爬虫是基于WoLF PSORT官网,爬取亚细胞定位结果的数据)。更多有关蛋白质亚细胞定位的信息,请看

亚细胞定位

零落成泥碾作尘,只有香如故。

–2023-8-13 筑基篇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/72695.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

opsForHash() 与 opsForValue 请问有什么区别?

&#x1f449;&#xff1a;&#x1f517;官方API参考手册 如图&#xff0c;opsForHash()返回HashOperations<K,HK,HV>但是 opsForValue()返回ValueOperations<K,V>… 区别就是opsForHash的返回值泛型中有K,HK,HV,其中K是Redis指定的某个数据库里面某一个关键字(由…

Flutter BottomSheet 三段式拖拽

BottomSheetBehavior 追踪 BottomSheet系统默认实现效果准备要实现的功能点&#xff1a;定义三段式状态&#xff1a;BottomSheetBehavoir阀值定义1. 未达到滚动阀值&#xff0c;恢复状态2. 达到滚动阀值&#xff0c;更新状态 前面倒是有讲过Android原生的BottomSheetBehavior&a…

谈谈我的感受

虽然清楚知识需要靠时间沉淀&#xff0c;但在看到自己做不出来的题别人会做&#xff0c;自己写不出的代码别人会写时还是会感到焦虑怎么办&#xff1f; 感受 当我们比别人弱的时候&#xff0c;可能会感到挫败、失落、沮丧或无力。这种感受往往是因为我们与自己设定的标准或别人…

时序预测-Informer简介

Informer介绍 1. Transformer存在的问题 Informer实质是在Transformer的基础上进行改进&#xff0c;通过修改transformer的结构&#xff0c;提高transformer的速度。那么Transformer有什么样的缺点&#xff1a; &#xff08;1&#xff09;self-attention的平方复杂度。self-…

ruoyi-cloud微服务新建子模块

目录 相关文章1、复制system模块2、在modules下的 pom.xml文件中添加子模块 test3、进入 test模块修改 pom.xml4、修改对应的包名、目录名和启动应用程序为test5、修改bootstrap.yml文件中的端口号和应用名称6、nacos中克隆 system-dev.yml的配置&#xff0c;修改名称为 test-d…

章节7:XSS检测和利用

章节7&#xff1a;XSS检测和利用 测试payload <script>alert(XSS)</script> <script>alert(document.cookie)</script> ><script>alert(document.cookie)</script> ><script>alert(document.cookie)</script> &qu…

React Native 图片组件基础知识

在 React Native 中使用图片其实跟 HTML 中使用图片一样简单&#xff0c;在 React Native 中我们使用Image组件来呈现图片的内容&#xff0c;其中主要的属性有&#xff1a;source。这个属性主要是设置图片的内容&#xff0c;它可以是网络图像地址、静态资源、临时本地图像以及本…

Java地图专题课 基本API BMapGLLib 地图找房案例 MongoDB

本课程基于百度地图技术&#xff0c;由基础入门开始到应用实战&#xff0c;适合零基础入门学习。将企业项目中地图相关常见应用场景的落地实战&#xff0c;包括有地图找房、轻骑小程序、金运物流等。同时讲了基于Netty实现高性能的web服务&#xff0c;来处理高并发的问题。还讲…

ElasticSearch单节点部署

&#x1f388; 作者&#xff1a;互联网-小啊宇 &#x1f388; 简介&#xff1a; CSDN 运维领域创作者、阿里云专家博主。目前从事 Kubernetes运维相关工作&#xff0c;擅长Linux系统运维、开源监控软件维护、Kubernetes容器技术、CI/CD持续集成、自动化运维、开源软件部署维护…

差分升级在物联网水表上的实现与应用(学习)

摘要 当越来越多的物联网水表加入抄表系统后&#xff0c;实现了水表数据的信息化&#xff0c;并且当水表终端需要技术更新时&#xff0c;通过网络方式来升级产品可以高效修复设备面临的问题&#xff0c;减少用户损失&#xff0c;降低维护成本&#xff0c;但同时也对有限的网络…

Python Opencv实践 - 图像旋转

import cv2 as cv import numpy as np import matplotlib.pyplot as pltimg cv.imread("../SampleImages/pomeranian.png", cv.IMREAD_COLOR)#图像旋转 #Opencv中的旋转&#xff0c;首先通过cv.getRotationMatrix2D获得旋转矩阵 #cv.getRotationMatrix2D(center,ang…

navicat连接postgresql报错

navicat连接postgresql报错 navicat连接postgresql报错 现象 有小伙伴告诉我 安装了新的postgresql 使用navicat连接&#xff0c;报错 ERROR: column "datlastsysoid" does not existLINE 1: SELECT DISTINCT datlastsysoid FROM pg database column “datlastsy…

supervisor因为依赖安装失败的解决方法

安装FEATA时报错情况 下列软件包有未满足的依赖关系&#xff1a;supervisor : 依赖: python-pkg-resources 但是它将不会被安装依赖: python-meld3 但是它将不会被安装依赖: python:any (< 2.8)依赖: python:any (> 2.7.5-5~) E: 无法修正错误&#xff0c;因为您要求某些…

【Tomcat】(Tomcat 下载Tomcat 启动Tomcat 简单部署 基于Tomcat进行网站后端开发)

文章目录 Tomcat下载Tomcat启动Tomcat简单部署 基于Tomcat进行网站后端开发 Tomcat Tomcat 是一个 HTTP 服务器.HTTP 协议就是 HTTP 客户端和 HTTP 服务器之间的交互数据的格式. HTTP 服务器我们可以通过 Java Socket 来实现. 而 Tomcat 就是基于 Java 实现的一个开源免费,也是…

【C++ 学习 ⑬】- 详解 list 容器

目录 一、list 容器的基本介绍 二、list 容器的成员函数 2.1 - 迭代器 2.2 - 修改操作 三、list 的模拟实现 3.1 - list.h 3.2 - 详解 list 容器的迭代器 3.2 - test.cpp 一、list 容器的基本介绍 list 容器以类模板 list<T>&#xff08;T 为存储元素的类型&…

RabbitMQ工作流程详解

1 生产者发送消息的流程 (1)生产者连接RabbitMQ&#xff0c;建立TCP连接(Connection)&#xff0c;开启信道(Channel) (2)生产者声明一个Exchange (交换器)&#xff0c;并设置相关属性&#xff0c;比如交换器类型、是否持久化等 (3)生产者声明一个队列井设置相关属性&#xf…

IoTDB 1.x 开启外部访问

对于部署的IoTDB数据库&#xff0c;如果需要局域网内其他设备进行访问的处理。 1、防火墙开放端口 无论windows还是liunx都需要你将6667默认的端口加入防火墙中&#xff0c;否则肯定是无法访问端口 2、修改配置文件 对conf/iotdb-datanode.properties文件中的 修改为本机的…

接口测试实战,Jmeter正则提取响应数据-详细整理,一篇打通...

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 在测试时&#xf…