Python并发编程:线程和多线程的使用

前面的文章,我们讲了什么Python的许多基础知识,现在我们开始对Python并发编程进行学习。我们将探讨 Python 中线程和多线程的使用。帮助大家更好地理解如何使用这种技术。

目录

1. 线程(Threads)

1.1 Python 中的线程工作原理

2. 创建和管理线程

2.1 创建线程

2.2 线程的生命周期和状态

2.3 线程同步和数据共享

3. 线程池(ThreadPool)

4. Python多线程编程

Python 多线程选择和注意事项

参考资料

总结


在编程中,并发编程允许程序同时执行多个独立的任务,这些任务可以在同一时间段内部分地重叠执行,从而提高程序的效率和响应性。在Python 中,并发编程可以通过多种方式实现,其中包括线程(Threads)和进程(Processes)

1. 线程(Threads)

学过操作系统的同学都知道,线程是操作系统能够进行运算调度的最小单位。它被包含在进程之中,是进程中的实际运作单位。也即是说,一个进程可以拥有多个线程,这些线程共享进程的资源,但每个线程拥有自己的执行堆栈和局部变量。相对于进程而言,线程更加轻量级,创建和销毁的开销更小。

1.1 Python 中的线程工作原理

Python 的标准库提供了 threading 模块来进行多线程编程。线程是由操作系统的线程实现来管理的,这意味着 Python 的线程可以利用操作系统的多线程功能。

Python 的全局解释器锁(Global Interpreter Lock,GIL)是一个影响多线程执行的重要因素。GIL 实际上是一个互斥锁,它确保了在解释器级别上同一时刻只有一个线程在执行 Python 字节码。也就是说,在 CPU 密集型任务中,多线程并不能充分利用多核处理器。但在 I/O 密集型任务中,多线程可以提供更好的性能,因为线程在等待 I/O 操作完成时可以让出 GIL。

线程的优势和限制:

优势限制
简单易用GIL 的影响
共享内存线程安全
适用于 I/O 密集型任务不适用于 CPU 密集型任务


2. 创建和管理线程

threading 模块,可以轻松地创建和管理线程。学习线程的知识,包括:创建线程、启动和停止线程,以及线程的生命周期和状态。下面我们一一介绍。

2.1 创建线程

首先,让我们看一下如何使用 threading 模块创建线程。

import threading
import time

def task(name, delay):
    print(f"Thread {name} is starting...")
    time.sleep(delay)
    print(f"Thread {name} is done.")

# 创建线程
thread1 = threading.Thread(target=task, args=("Thread 1", 2))
thread2 = threading.Thread(target=task, args=("Thread 2", 1))

# 启动线程
thread1.start()
thread2.start()

# 等待线程结束
thread1.join()
thread2.join()

print("All threads are done.")

这里,我们定义了一个 task 函数作为线程的执行函数,接受线程的名称和延迟时间作为参数。然后我们创建了两个线程 thread1 和 thread2,分别执行 task 函数,并启动它们。最后,我们等待所有线程执行完毕,并输出 "All threads are done."。

输出如下:

Thread Thread 1 is starting...
Thread Thread 2 is starting...
Thread Thread 2 is done.
Thread Thread 1 is done.
All threads are done.

2.2 线程的生命周期和状态

线程的生命周期包括创建、就绪、运行、阻塞和终止几个阶段。如下所示:

上面的例子中,我们通过 start() 方法启动了线程,使其进入就绪状态,然后线程调度器负责将其转换为运行状态,执行 task 函数。当 task 函数中的 time.sleep(delay) 被调用时,线程将进入阻塞状态,等待一定时间后再次进入就绪状态,直到任务完成。最后,通过 join() 方法等待线程结束,线程进入终止状态。


线程的状态可以通过 threading 模块中的常量来表示,如下所示:

状态描述相关常量
创建创建线程对象,但尚未启动threading.Thread
就绪线程已启动,等待被调度执行threading.Thread.start()
运行线程正在执行代码threading.Thread.run()
阻塞线程因等待 I/O 操作或其他事件而暂停执行-
等待线程调用 wait() 方法进入等待状态-
死亡线程执行完毕或因异常终止threading.Thread.is_alive()
守护线程守护线程在主线程结束后自动退出threading.Thread.daemon

2.3 线程同步和数据共享

由于线程共享同一进程的内存空间,可能会导致数据竞争和不确定的结果。为了确保线程安全,我们需要使用同步机制来控制线程的访问。

使用锁(Locks)确保线程安全

锁是最简单、最常用的同步机制,用于确保在任何时候只有一个线程可以访问共享资源。

import threading

# 创建一个安全的计数器类
class SafeCounter:
    def __init__(self):
        self._value = 0  # 初始化计数器值为0
        self._lock = threading.Lock()  # 创建一个线程锁对象

    # 线程安全地增加计数器值
    def increment(self):
        with self._lock:  # 使用线程锁确保原子操作
            self._value += 1

    # 线程安全地减少计数器值
    def decrement(self):
        with self._lock:  # 使用线程锁确保原子操作
            self._value -= 1

    # 线程安全地获取当前计数器的值
    def get_value(self):
        with self._lock:  # 使用线程锁确保原子操作
            return self._value

# 创建一个SafeCounter的实例
counter = SafeCounter()

# 定义一个工作函数,每次增加计数器的值
def worker():
    for _ in range(100000):  # 每个线程执行10万次增加操作
        counter.increment()

threads = []
# 创建10个线程来执行工作函数
for _ in range(10):
    t = threading.Thread(target=worker)  # 创建线程
    threads.append(t)  # 将线程添加到列表中
    t.start()  # 启动线程

# 等待所有线程执行完毕
for t in threads:
    t.join()

# 打印最终计数器的值
print("Final counter value:", counter.get_value())

这里,创建了一个 SafeCounter 类来实现线程安全的计数器。在 increment 和 decrement 方法中,使用了 self._lock 来确保在修改计数器值时只有一个线程可以访问。get_value 方法也使用了同样的机制来获取计数器的值。

输出:

Final counter value: 1000000

3. 线程池(ThreadPool)

线程池是一种资源池,它预先创建了一组线程,并将其维护在一个池中。当需要执行任务时,可以从线程池中获取一个空闲线程来执行任务。任务完成后,线程会被释放回线程池,等待执行下一个任务。

Python 提供了 concurrent.futures 模块,其中的 ThreadPoolExecutor 类可以用来创建线程池,并方便地执行多个线程任务。

线程池有如下优点:

优点描述
提高效率可以避免频繁创建和销毁线程的开销,提高线程的利用率。
降低成本可以减少线程的上下文切换,降低系统的开销。
提高可控性可以方便地控制线程的数量和并发度,提高程序的稳定性。

使用 concurrent.futures.ThreadPoolExecutor 创建线程池:

从 Python 3.2 开始,标准库中提供了 concurrent.futures 模块,它提供了 ThreadPoolExecutor 类用于创建线程池。

from concurrent.futures import ThreadPoolExecutor

# 创建线程池,max_workers 参数指定线程池中最多可以同时运行的线程数
executor = ThreadPoolExecutor(max_workers=5)

控制并发任务的数量

通过 max_workers 参数来控制线程池中最多可以同时运行的线程数。

# 创建线程池,max_workers 参数设置为 2,表示最多同时运行 2 个线程
executor = ThreadPoolExecutor(max_workers=2)

示例:使用线程池进行网络请求(这里,我们虽然只是简单的输出,但后期我们将代码换成网络编程的代码,就可以衔接了。)

from concurrent.futures import ThreadPoolExecutor

# 定义要访问的 URL 列表
urls = ["https://www.baidu.com", "https://www.google.com", "https://www.bing.com"]

# 创建线程池
executor = ThreadPoolExecutor(max_workers=3)

# 定义要在线程中执行的函数
def print_message(message):
    print(message)

# 提交任务到线程池
futures = [executor.submit(print_message,url) for url in urls]

# 等待所有任务完成
for future in futures:
    # 获取任务的执行结果
    response = future.result()

输出如下:

https://www.baidu.com
https://www.google.com
https://www.bing.com

4. Python多线程编程

多线程是指在一个程序中同时执行多个线程。线程是程序执行的基本单位,它是操作系统调度的最小单位。

注意:多线程可以提高程序的执行效率,但同时也带来了线程安全问题。

对于 CPU 密集型任务,可以考虑使用多线程,提高程序的执行效率。

import time
from concurrent.futures import ThreadPoolExecutor

# 任务函数,停止一秒,并返回n*n
def task(n):
    time.sleep(1)
    print("运算结果:", n*n)
    return n * n

# 单线程执行
start_time = time.time()
for i in range(10):
    result = task(i)
end_time = time.time()
print("单线程执行时间:", end_time - start_time)

# 多线程执行
start_time = time.time()

with ThreadPoolExecutor(max_workers=5) as executor:
    futures = [executor.submit(task, i) for i in range(10)]
    results = [future.result() for future in futures]
end_time = time.time()
print("多线程执行时间:", end_time - start_time)

下面来看输出情况:

运算结果: 0
运算结果: 1
运算结果: 4
运算结果: 9
运算结果: 16
运算结果: 25
运算结果: 36
运算结果: 49
运算结果: 64
运算结果: 81
单线程执行时间: 10.105695724487305
运算结果: 16
运算结果: 4
运算结果: 9
运算结果: 1
运算结果: 0
运算结果: 81
运算结果: 64
运算结果: 49
运算结果: 36
运算结果: 25
多线程执行时间: 2.0349953174591064

可以看到,单线程执行时间远远高于多线程执行时间。这就是效率的极大提升。


Python 多线程选择和注意事项

问题最佳实践注意事项
避免常见的线程安全问题* 使用锁(Lock)来控制对共享数据的访问。 * 使用条件变量(Condition Variable)来实现线程之间的同步。 * 使用无锁数据结构,例如 concurrent.futures 模块中的 BoundedSemaphore。* 识别共享数据。 * 保护共享数据。 * 避免数据竞争。 * 测试线程安全性。
如何设计线程安全的程序* 识别共享数据。 * 保护共享数据。 * 避免数据竞争。 * 测试线程安全性。* 不要过度使用多线程。 * 使用合适的线程池。 * 监控程序性能。
在不同场景下选择合适的并发方案* CPU 密集型任务: 使用多线程可以提高程序的执行效率。 * I/O 密集型任务: 使用多线程可以提高程序的吞吐量。 * 混合型任务: 可以根据任务的不同特点,选择使用多线程、多进程或其他并发方案。* 选择合适的并发方案取决于任务的类型和特点。 * 需要权衡并发方案的利弊。

参考资料

  • Python 官方文档 - threading: https://docs.python.org/3/library/threading.html

总结

关于线程和多线程的使用,这里也讲得差不多了,想必大家对线程和多线程的概念也有更深入的理解了。那么,大家可以试试敲敲代码,实际运行一番,相信你会有所收获。

欢迎大家和我一起继续学习、记录python的下一个知识点。

如果感觉阅读对您还有些作用,可以评论留言,关注我。谢谢您的阅读!

 往期学习:

 
Python安装教程(版本3.8.10)windows10

Linux系统:安装Conda(miniconda)

Conda快速安装的解决方法(Mamba安装)

VSCode安装教程(版本:1.87.0)Windows10

Python基础语法:从入门到精通的必备指南

Python的基本数据类型

Python数据类型间的转换(隐式、显式)

Python基础知识:运算符详解

Python基础知识:数字类型及数学函数详解-

Python字符串操作及方法详解!一篇就搞定!

Python列表及其操作详解,从此不再迷茫!

Python元组(Tuple)深度解析!

Python字典的使用技巧(一篇详解)

Python条件控制深度解析,成为编程必备

Python循环语句全解析(附实战演练)

Python函数高效编程技巧,提升你的代码效率!

Python模块和包全解析,一篇文章就够!

Python lambda(匿名函数),一文详解

Python面向对象编程:合集篇(类、对象、封装、继承和多态)

Python命名空间和作用域,让你的代码逻辑更清晰!

Python正则表达式初学者指南,轻松上手!

Python深入理解迭代器和生成器

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/484231.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《妈妈是什么》笔记(五) 一切负面经验都必须转化为正面角度

经典摘录 我的引导原则是,一切负面经验都必须转化为正面角度。我们不能选择孩子的经历,但是可以帮助孩子选择如何看待这些事情,以及如何积极地利用这些事情,锤炼自己的社会交往能力。 比如, 别人(老师、同…

正则表达式具体用法大全~持续更新

# 正则表达式: ## 单字符匹配: python # 匹配某个字符串: # text "abc" # ret re.match(b,text) # print(ret.group()) # 点(.):匹配任意的字符(除了\n): # text "\nabc&quo…

Navicat 干货 | 探索 PostgreSQL 的外部数据包装器和统计函数

PostgreSQL 因其稳定性和可扩展性而广受青睐,为开发人员和数据管理员提供了许多有用的函数。在这些函数中,file_fdw_handler、file_fdw_validator、pg_stat_statements、pg_stat_statements_info 以及 pg_stat_statements_reset 是其中的重要函数&#x…

记一次由于buff/cache导致服务器内存爆满的问题

目录 前言 复现 登录服务器查看占用内存进程排行 先了解一下什么是buff/cache? 尝试释放buffer/cache /proc/sys/vm/drop_caches dirty_ratio dirty_background_ratio dirty_writeback_centisecs dirty_expire_centisecs drop_caches page-cluster swap…

2024年计算机三级|数据库习题整理(自用④)

所有题目均来自【三级数据库技术基础题库】,此博客仅为知识点的补充,用于自主的回顾学习,仅供参考。 选择题 知识点:数据库文件 透明性分级: ①分片透明性 > ②位置透明性 > ③局部数据模型透明性 数据仓库数据…

vector类详解及重要函数实现

🪐🪐🪐欢迎来到程序员餐厅💫💫💫 今日主菜:vector类 主厨:邪王真眼 所属专栏:c专栏 主厨的主页:Chef‘s blog 坚持下去,成功不是目的&a…

阿里二面:谈谈ThreadLocal的内存泄漏问题?问麻了。。。。

引言 ThreadLocal在Java多线程编程中扮演着重要的角色,它提供了一种线程局部存储机制,允许每个线程拥有独立的变量副本,从而有效地避免了线程间的数据共享冲突。ThreadLocal的主要用途在于,当需要为每个线程维护一个独立的上下文…

基于Python3的数据结构与算法 - 20 AVL的旋转

一、二叉搜索树的效率 平均情况下,二叉搜索树进行搜索的时间复杂度为O(lgn)。最坏情况下,二叉搜索树可能非常偏斜。(如下图所示)解决方法: 随机化插入AVL树 二、AVL树 AVL树是一棵自平衡的二叉树AVL树具有以下性质&…

自动驾驶感知新范式——BEV感知经典论文总结和对比(一)

自动驾驶感知新范式——BEV感知经典论文总结和对比(一) 博主之前的博客大多围绕自动驾驶视觉感知中的视觉深度估计(depth estimation)展开,包括单目针孔、单目鱼眼、环视针孔、环视鱼眼等,目标是只依赖于视…

YOLOv8:Roboflow公开数据集训练模型

Roboflow公开数据集 Roboflow是一个提供计算机视觉数据集管理和处理工具的平台。虽然Roboflow本身并不创建或策划公开数据集,但它提供了一系列功能,帮助用户组织、预处理、增强和导出计算机视觉数据集。 官方网站:https://universe.roboflow…

【Leetcode每日一题】 动态规划 - 使用最小花费爬楼梯(难度⭐)(41)

1. 题目解析 题目链接:746. 使用最小花费爬楼梯 这个问题的理解其实相当简单,只需看一下示例,基本就能明白其含义了。 2.算法原理 一、设定状态表 为了解决这个问题,我们首先要明确一个“状态表”。这个状态表其实就是一个记录…

【蓝桥杯知识点】二分查找(超超超详细,再也不会错啦)

考完了计算机三级,蓝桥杯和数学建模的学习也要恢复常态啦!今天,我们来了解一种相对简单但容易出错的算法——二分查找。这里还有一些小方法让二分查找没有那么容易出错,开始学习吧啦啦啦! PS: 文章主要参考…

设计模式学习笔记 - 设计模式与范式 - 创建型:7.原型模式:如何快速地clone一个HashMap散列表

原型模式的原理与应用 如果对象的创建成本比较大,而同一个类的不同对象之间差别不大(大部分字段都相同),在这种情况下,我们可以利用对已有对象(原型)进行复制(或者叫拷贝&#xff0…

Lunule: An Agile and Judicious Metadata Load Balancer for CephFS——论文阅读

SC 2021 Paper 分布式元数据论文阅读笔记 问题 CephFS采用动态子树分区方法,将分层命名空间划分并将子树分布到多个元数据服务器上。然而,这种方法存在严重的不平衡问题,由于其不准确的不平衡预测、对工作负载特性的忽视以及不必要/无效的迁…

解码新时代内存架构:探秘数据在内存中的灵动驻足

欢迎来到白刘的领域 Miracle_86.-CSDN博客 系列专栏 C语言知识 先赞后看,已成习惯 创作不易,多多支持! 随着信息技术的飞速发展,我们身处一个数据爆炸的时代。数据的处理和存储方式正日益成为技术革新的重要领域。在新时代的…

【Java】高级篇2:多线程

一、相关概念 注意: 1、不同进程之间不共享内存 2、进程之间的数据交换和通信成本很高 线程调度: 单核CPU与多核CPU: 并行与并发: 二、创建和启动线程 1、概述 2、方式 2.1 方式一:继承Thread类 2.2 方式二&#xf…

Fantasy RPG Spell Pack 2

介绍奇幻角色扮演游戏魔法包VFX,这是为您的Unity奇幻角色扮演游戏提供的终极视觉效果解决方案!这个包包含30个独特的VFX,将为您的法术和能力带来生命,让您的玩家沉浸在魔法和奇迹的世界中。 从令人惊叹的彩虹盾和闪电到旋转门户和召唤圈,这个包有你需要的一切来创造一个真…

GETSHELL方法总结上

渗透的总步骤 1.信息收集找到弱漏洞 2.漏洞挖掘 漏洞验证 3.有一定权限 getshell 4.提权后---渗透 5.内网渗透】 前后台拿shell方法汇总 接下来我们实操一波dedecms也就是织梦cms 如果你们的靶场是空白的 可能是php版本 我们修改为5.2 可能是源码问题 我们不要急着上传…

ChatGPT论文指南|揭秘8大ChatGPT提示词研究技巧提升写作效率【建议收藏】

点击下方▼▼▼▼链接直达AIPaperPass ! AIPaperPass - AI论文写作指导平台 公众号原文▼▼▼▼: ChatGPT论文指南|揭秘8大ChatGPT提示词研究技巧提升写作效率【建议收藏】 目录 1.写作方法 2.方法设计 3.研究结果 4.讨论写作 5.总结结论 6.书…

MySQL--select count(*)、count(1)、count(列名) 的区别你知道吗?

MySQL select count(*)、count(1)、count(列名) 的区别? 这里我们先给出正确结论: count(*),包含了所有的列,会计算所有的行数,在统计结果时候,不会忽略列值为空的情况。count(1),忽略所有的列…