Python字典去重竟然比集合去重快速40多倍

这里写目录标题

  • 对比代码
  • 结果图
  • 代码解析

对比代码

from  glob import glob
from tqdm import tqdm
import time
path_list=glob("E:/sky_150b/任务组_20231207_2023/*.jsonl")
# for two in tqdm(path_list):
one=path_list[0]

with open(one,"r",encoding="utf-8") as f:
    data=f.readlines()
start=time.time()
data_list={}
for i in tqdm(data):
    if data_list.get(i,False)==False:
        data_list[i]="1"
print(time.time()-start)
start=time.time()
data_list = set()

for i in tqdm(data):
    data_list|=set(i)
print(time.time() - start)
    # with open(one, "w", encoding="utf-8") as f:
    #     f.writelines([i for i in data_list.keys()])
    #

结果图

在这里插入图片描述

代码解析

这段代码的作用是比较两种方法分别用于处理一个文件中的数据重复项的时间效率。

具体流程如下:

  1. 导入需要用到的模块:

    from  glob import glob
    from tqdm import tqdm
    import time
    

    glob 模块用于查找匹配特定模式的文件路径名,它返回所有符合条件的文件路径列表。tqdm 模块是一个用于在 Python 迭代器中添加进度条的库。

  2. 使用 glob 模块获取所有符合条件的文件路径名:

  path_list=glob("E:/sky_150b/任务组_20231207_2023/*.jsonl")

这里使用了 glob() 函数获取了所有以 .jsonl 结尾文件的路径名,存储在 path_list 列表中。

  1. 对于每个文件路径名循环处理重复项:

    one=path_list[0]
    
    with open(one,"r",encoding="utf-8") as f:
        data=f.readlines()
    start=time.time()
    data_list={}
    for i in tqdm(data):
        if data_list.get(i,False)==False:
            data_list[i]="1"
    print(time.time()-start)
    start=time.time()
    data_list = set()
    
    for i in tqdm(data):
        data_list|=set(i)
    print(time.time() - start) 
    

    分别使用两种不同的方法处理文件中的重复项并计算时间。其中第一个循环使用了字典的键值对特性,通过判断键是否存在来去重,第二个循环则使用了 Python 内置的 set 数据结构实现去重。

    time.time() 函数用于获取当前时间戳,两次获取的时间戳相减即为整个循环处理时间。

    tqdm 模块的作用是在循环时显示进度条,使得处理结果更加直观。

最终输出两种处理方法的时间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/234450.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于SpringBoot 2+Layui实现的管理后台系统源码+数据库+安装使用说明

springboot-plus 一个基于SpringBoot 2 的管理后台系统,包含了用户管理,组织机构管理,角色管理,功能点管理,菜单管理,权限分配,数据权限分配,代码生成等功能 相比其他开源的后台系统&#xff0…

MATLAB | 官方举办的动图绘制大赛 | 第四周(收官周)赛情回顾

MATHWORKS官方举办的迷你黑客大赛第三期(MATLAB Flipbook Mini Hack)圆满结束,虽然我的水平和很多大佬还有比较大的差距,但所有奖也算是拿满了: 专家评选前三名,以及投票榜前十:~ 每周的阶段性获奖者: 下面…

c++实现ros通信

这里用的到是自定义的msgcpp发布消息 主要包括两个msg,一个订阅者和一个发布者,以及cmakelists的相应修改。 首先是自定义的msg,功能包里面来自定义msg也是可以的: 新建功能包 catkin_create_pkg pkg roscpp std_msgs message_g…

模块一——双指针:611.有效三角形的个数

文章目录 题目描述算法原理解法一:暴力求解(超时)解法二:排序+双指针 代码实现 题目描述 题目链接:611.有效三角形的个数 算法原理 解法一:暴力求解(超时) 三层for循环枚举出所有的三元组&…

一款基于ESP32的迷你四足机器人

一、软件介绍 增加自定义动作模式,可以在小程序中自定义一个最多10个步骤的动作。 附件中:带自定模式固件bin.zip esp32c3固件文件 烧录下图设置 无串口版本esp32c3开发板烧录前先按住BOOT键再插线进入烧录模式,LoadMode选择USB。 二、AP…

5_CSS三大特性盒子模型

第5章-盒子模型【比屋教育】 本课目标(Objective) 掌握CSS三大特性理解什么是盒子模型掌握内边距padding的用法掌握外边距margin的用法 1. CSS的层叠,继承,优先级 1.1 CSS层叠 层叠:是指多个CSS样式叠加到同一个元…

详解ZNS SSD基本原理

ZNS SSD的原理是把namespace空间划分多个zone空间,zone空间内部执行顺序写。这样做的优势: 降低SSD内部的写放大,提升SSD的寿命 降低OP空间,host可以获得更大的使用空间 降低SSD内部DRAM的容量,降低整体的SSD成本 降…

自治调优!人大金仓解放DBA双手

数据库系统的性能是确保整个应用系统高效运转的关键因素,因此数据库性能调优工作至关重要。KingbaseES通过将人工调优过程内化为数据库内核,成功实现了自治调优。这种创新的调优方案为DBA提供了更高效且准确的性能调优途径,同时也显著降低了数…

下划线css

思路: Q1:为什么下划线不用边框border 而使用背景色呢? 要实现动画效果,随着行盒的方向走 新知识点 线性渐变:linear-gradient 方法:linear-gradient(direction, color-stop1, color-stop2, ...) 详情见&#xff1a…

MySQL- in(集合) 和 not in(...) 的使用和练习

1. 基础用法 mysql中in常用于where表达式中,其作用是查询某个范围内的数据。 select * from where field in (value1,value2,value3,…) 当 IN 前面加上 NOT 运算符时,表示与 IN 相反的意思,即不在这些列表项内选择 select * from where …

EarCMS 前台任意文件上传漏洞复现

0x01 产品简介 EarCMS是一个APP内测分发系统的平台。 0x02 漏洞概述 EarCMS前台put_upload.php中,存在pw参数硬编码问题,同时sql语句pdo使用错误,没有有效过滤sql语句,可以控制文件名和后缀,导致可以任意文件上传。 0x03 复现环境 FOFA:app="EearCMS" 0x0…

Nginx性能调优实战 1

Nginx性能调优实战指南 1 Nginx作为一款高性能的Web服务器和反向代理服务器,在处理大量请求和并发连接时表现出色。然而,在实际应用中,为了更好地适应不同的负载和提高系统性能,进行Nginx性能调优是至关重要的。深入探讨Nginx性能…

2023年【起重机司机(限桥式起重机)】考试题库及起重机司机(限桥式起重机)最新解析

题库来源:安全生产模拟考试一点通公众号小程序 2023年【起重机司机(限桥式起重机)】考试题库及起重机司机(限桥式起重机)最新解析,包含起重机司机(限桥式起重机)考试题库答案和解析及起重机司机(限桥式起重机)最新解析练习。安全生产模拟考试一点通结合…

Sql server数据库数据查询

请查询学生信息表的所有记录。 答:查询所需的代码如下: USE 学生管理数据库 GO SELECT * FROM 学生信息表 执行结果如下: 查询学生的学号、姓名和性别。 答:查询所需的代码如下: USE 学生管理数据库 GO SELE…

nginx服务以及实验举例

目录 Nginx简介 概述 Nginx和Apache 的比较 nginx相对于apache的优点 apache相对于nginx的优点 Nginx作为web服务器与Apache比较 Linux 中的 I/O 磁盘 I/O buff/cache的区别 同步/异步 阻塞/非阻塞 异步非阻塞 I/O模型 nginx 实验操作举例,优先将防火墙…

人工智能期末复习重点【只针对(适合)个人】

第二章 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12.框架题 12.1地震框架 12.2洪水框架 13.第二章总结 第三章 14. 15. 3.1.1 推理的定义 16. 3.1.2 推理方式及其分类 (1)确定性推理: u 推理时所用的 知识与证据 都是 确定的 &…

elasticsearch|大数据|elasticsearch低版本集群的部署安装和安全增强---密码设置问题

一, 版本问题 elasticsearch的高低版本划分标准为6.3,该版本之前的为低版本,6.3版本之后的包括6.3为高版本,这么划分主要是在安全性方面也就是x-pack插件的使用部署方面,低版本需要手动安装该安全插件,而…

为什么需要 Kubernetes,它能做什么?

传统部署时代: 早期,各个组织是在物理服务器上运行应用程序。 由于无法限制在物理服务器中运行的应用程序资源使用,因此会导致资源分配问题。 例如,如果在同一台物理服务器上运行多个应用程序, 则可能会出现一个应用程…

渗透测试——七、网站漏洞——命令注入和跨站请求伪造(CSRF)

渗透测试 一、命令注入二、跨站请求伪造(CSRF)三、命令注入页面之注人测试四、CSRF页面之请求伪造测试 一、命令注入 命令注入(命令执行) 漏洞是指在网页代码中有时需要调用一些执行系统命令的函数例如 system()、exec()、shell_exec()、eval()、passthru(),代码未…

lv11 嵌入式开发 PWM 18

目录 1 PWM简介 1.1 蜂鸣器工作原理 1.2 GPIO控制 1.3 PWM控制 2 Exynos4412下的 PWM控制器 2.1 总览 2.2 设置步骤 2.3 功能框图 2.4 特征 3 寄存器介绍 3.1 总览 3.2 TCFG0 一级分频寄存器 3.3 TCFG1 二级分频寄存器 3.4 TCON控制寄存器 3.5 TCNTB TCMPB T…