百度松果菁英班——机器学习实践一:海量文件遍历

飞桨AI Studio星河社区-人工智能学习与实训社区

🦐在指定目录下显示目录结构

!tree -L 显示级数限制 指定目录

如:

!tree -L 3 ./data/

表示:在目录 ./data/ 下显示目录结构,限制显示到第三级子目录或文件。这个命令通常在命令行环境(即shell)下使用,用于查看目录结构,以便更好地了解目录中包含的文件和子目录。

🦐将指定路径下的ZIP文件解压缩到目标路径下(unzip_data)

import zipfile 
def unzip_data(src_path,target_path):
    # 解压原始数据集,将src_path路径下的zip包解压至target_path目录下
    if(not os.path.isdir(target_path)):     
        z = zipfile.ZipFile(src_path, 'r')
        z.extractall(path=target_path)
        z.close()
​
unzip_data('data/data19638/insects.zip','data/data19638/insects')
unzip_data('data/data55217/Zebra.zip','data/data55217/Zebra')
  • 导入zipfile模块,提供对zip文件的读取和解压缩功能

  • 定义了一个叫unzip_data的函数

    • 参数src_path:指定要解压的zip文件的路径

    • 参数target_path:指定要将解压后的文件放置到的目标路径

    • 函数内部

      • 首先通过os.path.isdir(target_path)检查目标路径是否存在,如果不存在,则创建目标路径

      • 然后使用zipfile.ZipFile(src_path, 'r')打开指定路径下的ZIP文件,使用读模式

      • 调用z.extractall(path=target_path)方法将ZIP文件解压缩到目标路径下

      • 最后使用z.close()关闭ZIP文件对象,释放资源

解压缩后调用tree指令查看结果:

🦐统计给定目录下所有不同文件类型的文件数量以及它们的总内存占用量(get_size_type)

import os
 
"""
通过给定目录,统计所有的不同子文件类型及占用内存
"""
size_dict = {}
type_dict = {}
def get_size_type(path):
    
    files = os.listdir(path)
    for filename in files:
        temp_path = os.path.join(path, filename)
        if os.path.isdir(temp_path):#是文件夹
            # 递归调用函数,实现深度文件名解析
            get_size_type(temp_path)     
        elif os.path.isfile(temp_path):#是文件
            # 获取文件后缀
            type_name=os.path.splitext(temp_path)[1]   
            #无后缀名的文件
            if not type_name:
                type_dict.setdefault("None", 0)
                type_dict["None"] += 1
                size_dict.setdefault("None", 0)
                size_dict["None"] += os.path.getsize(temp_path)
            # 有后缀的文件
            else:
                type_dict.setdefault(type_name, 0)
                type_dict[type_name] += 1
                size_dict.setdefault(type_name, 0)
                # 获取文件大小
                size_dict[type_name] += os.path.getsize(temp_path) 
  • 定义了两个空字典size_dicttype_dict,用于分别记录不同文件类型的内存占用和数量

  • 定义了一个函数get_size_type(path),该函数接受一个参数path,表示要统计的目录路径

    • 使用os.listdir(path)获取指定路径下的所有文件和文件夹列表

    • 遍历列表中的每个文件和文件夹,使用os.path.join(path, filename)构建完整的文件路径

    • 如果是文件夹,则递归调用get_size_type(temp_path)来处理子文件夹

    • 如果是文件,则获取其文件后缀名,并根据是否有后缀名进行处理:

      • 如果没有后缀名,则将其归类为"None"类型,并更新对应的数量和占用内存大小

      • 如果有后缀名,则将其归类到对应的后缀名类型,并更新对应的数量和占用内存大小

统计完成后,size_dicttype_dict分别记录了不同文件类型的总内存占用和数量

🦐应用

path= "data/"
get_size_type(path)
for each_type in type_dict.keys():
    print ("%5s下共有【%5s】的文件【%5d】个,占用内存【%7.2f】MB" %     
            (path,each_type,type_dict[each_type],\
            size_dict[each_type]/(1024*1024)))
print("总文件数:  【%d】"%(sum(type_dict.values())))
print("总内存大小:【%.2f】GB"%(sum(size_dict.values())/(1024**3)))
  • 设置要统计的目录路径

  • 调用get_size_type函数,统计该目录下所有不同文件类型的文件数量以及它们的总内存占用量

  • 使用for循环遍历type_dict字典中的每个键(即文件类型),并打印出文件类型、文件数量以及占用内存大小的信息

  • 通过sum(type_dict.values())统计所有文件的总数,通过sum(size_dict.values())统计所有文件的总内存占用量

  • 将结果打印出来,其中内存大小单位转换为GB

机器学习还有python我接触的有点少,对我来说还是有难度的,如果有问题欢迎大家的指正,欢迎大家和我一起学习百度松果菁英班的机器学习内容,有问题我们随时评论区见~

⭐点赞收藏不迷路~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/520569.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于单片机冬季供暖室温调节控制系统

**单片机设计介绍,基于单片机冬季供暖室温调节控制系统 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于单片机的冬季供暖室温调节控制系统是一种集温度检测、控制和显示功能于一体的智能化系统。该系统以单片机为…

基于Springboot+Vue实现前后端分离社团管理系统

一、🚀选题背景介绍 📚推荐理由: 21世纪时信息化的时代,几乎任何一个行业都离不开计算机,将计算机运用于社团管理也是十分常见的。过去使用手工的管理方式对大学生社团进行管理,造成了管理繁琐、难以维护等…

图解大型网站多级缓存的分层架构

前言 缓存技术存在于应用场景的方方面面。从浏览器请求,到反向代理服务器,从进程内缓存到分布式缓存,其中缓存策略算法也是层出不穷。 假设一个网站,需要提高性能,缓存可以放在浏览器,可以放在反向代理服…

开源流程图表库(04):mxGraph,都是可视化编辑,导出使用。

mxGraph是一个用于创建和展示图形的JavaScript库。它提供了丰富的功能和工具,可以用于构建各种类型的图形应用程序,包括流程图、组织结构图、网络拓扑图等。 mxGraph的编辑器 一、mxGraph的特点和功能 以下是一些mxGraph的特点和功能: 强大…

ES10 学习

文章目录 1. Object.fromEntries()2. trimStart() 和 trimEnd()3. 数组的flat() 和flatMap()4. Symbol 对象的description 属性5. try ... catch(e){} 1. Object.fromEntries() Object.fromEntries() 方法允许你轻松地将键 值对列表转换为对象 let arr [["name",&qu…

Lanelets_ 高效的自动驾驶地图表达方式

Lanelets: 高效的自动驾驶地图表达方式 附赠自动驾驶学习资料和量产经验:链接 LaneLets是自动驾驶领域高精度地图的一种高效表达方式,它以彼此相互连接的LaneLets来描述自动驾驶可行驶区域,不仅可以表达车道几何,也可以完整表述车…

有效的括号--如果字符串没有左括号,或者字符串是右括号为开头,则存在括号不匹配和顺序不正确的情况公字符串无效

题目-有效的括号 ​ 一、分析题目 二、编写代码 typedef char STDataType;typedef struct Stack {STDataType* a; //int top; //相当于数组下标,注意栈为空时,top的值应该为?int capacity;//栈的容量 }ST;void STInit(ST* pst); void STD…

基于SSM框架就业管理系统

摘要 本论文主要讲述了基于SSM框架及MySQL数据库实现的就业管理系统的设计和开发过程。本论文中所讲的就业管理系统是通过所学的知识创办一个非商业性的网站平台,使所有想要就业信息查看的高校毕业生们与想要宣传自己公司的商家们都可以更方便快捷的进行就业和体验…

MobaXterm不显示隐藏文件

MobaXterm在左边显示隐藏文件,以.开头的文件,想让它不显示 点击方框圈中的不显示隐藏文件 隐藏文件不显示了

InterlliJ Debug方式启动 method breakpoints may dramatically show down debugging

使用idea在DEBUG的时候出现Method breakpoints may dramatically slow down debugging, 如图: 根据语义可能是断点打在方法上面了,导致在某个断点卡住了。 重启服务器和重启idea已然无解。 打开Breakpoints面板看看,(快捷键&…

【javaWeb Maven高级】Maven高级学习

Maven高级学习 分模块设计继承与聚合继承版本锁定聚合 私服资源的上传与下载本地私服配置 分模块设计 为什么需要进行分模块设计? 将项目按照功能拆分成若干个子模块,方便项目的管理维护,扩展,也方便模块间的相互调用&#xff0c…

电商技术揭秘六:前端技术与用户体验优化

文章目录 引言一、前端技术在电商中的重要性1.1 前端技术概述1.2 用户体验与前端技术的关系 二、响应式设计与移动优化2.1 响应式设计的原则2.2 移动设备优化策略2.3 响应式设计的工具和框架 三、交互设计与用户体验提升3.1 交互设计的重要性3.2 用户体验的量化与优化3.3 通过前…

【更新】中国区域创新能力指数数据集(无缺失值)(2001-2022年)

01、数据简介 中国区域创新能力指数是一个综合反映各地区在知识创造、知识获取、企业创新、创新环境和创新绩效等方面能力的指标。该指数基于一系列复杂的评价体系,包括多个层级的指标,以全面、准确地衡量中国各区域的创新能力。 《中国区域创新能力报…

在局域网内进行ARP欺骗攻击(Kali)_kali局域网攻击,从入门到真香

fping –asg 192.168.6.0/24 下图看到,同网段有四个活动IP 3、实施断网攻击 命令:arpspoof –i 网卡 –t 靶机IP地址 网关 -i 指定网卡 -t 持续不断攻击 我的命令:arpspoof –i eth0 –t 192.168.6.137 192.168.6.1 Kali中持续不断地发送arp应…

通信光缆主要敷设方式有哪些

由于建设条件和建设要求不同,通信光缆在不同场景下会采取不同的敷设方式,常见敷设方式包括:直埋、架空、管道、水底及局内等。 1 直埋敷设 直埋,也就是直接埋设,是指把光缆直接埋设于地下土壤中的敷设方式。通常&…

Oracle 中 where 和 on 的区别

1.Oracle 中 where 和 on 的区别 on:会先根据on后面的条件进行筛选,条件为真时返回该行,由于on的优先级高于left join,所以left join关键字会把左表中没有匹配的所有行也都返回,然后生成临时表返回,执行优先级高于…

sharding‐jdbc之分库分表实战

数据库表结构 店铺数据库 SET NAMES utf8mb4; SET FOREIGN_KEY_CHECKS 0;-- ---------------------------- -- Table structure for region -- ---------------------------- DROP TABLE IF EXISTS region; CREATE TABLE region (id bigint(20) NOT NULL COMMENT id,region_…

了解IP地址的基本概念和修改步骤

在数字化时代,IP地址作为网络设备的唯一标识,其重要性不言而喻。无论是为了提升网络性能,还是出于隐私保护的需求,修改IP地址都是网络使用者可能遇到的操作。虎观代理将详细介绍如何修改IP地址,并探讨在修改过程中需要…

用C/C++加Easyx实现俄罗斯方块游戏(爆肝4万字,完全免费)

前言 相信大家一定玩过俄罗斯方块这款小游戏,简单容易上手是老少皆宜的小游戏,今天大家就跟着我来实现这个小游戏吧!让自己学的C语言有用武之地。 为了让俄罗斯方块的开发更为简单些,图像更为丰富,在这里就利用了Easyx…

C++之类和对象(上)

目录 1.面向过程和面向对象初步认识 2.类的引入 3.类的定义 4.类的访问限定符及封装 4.1访问限定符 4.2 类的两种定义方式 第一种: 第二种: 4.3封装 5.类的实例化 6.类对象模型 1.面向过程和面向对象初步认识 C语言是面向过程的,…