【py】使用numpy读取文件,并统计

28021293dc904cfd8b464bd890d030db.png

 

我们需要编写一个脚本来读取文本文件,然后进行字数统计和词频统计。

以下是一个简单的Python脚本,它使用numpy来处理数据。
首先,确保你已经安装了numpy库。如果没有安装,可以通过运行pip install numpy来安装。


然后,你可以使用以下脚本:
import numpy as np
import re
from collections import Counter

# 假设你的文本文件名为'file.txt'
file_path = 'file.txt'

# 1. 读取文件
with open(file_path, 'r', encoding='utf-8') as file:
    text = file.read()

# 2. 统计文件的总字数
total_words = len(text.split())
print(f'Total number of words: {total_words}')

# 3. 统计出现频率最高的10个词,并进行排序
# 使用正则表达式来找到单词,这里假设单词由字母组成
words = re.findall(r'\b\w+\b', text.lower())
word_counts = Counter(words)

# 获取出现频率最高的10个词
most_common_words = word_counts.most_common(10)
print('Most common words:')
for word, count in most_common_words:
    print(f'{word}: {count}')

# 如果你想使用numpy来处理数据,你可以将文本转换为numpy数组,但这在这个例子中是多余的
# text_array = np.array(text)

请将file.txt替换为你的文件名。这个脚本首先读取文件内容,然后统计总字数,接着使用正则表达式来找到所有的单词,并使用collections.Counter来统计每个单词的出现次数,最后输出出现频率最高的10个词。
请注意,这个脚本假设文本文件是UTF-8编码的。如果你的文件使用不同的编码,请相应地更改open函数中的encoding参数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/892048.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Gin框架操作指南06:POST绑定(下)

官方文档地址(中文):https://gin-gonic.com/zh-cn/docs/ 注:没用过Gin的读者强烈建议先阅读第一节:Gin操作指南:开山篇。 本节继续演示POST绑定,包括将request-body绑定到不同的结构体中&#x…

小猿口算辅助工具(nodejs版)

github 地址:https://github.com/pbstar/xyks-helper 实现原理 通过屏幕截图截取到题目区域的两个数字,然后通过 ocr 识别出数字,最后通过计算得出答案,并通过模拟鼠标绘制答案。 依赖插件 node-screenshots:屏幕截…

微知-Mellanox驱动中的iSCSI是什么?有哪三种网络存储有哪三种?iSER是什么?(iSCSI协议(总线),SAN 存储区域网络)

背景 本文根据Mellanox网卡驱动中关于iSCSI模块,来介绍iSCSI是什么?该技术发展演进背景? 关于iSCSI iSCSI是一种协议,SCSI是总线。比如常说的SAS(Serial Attach SCSI)存储盘对比与家用的SATA&#xff0…

Facebook上的隐私保护:如何加强个人数据的安全性?

在数字化时代,个人数据的保护已成为用户日益关注的话题,尤其是在社交媒体平台如Facebook上。用户在享受社交媒体带来的便利时,如何有效保护个人隐私,维护自身的数据安全,成为了一个亟需解决的问题。 Facebook的隐私保护…

算法备案不再难!一篇文章让你成为备案达人

随着互联网的迅猛发展,算法推荐已成为众多互联网信息服务的重要组成部分。然而,算法推荐技术的广泛应用也带来了一系列风险和挑战。为了保障公众利益,规范互联网信息服务算法推荐活动,相关部门出台了《互联网信息服务算法推荐管理…

Dubbo接口级和应用级注册,Dubbo消费者注册到Nacos

学习文档 视频学习 代码演示环境 Dubbo 3.2.9Nacos 2.3.0 一、什么是接口级和应用级 假设有一个服务A,里面提供了2个Dubbo接口XdxOneService、XdxTwoService,Dubbo生产者把服务注册到Nacos(或其它的注册中心) 以应用级别注册&a…

MySQL之Buffer Pool缓冲池详解

为什么要有 Buffer Pool? 虽然说 MySQL 的数据是存储在磁盘里的,但是也不能每次都从磁盘里面读取数据,这样性能是极差的。 要想提升查询性能,加个缓存就行了嘛。所以,当数据从磁盘中取出后,缓存内存中&am…

软件功能测试重点和流程有哪些?专业软件测评服务公司推荐

软件功能测试就是对产品的各功能进行验证,根据功能测试用例,逐项测试,检查产品是否达到用户要求的功能。功能测试也叫黑盒测试或数据驱动测试,只需考虑需要测试的各个功能,不需要考虑整个软件的内部结构及代码.一般从软…

Unity修改鼠标图片【超简单】

1.向Unity导入需要修改的鼠标图片,在Unity内设置图片的Texture Type为Cursor。 2.编写代码 [SerializeField] Texture2D mouseTex;//放图片 void Start() {Cursor.SetCursor(mouseTex, Vector2.zero, CursorMode.Auto); }3.代码挂载在某物体(或者随便哪…

2024年区块链钱包现状与未来趋势分析

钱包作为Web3世界的入口,充当了用户与区块链应用交互、管理资金和传递信息的关键工具。随着区块链技术的发展,钱包生态系统日益多样化,涌现出大量不同类型的解决方案。这些解决方案不仅极大地改善了用户体验,还推动了区块链技术和…

string模拟优化和vector使用

1.简单介绍编码 utf_8变长编码,常用英文字母使用1个字节,对于其它语言可能2到14,大部分编码是utf_8,char_16是编码为utf_16, char_32是编码为utf_32, wchar_t是宽字符的, utf_16是大小为俩个字节&a…

玩转大模型(二)启动一个大模型

写这篇文章是几个月前了,现在模型和框架已经更新了好几轮了,但不影响吧,后面会把这几个月的发展专门用一篇文章补上。 在上一篇中,硬件全都准备好了,软件也已经安装完成,相应的配置都已经做完,…

StarRocks大批量数据导入方案-使用 Kafka connector 导入数据

本文详细介绍如何使用Routine Load 导入数据 一、准备工作 1.1 安装基础环境 主要是安装StarRocks和Kafka,本文直接跳过不做详细介绍~ 二、概念及原理 2.1 概念 导入作业(Load job) 导入作业会常驻运行,当导入作业的状态为 R…

使用idea和vecode创建vue项目并启动(超详细)

一、idea创建vue项目 创建项目之前先下载好插件 新建项目找到vue生成器 写好名称,找到自己需要存放的地址,node解释器安装方式可以看我上一个博客,vueCLI是选择vue的版本,我们可以使用idea自带的vue版本默认是vue3,创…

SQL注入漏洞(三)

报错注入 group by重复键冲突 (count()floor()rand()group by 组合)就是利用 count()、rand()、floor()、 group by 这几个特定的函数结合在一起产生的注入漏洞。 ?id1 and (select 1 from (select count(*),concat(0x5e,(select version() from inf…

[含文档+PPT+源码等]精品基于Nodejs实现的微信小程序校园心理健康平台设计与实现

《[含文档PPT源码等]精品基于Nodejs实现的微信小程序校园心理健康平台设计与实现》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、项目发布教程等福利! 软件开发环境及开发工具: 操作系统:Windows 10、Windows 7、Windows 8 开…

前端excel的实现方案Luckysheet

一、介绍 Luckysheet是一款纯前端类似excel的在线表格&#xff0c;功能强大、配置简单、完全开源的插件。目前已暂停维护&#xff0c;但是其已有功能大概能满足常见需求的使用。 二、引入 ①cdn引入&#xff08;目前应该已经不支持&#xff0c;可自行尝试&#xff09; <l…

mysql 10 单表访问方法

01.优化的过程 对于我们这些 MySQL 的使用者来说&#xff0c; MySQL 其实就是一个软件&#xff0c;平时用的最多的就是查询功能。DBA时不时丢过来一些慢查询语句让优化&#xff0c;我们如果连查询是怎么执行的都不清楚还优化个毛线&#xff0c;所以是时候掌握真正的技术了。我…

LED显示屏与手机连接:简单便捷的操作指南

随着科技的飞速发展&#xff0c;LED显示屏已经成为现代商业和公共信息展示的重要工具。它们不仅在户外广告中扮演着重要角色&#xff0c;室内应用也越来越广泛。智能手机的普及使得我们希望能够通过手机直接控制LED显示屏&#xff0c;以实现更灵活、更便捷的信息展示。那么&…

证件照小程序源码,前后端稳定运行

演示&#xff1a;证寸照制作 运行环境: Linux Nginx PHP >5.6 MySQL>5.6 安装步骤: 1.下载源码上传至你的服务器宝塔面板 2.直接添加站点选择源码目录&#xff0c;新建数据库 3.设置代码执行目录为/web 4.在浏览器中输入你的域名&#xff0c;会提示安装&#xff0c;填写…