网页数据的存储--存储为文本文件(TXT、JSON、CSV)

        用解析器解析出数据后,接下来就是存储数据了。数据的存储有多种多样,其中最简单的一种是将数据直接保存为文本文件,如TXT、JSON、CSV等。这里就介绍将数据直接保存为文本文件。

目录

一、Python存储数据的方法

1、 文件读取

2、 文件写入

3、文件复制

 4、文件读写模式

二、TXT文本文件存储

三、JSON文件存储

1、对象和数组

2、读取JSON

3、输出JSON

 四、CSV文件存储

1、写入

2、读取


一、Python存储数据的方法

        在Python中有一个内置的方法--open方法可以将数据进行存储、读写,使用open方法操作文件就像把大象塞进冰箱一样, 可以分三步走,一是打开文件,二是操作文件,三是关闭文件。 

1、 文件读取

  • f=open(测试1.txt,mode='r,encoding=utf-8’)     读取指定位置的文件,文件编码为utf-8
  • f.read()             读取文件的所有内容
  • f.readline()       读取文件的一行数据
  • f.readlines()     从文件中一次读取所有行到一个列表中

 示例如下:

# 打开文件,指定文件位置,进行读取操作,采用utf-8编码
# f = open(r'D:\Python Files\Spider\文件操作\abc.txt', mode='r', encoding='utf-8')
# 读取文件所有数据
txt = f.read()
# 读取文件的一行数据
txt = f.readline()
print(txt, end='')
# 通过循环的方式,读取文件的每一行数据可以读取完文件的所有数据等于read方法
while txt:

    txt = f.readline()
    print(txt, end='')
# 从一个文件中一次读取所有行到一个列表中。
txt = f.readlines()
print(txt)
# 关闭文件
f.close()
print(f.closed)

        但是由于每次采用open方法需要手动的写close方法来关闭文件,如果不关闭文件容易出现文件数据丢失等问题。所以,python中有一个with方法,对文件操作完成后,会自动关闭文件。示例如下:

#输入文件路径,操作方法和编码方式,将其句柄赋给f,通过f来对文件进行操作,操作完后会自动关闭文件 
with open('abc.txt', 'r', encoding='utf-8') as f:
    txt = f.read()
print(f.closed)

2、 文件写入

  • f=open(‘测试1.txt',mode=w',encoding='utf-8')    指定文件的存储位置,文件编码为utf-8
  • f.write(‘字符串’)      给文件写入字符串数据
  • f.writelines(‘列表’)    给文件写入列表数据

示例如下: 

s = '今天天气真好!'
l = ['a', 'b', 'c']
with open('测试2.txt', 'w', encoding='utf-8') as f:
    f.write(s)
    f.writelines(l)

3、文件复制

        现在,我们已经了解了文件的读取与写入,结合这两种办法可以进行文件复制。首先我们指定文件读取的位置和写入文件的存储位置,然后将读取的文件的数据写入指定存储文件的位置。这样,就实现了文件的复制。

示例代码如下:

复制文件
f1 = open('abc.txt', 'r', encoding='utf-8')
f2 = open('abc1.txt', 'w', encoding='utf-8')
f2.writelines(f1.readlines())
f1.close()
f2.close()

 4、文件读写模式

        在使用open方法或者with方法的时候,需要传入一个参数来说明对文件的操作模式。存在各种形式的操作模式,每种操作模式的功能不同。下图介绍所有参数的操作模式:

二、TXT文本文件存储

        将数据保存为TXT文件的操作非常简单,而且TXT文本几乎兼容任何平台,但不利于检索。如果对检索和数据结构的要求不高,追求方便的话就可以采用TXT文本存储。在将数据写入的时候,在指定文件的位置的时候,以txt做文件的后缀名,即可将数据以txt的形式存储。示例如下:

s = '今天天气真好!'
l = ['a', 'b', 'c']
with open('测试2.txt', 'w', encoding='utf-8') as f:
    f.write(s)
    f.writelines(l)

        这里将字符串信息和列表信息都以txt形式存储的测试2文件中,指定以utf-8的形式进行编码。

三、JSON文件存储

        JSON,也就是JavaScript对象标记,通过对象和数组的组合来表示数据,构造简洁、结构化程度非常高,是一种轻量级的数据交换格式。 

1、对象和数组

        在JavaScript 语言中,一切皆为对象,因此任何支持的数据类型都可以通过 JSON 表示,例如字符串、数字、对象、数组等。其中对象和数组是比较特殊且常用的两种类型,下面简要介绍一下这两者。

     对象在JavaScript 中是指用花括号{}包围起来的内容,数据结构是 {key1: value1, key2:value2,…}这种键值对结构。在面向对象的语言中,key表示对象的属性、value 表示属性对应的值,前者可以使用整数和字符串表示,后者可以是任意类型。

        数组在 JavaScript 中是指用方括号[]包围起来的内容,数据结构是 ["java","javascript","vb",…]这种索引结构。在JavaScript 中,数组是一种比较特殊的数据类型,因为它也可以像对象那样使用键值对结构,但还是索引结构用得更多。同样,它的值可以是任意类型。所以,一个 JSON 对象可以写为如下形式:

[{
"name": "Bob",
"gender": "male",
"birthday": "1992-10-18"
},{
"name": "Selina",
"gender": "female",
"birthday": "1995-10-18"
}]

        由[ ]包围的内容相当于数组,数组中的每个元素都可以是任意类型,这个实例中的元素是对象,由{} 包围。JSON 可以由以上两种形式自由组合而成,能够嵌套无限次,并且结构清晰,是数据交换的极佳实现方式。

2、读取JSON

        Python为我们提供了简易的JSON库,用来实现JSON文件的读写操作,可以调用loads方法将JSON文本字符串转为JSON对象。实际上,JSON对象就是Python中列表和字典的嵌套与组合。反过来,我们可以通过dumps方法将JSON对象转为文本字符串。 

示例代码如下:

str = '''
[{
"name": "Bob",
"gender": "male",
"birthday": "1992-10-18"
},{
"name": "Selina",
"gender": "female",
"birthday": "1995-10-18"
}]
'''
import json
print(type(str))
data = json.loads(str)
print(data)
print(type(data))

3、输出JSON

        可以调用dumps方法将JSON对象转化为字符串,然后调用文件的write方法将字符串写入文本。 

示例代码如下:

import json
data = [
    {
        'name':'Bob',
        'gender':'male',
        'birthday':'1970-01-01'        
    }
]
with open('data.json', 'w',encoding='utf-8') as f:
    f.write(json.dumps(data))

        如果JSON对象中存在中文, 中文字符会被编码成Unicode字符。想要不将中文自动编码,直接输出中文,只需将参数ensure_ascii设置为False即可。示例代码如下:

import json
data = [
    {
        'name':'Bob',
        'gender':'male',
        'birthday':'1970-01-01'
    }
]
with open('data.json', 'w',encoding='utf-8') as f:
    f.write(json.dumps(data,ensure_ascii=False))

 四、CSV文件存储

        CSV,逗号分割直或字符分割直,以纯文本的形式存储表格数据,相当于一个结构化表的纯文本形式。它不具备Excel中的数值、公式和格式等内容,就是以特定字符作为分隔符纯文本,结构简单清晰。

1、写入

        在将数据写入的时候,在指定文件的位置的时候,以csv做文件的后缀名,即可将数据以csv的形式存储。

示例代码如下:

import  csv
with open('data.csv', 'w') as csvfile:
    wr = csv.writer(csvfile)
    wr.writerow(['id','name','age'])
    wr.writerow(['101','Mike','21'])
    wr.writerow(['102', 'May', '22'])
    wr.writerow(['103', 'Zang', '24'])

结果如下:

id,name,age

101,Mike,21

102,May,22

103,Zang,24

         写入csv文件的文本默认以逗号分隔每条记录,每调用writerow方法是写入一行数据,如果想修改列与列之间的分隔符,可以传入delimiter参数。其代码如下:

import  csv
with open('data.csv', 'w') as csvfile:
    wr = csv.writer(csvfile,delimiter=' ')
    wr.writerow(['id','name','age'])
    wr.writerow(['101','Mike','21'])
    wr.writerow(['102', 'May', '22'])
    wr.writerow(['103', 'Zang', '24'])

结果如下:

id name age

101 Mike 21

102 May 22

103 Zang 24

        还可以使用writerows方法同时写入多行,此时参数需要传入二维列表。示例代码如下:

import  csv
with open('data.csv', 'w') as csvfile:
    wr = csv.writer(csvfile)
    wr.writerow(['id','name','age'])
    wr.writerows([['101','Mike',21],['102', 'May', 22],['103', 'Zang', 24]])

        此外,爬取爬取的数据大都是结构化数据,这里一般用字典来表示。下面就尝试一下用字典来写入,示例代码如下:

import csv

with open('data.csv', 'w') as csvfile:
    fieldnames = ['id', 'name', 'age']
    wr = csv.DictWriter(csvfile, fieldnames=fieldnames)
    wr.writeheader()
    wr.writerow({'id':'101','name':'Mike','age':21})
    wr.writerow({'id': '102', 'name': 'May', 'age': 32})
    wr.writerow({'id': '103', 'name': 'Zang', 'age': 24})

2、读取

        读取的时候,我们需要通过遍历列表的方式来读取CSV的内容。因为reader方法是将CSV中的内容每一行以列表的方式读出,如果有中文需要制定编码方式。示例代码如下:

import csv
with open('data.csv', 'r', encoding='utf-8') as csvfile:
    r = csv.reader(csvfile)
    for row in r:
        print(row)

结果如下:

['id', 'name', 'age']
[]
['101', 'Mike', '21']
[]
['102', 'May', '32']
[]
['103', 'Zang', '24']
[]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/414916.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

线性规划基础

利用一个简单的实例来介绍什么事线性规划,假设如果有一家巧克力工厂需要生产两种不同类型的巧克力,分别是类型A和类型B,两种巧克力用到的原材料是一样的,都是使用牛奶和可可两种材料,主要的区别是在与这两种原料的配料比区别,而对于类型A巧克力,生产一单位的巧克力会需要…

06|Mysql内部组件结构

1. 连接器 客户端要向mysql发起通信都必须先跟Server端建立通信连接,而建立连接的工作就是由连接器完成的 mysql -h host[数据库地址] -u root[用户] -p root[密码] -P 3306连接步骤: 1、如果用户名或密码不对,你就会收到一个"Access denied for us…

Unity(第十四部)光照

原始的有默认灯光、除了默认的你还可以创建 1、定向光源(类似太阳、从无限远的地方射向地面的光,光源位置并不影响照射角度等,不同方向的旋转影响角度和明亮) 1. 颜色:调整光的颜色2. 模式:混合是实时加烘…

【大数据架构(2)】kappa架构介绍

文章目录 一. Kappa架构1. Speed Layer (Stream Layer) - The Foundation of Kappa Architecture2. Stream Processing: The Heart of Kappa Architecture 二. Benefits of Kappa and Streaming Architecture1. Simplicity and Streamlined Pipeline2. High-Throughput Process…

Vue 3, TypeScript 和 Element UI Plus:前端开发的高级技巧与最佳实践

Vue 3、TypeScript 和 Element UI Plus 结合使用时,可以提供一个强大且灵活的前端开发环境。以下是一些高级用法和技巧,帮助你更有效地使用这些技术: 1. Vue 3 高级特性 Composition API 使用 setup 函数: Vue 3 引入了 Composition API&am…

软考50-上午题-【数据库】-SQL访问控制

一、SQL访问控制 数据控制,控制的是用户对数据的存储权力,由DBA决定。 DBA:数据库管理员。 DBMS数据控制应该具有一下功能: 1-1、授权语句格式 说明: 示例: 1-2、收回权限语句格式 示例: PUBLI…

【C++】拿下! C++中的内存管理

内存管理 1 C 的内存分布2 C语言的内存管理3 C的内存管理3.1 内置类型操作3.2 自定义类型操作 4 operator new与operator delete函数(重点)5 new和delete的实现原理5.1 内置类型5.2 自定义类型new的原理delete的原理new T[ N ] 的原理lete[]的原理 6 总结…

开源现场总线协议栈(ethercat、ethernet/ip、opc ua、profinet、canopen、modbus)

ecat主站及其相关: 1.soem:GitHub - OpenEtherCATsociety/SOEM: Simple Open Source EtherCAT MasterSimple Open Source EtherCAT Master. Contribute to OpenEtherCATsociety/SOEM development by creating an account on GitHub.https://github.com/…

vue项目导出excel ,文件过大导致请求超时的处理方法

一、因为文件过大,请求时间较长,就会产生请求超时的情况,处理方式是可以分为三个接口,接口1用来获取id值,接口2利用id值发起请求,询问是否准备好下载,如果没准备好,则没隔一秒再次发…

LeetCode300.最长递增子序列

题目 给你一个整数数组 nums ,找到其中最长严格递增子序列的长度。 子序列 是由数组派生而来的序列,删除(或不删除)数组中的元素而不改变其余元素的顺序。例如,[3,6,2,7] 是数组 [0,3,1,6,2,2,7] 的子序列。 示例 …

GaN建模:强大但富有挑战性

来源:Modeling GaN: Powerful but Challenging(10年) 文章的研究内容 这篇文章主要研究了氮化镓(GaN)高电子迁移率晶体管(HEMTs)的建模问题。GaN HEMTs是微波频段高功率发射器设计中的关键技术…

Linux服务器中文乱码如何解决

如果服务器上数字和英文均可正常展示,只有中文是奇奇怪怪的乱码,那么可以考虑是服务器本身字体输出有问题。 如何在服务器上安装中文宋体字体库呢,排查及安装字体库步骤如下: 使用 fc-list命令检查服务器是否安装字体库如果提示…

若依前后端分离版开源项目学习

前言:vscode中vue代码没有高亮显示,可以下载vetur插件解决,ctrl点击无法跳转函数定义问题,可以下载vue-helper插件解决;idea中ctrl点击函数即可跳转函数定义。 一、登录 1.生成验证码 基本思路: 后端生…

C#,数值计算,求解微分方程的吉尔(Gear)四阶方法与源代码

1 微分方程 微分方程,是指含有未知函数及其导数的关系式。解微分方程就是找出未知函数。 微分方程是伴随着微积分学一起发展起来的。微积分学的奠基人Newton和Leibniz的著作中都处理过与微分方程有关的问题。微分方程的应用十分广泛,可以解决许多与导数…

Ansible自动化运维(四)jinja2 模板、Roles角色详解

👨‍🎓博主简介 🏅云计算领域优质创作者   🏅华为云开发者社区专家博主   🏅阿里云开发者社区专家博主 💊交流社区:运维交流社区 欢迎大家的加入! 🐋 希望大家多多支…

VUE3搭载到服务器

1.搭建服务器 使用 Windows 自带的 IIS 作为服务器。 步骤如下:https://blog.csdn.net/qq_62464995/article/details/130140673 同时,上面的步骤中,还使用了 cpolar 将 IIS 本地网址映射到公共网址。 注: cpolar客户端&#xf…

【React源码 - 调度任务循环EventLoop】

我们知道在React中有4个核心包、2个关键循环。而React正是在这4个核心包中运行,从输入到输出渲染到web端,主要流程可简单分为一下4步:如下图,本文主要是介绍两大循环中的任务调度循环。 4个核心包: react:…

MySQL 篇-深入了解 DML、DQL 语言(二)

🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 DML、DQL 语言说明 2.0 使用 DML 实现对数据管理和操作 2.1 DML - 增添数据 insert 2.2 DML - 修改数据 update 2.3 DML - 删除数据 delete 3.0 使用 DQL 实现对…

使用.NET 升级助手工具将.net framework4.8 MVC项目升级到net6

1 新建.net framework4.8 MVC项目 随便添加一个可以访问的界面用于测试 2 对当前项目进行升级 注意:若要进行升级,首先确保本地已安装相应的sdk,例如:dotnet-sdk-6.0.402-win-x64.exe1.运行cmd命令窗口,进入项目所在…

【蓝桥杯】快读|min和max值的设置|小明和完美序列|​顺子日期​|星期计算|山

目录 一、输入的三种方式 1.最常见的Scanner的输入方法 2.数据多的时候常用BufferedReader快读 3.较麻烦的StreamTokenizer快读(用的不多) StreamTokenizer常见错误: 二、min和max值的设置 三、妮妮的翻转游戏 四、小明和完美序列 五…