从零实现诗词GPT大模型:数据集介绍和预处理

本章将介绍该系列文章中使用的数据集,并且编写预处理代码,处理成咱们需要的格式。

一、数据集介绍

咱们使用的数据集名称是chinese-poetry,是一个在github上开源的中文诗词数据集,根据仓库中readme.md中的介绍,该数据集是最全的中华古典文集数据库,包含 5.5 万首唐诗、26 万首宋诗、2.1 万首宋词和其他古典文集。诗人包括唐宋两朝近 1.4 万古诗人,和两宋时期 1.5 千古词人。
数据集的下载地址:https://github.com/chinese-poetry/chinese-poetry?tab=readme-ov-file,大家可以点击Code按钮,选择Download ZIP将该数据集下载到本地,如下图:
下载数据集
当然,作者收集数据也不易,大家可以顺手点一下star鼓励一下作者,如图:
start
如果你按照上面的步骤,把数据集下载到你本地了,解压后你可以看到如下图所示的目录结构
数据集

作者按照不同诗词类型进行了分类,并且在每个分类下提供了1个到多个的json文件,json文件里按照结构化数据组织了每一个诗词的信息,如下图
诗词结构

二、数据集预处理

上面咱们详细介绍了chinese-poetry数据集的下载方式和作者组织的结构,下面我们将提取每个诗词的标题和内容作为我们需要的部分,并聚合到一个文件中,以方便我们后续训练模型使用。
首先,我们需要把作者提供的诗词类目整理到一个数组中,方便我们后续进行目录的变量

classes = ['五代诗词', '元曲', '全唐诗', '四书五经', '宋词', '幽梦影', '御定全唐詩', '曹操诗集', '楚辞', '水墨唐诗',
           '纳兰性德', '蒙学', '论语', '诗经']

然后,我们可以遍历该数组,拼接一个目录,遍历目录中中的文件,再进行文件处理

for cls in classes:
    dir = base_dir + cls
    files = os.listdir(dir)

    for f in files:
        f = f'{dir}/{f}'
        if os.path.isdir(f):
            if 'error' in f:
                continue

            for ff in os.listdir(f):
                process_json(f'{f}/{ff}')
        else:
            process_json(f)

上面代码中,我们遍历每个类别的目录后,会列出该类别中所有的文件,文件如果是一个目录,则继续遍历这个目录,因为作者提供的目录结构会存在二级目录的情况。
最后,拿到每个json文件后,会调用process_json()函数处理对应的json文件。下面我们开始介绍process_json()函数。

process_json()函数会对上面代码中拿到的每个json文件进行处理,并且从json文件中提取我们需要的信息(诗词的标题和内容),重新组织结构,写入到一个新文件中;该函数还会根据一个简单的策略划分出训练集测试集(训练集用来训练我们的模型,测试集用来在训练过程中测试模型的性能)。整体代码如下

def process_json(file):
    if not file.endswith('.json'):
        return

    with open(file, 'r') as f:
        json_content = f.read()
        array = json.loads(json_content)
        if type(array) != list:
            return

        if len(array) > 100:
            train_array = array[:-1]
            test_array = array[-1:]
        else:
            train_array = array
            test_array = None

        for item in train_array:
            if 'title' not in item.keys() or 'paragraphs' not in item.keys():
                continue

            write_file(item, dst_train_file)

        if test_array is not None:
            for item in test_array:
                if 'title' not in item.keys() or 'paragraphs' not in item.keys():
                    continue

                write_file(item, dst_test_file)

在代码中,首先会打开该json文件,并读取json文件中的内容;读到内容后,通过json.loads()函数将它解码成在python中可以识别的数据结构。
接下来,我们根据该分类下诗词的数据决定是否要划分出测试集,策略很简单,如果个数大于100,我们就把最后一个作为测试集的一部分,当然这个策略可以根据你的需求进行调整。
最后,我们从json中拿到titleparagraphs属性通过一个write_file()函数写到我们的新文件中。

write_file()函数的实现也很简单,作用就是拿到titleparagraphs,组织好结构写入到一个新文件中;我们预处理后的文件不会像原数据集那样提供多个文件,而是全部写到同一个文件中,所以,此时就得考虑一个问题:所有的诗词在一个文件中,怎么标识出一首诗结束了呢?办法很简单,我们在没首诗结束的时候添加一个<|endoftext|>特殊标识,该标识很重要,因为在后面我们训练模型的时候,该标识也会根据此标识学习一首诗到哪结束了(不需要结束,咱们模型就无止境的输出了)。

def write_file(item, dst_file):
    global error_count

    title = item['title']
    paragraphs = item['paragraphs']

    content = f'\n{title}'
    for p in paragraphs:
        content = f'{content}\n{p}'

    content = converter.convert(content)
    if '𫗋' in content:
        print(f'{content}----')
        error_count += 1
        return
    content = content + '<|endoftext|>'
    dst_file.write(content)

上面代码中,处理前面我们介绍的部分,存在两个特殊的地方

...
content = converter.convert(content)
...
if '𫗋' in content

第一个的作用是将繁体中文转换成简体字,因为原数据集中存在大量的繁体字,显然,我们不想让咱们的模型生成的诗词是繁体字形式,所以这里我选择将繁体字转换成简体字,这里借助了一个python的转换库opencc实现,大家可以通过pip3 install opencc-python-reimplemented进行安装,该库的使用方法如下

import opencc
# 繁转简
converter = opencc.OpenCC('t2s')
content = converter.convert(content)

第二个特殊的地方就是我们代码中有一个𫗋,这是因为,通过上述代码转换成简体字的时候会有一些字转换错误,所以我们这里直接将存在转换错误情况的诗过滤掉,当然,这种情况不会很多,大概几十首诗词,对于咱们几十万首诗词的数据集来说都是毛毛雨。

好了,上面就是咱们数据预处理的全部过程,最终你会得到一个如下结构的train.txttest.txt分别代表咱们前面提到过的训练集测试集
预处理后的数据集
最后,我把全部代码整理出来,方便大家可以复制到本地直接运行

import os, json
import opencc

base_dir = 'chinese-poetry-master/'
classes = ['五代诗词', '元曲', '全唐诗', '四书五经', '宋词', '幽梦影', '御定全唐詩', '曹操诗集', '楚辞', '水墨唐诗',
           '纳兰性德', '蒙学', '论语', '诗经']

dst_train_file = open('./train.txt', 'w')
dst_test_file = open('./test.txt', 'w')

converter = opencc.OpenCC('t2s')
error_count = 0


def write_file(item, dst_file):
    global error_count

    title = item['title']
    paragraphs = item['paragraphs']

    content = f'\n{title}'
    for p in paragraphs:
        content = f'{content}\n{p}'

    content = converter.convert(content)
    if '𫗋' in content:
        print(f'{content}----')
        error_count += 1
        return
    content = content + '<|endoftext|>'
    dst_file.write(content)


def process_json(file):
    if not file.endswith('.json'):
        return

    with open(file, 'r') as f:
        json_content = f.read()
        array = json.loads(json_content)
        if type(array) != list:
            return

        if len(array) > 100:
            train_array = array[:-1]
            test_array = array[-1:]
        else:
            train_array = array
            test_array = None

        for item in train_array:
            if 'title' not in item.keys() or 'paragraphs' not in item.keys():
                continue

            write_file(item, dst_train_file)

        if test_array is not None:
            for item in test_array:
                if 'title' not in item.keys() or 'paragraphs' not in item.keys():
                    continue

                write_file(item, dst_test_file)


for cls in classes:
    dir = base_dir + cls
    files = os.listdir(dir)

    for f in files:
        f = f'{dir}/{f}'
        if os.path.isdir(f):
            if 'error' in f:
                continue

            for ff in os.listdir(f):
                process_json(f'{f}/{ff}')
        else:
            process_json(f)

dst_train_file.close()
dst_test_file.close()

dst_train_file = open('./train.txt', 'r')
dst_test_file = open('./test.txt', 'r')

train_count = 0
test_count = 0

for line in dst_train_file:
    if '<|endoftext|>' in line:
        train_count += 1

for line in dst_test_file:
    if '<|endoftext|>' in line:
        test_count += 1

print(f'train_count: {train_count}, test_count: {test_count}, error_count: {error_count}')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/541975.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MySQL基础入门上篇

MySQL基础 介绍 mysql -uroot -p -h127.0.0.1 -P3306项目设计 具备数据库一定的设计能力和操作数据的能力。 数据库设计DDL 定义 操作 显示所有数据库 show databases;创建数据库 create database db02;数据库名唯一&#xff0c;不能重复。 查询是否创建成功 加入一些…

cesium orientation转换成HeadingPitchRoll

cesium中orientation可以设置朝向&#xff0c;由position和HeadingPitchRoll共同决定&#xff0c;类型为headingPitchRollQuaternion&#xff0c;值是一个四元数。 一、设置orientation // entity位置 let position Cesium.Cartesian3.fromDegrees(113.295660, 38.1905, 0);/…

SpringBoot项目接入Nacos注册中心

前置 已经安装好Nacos服务&#xff0c;并且该项目所在服务器可以访问到 可以参考下&#xff1a; windows环境安装Nacos单机版-CSDN博客 Centos7安装Nacos单机版-CSDN博客 1. POM文件引入依赖 注意&#xff0c;父工程已经引入spring cloud依赖管理的情况下不用添加版本号 …

C语言:约瑟夫环问题详解

前言 哈喽&#xff0c;宝子们&#xff01;本期为大家带来一道C语言循环链表的经典算法题&#xff08;约瑟夫环&#xff09;。 目录 1.什么是约瑟夫环2.解决方案思路3.创建链表头结点4.创建循环链表5.删除链表6.完整代码实现 1.什么是约瑟夫环 据说著名历史学家Josephus有过以下…

【spring】AOP切面注解学习(二)

文接上篇&#xff1a;【spring】AOP切面注解学习&#xff08;一&#xff09; AOP切面注解测试示例代码 示例代码 一 maven的pom文件导入 <dependency><groupId>org.springframework</groupId><artifactId>spring-aop</artifactId></depende…

网站建设也会涉及商标侵权,需要注意些!

以前普推知产老杨碰到建站涉及知识产权侵权的&#xff0c;但是大多数是其它方面的&#xff0c;前几天看到某同行说由于给客户建设网站&#xff0c;由于网站名称涉及商标被起诉要索赔几十万。 当时同行给做网站时还看了下营业执照&#xff0c;上面的主体名称与网站名称也是一致…

深入OceanBase内部机制:多租户架构下的资源隔离实现精讲

码到三十五 &#xff1a; 个人主页 心中有诗画&#xff0c;指尖舞代码&#xff0c;目光览世界&#xff0c;步履越千山&#xff0c;人间尽值得 ! 目录 一、什么是OceanBase的多租户二、兼容模式2.1 MySQL 模式2.2 Oracle 模式 三、租户介绍3.1 系统租户3.2 用户租户3.3 Meta 租…

React 组件生命周期对比:Class vs. 函数式

在 React 中&#xff0c;Class 组件和函数式组件的生命周期存在一些差异。通过对 React 中 Class 组件和函数式组件的生命周期进行对比&#xff0c;详细探讨了它们在设计哲学、生命周期管理和开发技巧上的异同。全面了解 React 中两种组件类型的生命周期特点&#xff0c;以及如…

如何访问远程服务器?

在现代技术时代&#xff0c;随着信息化的快速发展&#xff0c;远程访问服务器已经成为了不可或缺的一种需求。无论是企业还是个人用户&#xff0c;都需要通过远程访问来管理、传输和获取数据。本文将介绍一种名为【天联】的工具&#xff0c;它能够通过私有通道进行远程服务器访…

【MYSQL】MySQL整体结构之系统服务

一、系统服务层 学习了MySQL网络连接层后&#xff0c;接下来看看系统服务层&#xff0c;MySQL大多数核心功能都位于这一层&#xff0c;包括客户端SQL请求解析、语义分析、查询优化、缓存以及所有的内置函数&#xff08;例如&#xff1a;日期、时间、统计、加密函数...&#xff…

游戏服务器DDOS克星-抗D盾(游戏盾)

随着网络游戏市场的不断扩大和发展&#xff0c;游戏服务器遭受DDOS攻击的频率也在逐年增加。DDOS攻击的主要目的是使游戏服务器瘫痪&#xff0c;使得游戏无法正常进行&#xff0c;导致游戏运营商巨额损失。鉴于此&#xff0c;针对游戏服务器的防DDOS攻击技术德迅云安全自主研发…

康耐视visionpro-CogCaliperTool操作工具详细说明

CogCaliperTool]功能说明:卡尺工具,用于测量距离 ◆CogCaliperTool操作说明: ①.打开工具栏,双击或点击鼠标拖拽添加CogCaliperTool ②.添加输入图像,右键“链接到”或以连线拖拽的方式选择相应输入源 ③.拖动屏幕上的矩形框到需要测量的位置。卡尺的搜索框角度与边缘不…

基于SpringBoot实现的在线拍卖系统

系统开发环境 编程语言&#xff1a;Java数据库&#xff1a;MySQL容器&#xff1a;Tomcat工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 系统实现 管理员功能模块 首页 修改密码 用户管理 商品类型管理 拍卖商品 竞拍公告 轮播图 历史竞拍管理 竞拍订单管理 留言板管理 用户…

centos编译安装nginx1.24

nginx编译1.24&#xff0c;先下载安装包 机器通外网的话配置nginx的yum源直接yum安装 vim /etc/yum.repos.d/nginx.repo [nginx-stable] namenginx stable repo baseurlhttp://nginx.org/packages/centos/$releasever/$basearch/ gpgcheck1 enabled1 gpgkeyhttps://nginx.org…

JVM垃圾回收(GC)

目录 目录 1.GC 简介 1.1. 引言 1.2. 何为 GC 1.2.1. 手动 GC 1.2.2. 自动 GC 引用计数法 标记清除 2.GC入门分析 2.1.碎片整理 1)对象创建时&#xff0c;执行写入操作越来越耗时 2&#xff09;内存分配错误 2.2. 分代设想 2.3. 对象分配 对象内存分配过程 2.4. …

用AI提升儿童英语口语:和小猪佩奇对话

小孩子大部分都是喜欢动画片的&#xff0c;如果能让动画片中的角色和他们进行口语对话&#xff0c;应该可以极大的激发他们英语学习兴趣。 下面&#xff0c;以小猪佩奇为例来说明如何利用AI来创建一个虚拟的英语口语陪练小猪佩奇角色。 在kimichat对话框中键入提示词&#xf…

第7期 部署两地三中心解决方案SDRS+CBR

第7期 部署两地三中心解决方案SDRSCBR 1.实施步骤&#xff08;部署跨可用区容灾&#xff09;配置跨可用区容灾操作场景约束与限制创建保护组 什么是SDRS什么是CBR什么是两地三中心容灾方案&#xff08;SDRSCBR&#xff09;应用场景方案优势三种容灾方案对比 2.两地三中心方案原…

Stable Diffusion之API接口调用

1、开启api调用模式 开启api模式&#xff0c;关闭可视化窗口&#xff0c;并且建议关闭登录权限&#xff08;详细查看文章最后Stable Diffusion之Ubuntu下部署-CSDN博客&#xff09; ./webui.sh --disable-safe-unpickle --api --nowebui 2、查看接口列表 访问对应的网页地…

ReactRouter

React-Router 概念&#xff1a;一个路劲path对应一个组件component 当我们在浏览器中访问一个path的时候&#xff0c;path对应的组件会在页面中进行渲染路由语法&#xff1a; import {createBrowserRouter, RouterProvider} from react-router-dom// 1. 创建router实例对象并…

Docker之自定义镜像上传至阿里云

一、Alpine介绍 Alpine Linux是一个轻量级的Linux发行版&#xff0c;专注于安全、简单和高效。它采用了一个小巧的内核和基于musl libc的C库&#xff0c;使得它具有出色的性能和资源利用率。 Alpine Linux的主要特点包括&#xff1a; 小巧轻量&#xff1a;Alpine Linux的安装…