华为AI培训-NLP实验

中文分词、命名实体识别、语义词性标注、语句逻辑推理、文本摘要、机器翻译、文本情感分析、内容创作

1 实验介绍
1.1 实验背景
       中文分词、命名实体识别、语义词性标注、语句逻辑推理是自然语言处理领域中的重要任务。中文分词是将连续的汉字序列切分成有意义的词语序列的过程。命名实体识别是指在文本中识别出具有特定意义的实体,如人名、地名、机构名等。语义词性标注是将词语标注为其在句子中的语法和语义角色。语句逻辑推理是指根据语句中的逻辑关系,推导出新的结论。利用 ChatGLM3 进行这些任务的实验可以帮助我们更好地理解和掌握自然语言处理技术,提高我们对自然语言处理应用的理解和能力。
       ChatGLM3是一个基于 GPT-3的自然语言处理模型,它具有强大的文本生成和理解能力,可以应用于文本摘要、机器翻译、文本情感分析、内容创作等多个领域。
       在文本摘要方面,ChatGLM3可以根据输入的文本内容,自动提取出其中的关键信息,生成简洁准确的摘要,帮助用户快速了解文章主题和要点。
        在机器翻译方面,ChatGLM3可以将一种语言翻译成另一种语言,支持多种语言的翻译,为跨语言交流提供了便利。在文本情感分析方面,ChatGLM3可以分析文本中的情感倾向,包括积极、消极和中性等情感类型,帮助用户了解文本的情感色彩和情感倾向。
        在内容创作方面,ChatGLM3可以根据用户输入的关键词和主题,自动生成文章、新闻、广告等多种文本内容,为用户提供创作灵感和快速撰写文本的工具。

1.2 实验原理
        中文分词是将一段中文文本切分成一系列有意义的词语的过程。ChatGLM3 使用了基于统计学习的分词方法,通过学习大量的中文文本,自动构建出一个词语库,并使用隐马尔可夫模型(HMM)对文本进行分词。命名实体识别是指在文本中识别出具有特定含义的实体,如人名、地名、组织机构名等。ChatGLM3 使用了基于条件随机场(CRF)的方法,通过学习大量的标注数据,自动构建出一个命名实体识别模型,对文本进行命名实体识别。语义词性标注是指为文本中的每个词语标注其词性,并给出其在句子中的语义角色。ChatGLM3 使用了基于深度学习的方法,通过学习大量的标注数据,自动构建出一个语义词性标注模型,对文本进行语义词性标注。语句逻辑推理是指根据前提条件和逻辑规则,推导出结论的过程。ChatGLM3使用了基于逻辑回归的方法,通过学习大量的逻辑规则和标注数据,自动构建出一个逻辑推理模型,对文本进行逻辑推理。
       文本摘要:利用 ChatGLM3 生成摘要,可以通过输入一段长文本,让模型自动生成一段简短的摘要。实验原理是ChatGLM3通过学习大量的文本数据,能够理解文本的主题和关键信息,从而生成简洁准确的摘要。
       机器翻译;利用 ChatGLM3 实现机器翻译,可以输入一句话或一段文本,让模型自动将其翻译成另一种语言。实验原理是,ChatGLM3 通过学习大量的双语语料库,能够理解不同语言之间的语法、词汇和语义,从而实现准确的翻译
       文本情感分析:利用 ChatGLM3 进行文本情感分析,可以输入一段文本,让模型自动判断文本的情感倾向,如积极消极或中性。实验原理是,ChatGLM3通过学习大量的情感标注数据,能够理解文本中的情感色彩和情感表达方式,从而实现准确的情感分析。
       内容创作:利用 ChatGLM3进行内容创作,可以输入一些关键词或主题,让模型自动生成一篇文章、一段对话或首诗歌等。实验原理是,ChatGLM3 通过学习大量的文本数据,能够理解文本的主题和结构,从而生成符合主题和结构的内容。同时,它还能够自动创作出新颖的、富有创意的内容,为内容创作者提供了很大的帮助。

1.3 实验目的
        中文分词:通过分析中文文本,将其切分成一个个有意义的词语,以便后续的语义分析和理解。
        命名实体识别:识别文本中的人名、地名、组织机构名等命名实体,以便更好地理解文本的含义和上下文。
        语义词性标注:对文本中的词语进行词性标注,以便更好地理解其在句子中的作用和语义。
        语句逻辑推理:通过对文本中的逻辑关系进行分析和推理,进一步理解文本的含义和逻辑结构。
        文本摘要:利用 ChatGLM3可以对一篇较长的文章进行自动化的文本摘要,提取出文章的主要内容和关健信息,从而快速了解文章的核心内容。
        机器翻译:ChatGLM3 可以用于机器翻译,将一种语言翻译成另一种语言。利用 ChatGLM3 的强大语言模型,可以提高翻译的准确性和流畅度,从而更好地满足用户的需求。
       文本情感分析:ChatGLM3 可以用于文本情感分析,帮助用户了解一段文本的情感倾向。通过分析文本中的词汇和语义,ChatGLM3 可以自动识别文本的情感,如积极、消极或中性等。
        内容创作:利用 ChatGLM3 可以生成高质量的文本内容,如文章、新闻、广告等。通过输入一些关键词和主题ChatGLM3 可以自动生成相关的文本内容,从而提高内容创作的效率和质量。

2.实验

2.1任务一 中文分词

连接服务器后

cd /root/home/ChatGLM3-main/openai_api_demo

python api_server.py(只能一个人执行)

本地新建"中文分词.py"文件,将以下代码制到"中文分词.py"并保存,127.0.0.1 改为 ChatGLM3 部署服务器的地址即可。

import sys
from openai import OpenAI

base_url = "http://127.0.0.1:8000/v1/"
client = OpenAI(api_key="EMPTY", base_url=base_url)


def simple_chat(use_stream=True,text=""):
    messages = [
        {
            "role": "system",
            "content": "You are ChatGLM3, a large language model trained by Zhipu.AI. Follow the user's "
                       "instructions carefully. Respond using markdown.",
        },
        {
            "role": "user",
            "content": f"例如:'中国 / 的 / 首都 / 是 / 北京 / 。',分词结果应该是逐个词语独立,并且每个词语都要分割出来,按照以上案例将以下中文句子进行分词:{text} \n"
        }
    ]
    response = client.chat.completions.create(
        model="chatglm3-6b",
        messages=messages,
        stream=use_stream,
        max_tokens=1024,
        temperature=0.8,
        presence_penalty=1.1,
        top_p=0.8)
    if response:
        if use_stream:
            for chunk in response:
                print(chunk.choices[0].delta.content)
        else:
            content = response.choices[0].message.content
            print(content)
    else:
        print("Error:", response.status_code)


if __name__ == "__main__":
    simple_chat(use_stream=False,text=sys.argv[1])
    #simple_chat(use_stream=True)

修改之后保存,在Anaconda中进入自己的环境:conda activate student,进入自己要运行的文件中:cd D:\AI,运行python .\中文分词.py 信号与系统课程的教学方法给了我很大的启发,让我意识到在教学中要不断创新教学方法 ,将抽象的理论知识与实际应用相结合,提高学生的学习兴趣和积极性。在今后的教学中,我将尝试引入更多的实际案例、工程应用。

得到下图分词结果:

2.2语义词性标注

将上述代码中的
"content": f"例如:'中国 / 的 / 首都 / 是 / 北京 / 。',分词结果应该是逐个词语独立,并且每个词语都要分割出来,按照以上案例将以下中文句子进行分词:{text} \n"

替换成

"content": f"请标注以下中文句子中的每个单词的词性:{text}\n"

修改之后保存,运行 python .\语义词性.py 信号与系统课程的教学方法给了我很大的启发,让我意识到在教学中要不断创新教学方法 ,将抽象的理论知识与实际应用相结合,提高学生的学习兴趣和积极性。在今后的教学中,我将尝试引入更多的实际案例、工程应用。

得到下图结果

2.3语句逻辑推理

语句逻辑推理同样替换
'contents":f"根据以下句子,进行逻辑推理:{text}”

得到结果:

2.4其他实验

文本摘要
'contents":f"请对以下中文文本进行摘要:{text}”

情感分析
'contents":f"请分析以下用户回复的情感倾向:{text}”

内容创作
'contents":f"基于以下内容帮助用户生成文章、故事、诗歌等文本内容、用于媒体、广告、营销等场景:{text} ”

命名实体识别
'contents":f"请识别以下句子中的命名实体:{text}”

2.5 机器翻译

修改以下:
19行:def simple_chat(use_stream=True,original="中文",target="英文",text=""):
28行; 请将以下{original}句子翻译为{target}:{text}
52行:simple_chat(use_stream=False,original=sys.argv[1],target=sys.argv[2],text=sys.argv[3])

其他步骤同上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/956333.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

一文大白话讲清楚webpack基本使用——4——vue-loader的配置和使用

一文大白话讲清楚webpack基本使用——4——vue-loader的配置和使用 1. 建议按文章顺序从头看是看 第一篇:一文大白话讲清楚啥是个webpack第二篇:一文大白话讲清楚webpack基本使用——1——完成webpack的初步构建第三篇一文大白话讲清楚webpack基本使用…

【从零开始入门unity游戏开发之——C#篇46】C#补充知识点——命名参数和可选参数

考虑到每个人基础可能不一样,且并不是所有人都有同时做2D、3D开发的需求,所以我把 【零基础入门unity游戏开发】 分为成了C#篇、unity通用篇、unity3D篇、unity2D篇。 【C#篇】:主要讲解C#的基础语法,包括变量、数据类型、运算符、…

< OS 有关 > 阿里云:轻量应用服务器 的使用 安装 Tailscale 后DNS 出错, 修复并替换 apt 数据源

VPS 配置 主机:vCPU x2, 512MB, 20GB位置:阿里云,日本.东京OS: ubuntu24.20 原因: 这篇是操作过程的记录文章。 2 个月前, 在阿里云买了台 vps 。当时本想放到韩国,因为它离北京近。 但最便…

第6章 ThreadGroup详细讲解(Java高并发编程详解:多线程与系统设计)

1.ThreadGroup 与 Thread 在Java程序中, 默认情况下, 新的线程都会被加入到main线程所在的group中, main线程的group名字同线程名。如同线程存在父子关系一样, Thread Group同样也存在父子关系。图6-1就很好地说明了父子thread、父…

力扣刷题—爬楼梯

文章目录 一、题目二、示例三、解析四、代码 一、题目 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢? 二、示例 输入: n 2输出: 2三、解析 用f(x)表示爬到第x级台阶的方…

Python(十七)excel指定列自动翻译成英文

前言 本章主要讲述在excel的指定列后面添加一列,并翻译成英文 一、效果图 二、代码 实际需求: # -*- codeing utf-8 -*- # time: 2025/1/16 16:32 # Author : Mikasa # # Aim:自动将客户发的货物清单里的商品名称,翻译成英文…

JavaEE

一.web开发概述 1.服务器 解释1:服务器是一款软件,可以向其他发送请求,服务器会做出一个响应。可以在服务器中部署文件,让其他人访问。 解释2:也可以把运行服务器软件的计算机称为服务器 2.安装服务器 Tomcat官方…

基于海思soc的智能产品开发(高、中、低soc、以及和fpga的搭配)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 市场上关于图像、音频的soc其实非常多,这里面有高、中、低档,开发方式也不相同。之所以会这样,有价格的因素&am…

w~深度学习~合集5

我自己的原文哦~ https://blog.51cto.com/whaosoft/13083433 #Agile But Safe 足式机器人领域又一次迎来创新!CMU 与 ETH Zurich 团队联合研发了一个名为 「敏捷但安全」(ABS,Agile But Safe)的新框架,为四足机器…

Excel重新踩坑6:工作实战总结之根据筛选条件求平均成绩

一、前言: 这个博客的实战场景:给了一组学生数据,这些数据中,有全市20个社区,1-9年级的学生各科成绩。要求按照各社区统计1-9年级的所有学生各科平均值。下面首先介绍会用到的一些函数,然后再简单说明实战…

STL容器-- list的模拟实现(附源码)

STL容器-- list的模拟实现(附源码) List的实现主要考察我们对list这一容器的理解,和代码的编写能力,通过上节对list容器的使用,我们对list容器已经有了一些基本的了解,接下来就让我们来实现一些list容器常见…

PageHelper快速使用

依赖 <!--分页插件PageHelper--> <dependency><groupId>com.github.pagehelper</groupId><artifactId>pagehelper-spring-boot-starter</artifactId><version>1.4.7</version> </dependency>示例 /** * 封装分页结果…

大华Java开发面试题及参考答案 (上)

TCP 的三次握手和四次挥手过程中各个状态的细节是怎样的&#xff1f; TCP&#xff08;Transmission Control Protocol&#xff09;是一种面向连接的、可靠的传输层协议&#xff0c;其三次握手和四次挥手过程涉及多个状态&#xff0c;以下是详细的状态细节&#xff1a; 三次握手…

ACL基础理论

ACL ——访问控制列表 ACL属于策略的一种 ACL访问控制列表的作用&#xff1a; 访问控制&#xff1a;在路由器流量流入或流出的接口上&#xff0c;匹配流量&#xff0c;然后执行设定好的动作&#xff1a;permit&#xff08;允许&#xff09;、deny&#xff08;拒绝&#xff…

【陕西省乡镇界】面图层shp格式arcgis数据乡镇名称和编码2020年wgs84坐标无偏移内容测评

标题中的“陕西省乡镇界面图层shp格式arcgis数据乡镇名称和编码2020年wgs84坐标无偏移.zip”表明这是一个地理信息系统&#xff08;GIS&#xff09;的数据集&#xff0c;专为陕西省的乡镇区域设计。该数据集以Shapefile&#xff08;shp&#xff09;格式提供&#xff0c;是GIS领…

简述mysql 主从复制原理及其工作过程,配置一主两从并验证

第一种基于binlog的主从同步 首先对主库进行配置&#xff1a; [rootopenEuler-1 ~]# vim /etc/my.cnf 启动服务 [rootopenEuler-1 ~]# systemctl enable --now mysqld 主库的配置 从库的配置 第一个从库 [rootopenEuler-1 ~]# vim /etc/my.cnf [rootopenEuler-1 ~]# sys…

(一)相机标定——四大坐标系的介绍、对应转换、畸变原理以及OpenCV完整代码实战(C++版)

一、四大坐标系介绍 1&#xff0c;世界坐标系 从这个世界&#xff08;world&#xff09;的视角来看物体 世界坐标系是3D空间坐标&#xff0c;每个点的位置用 ( X w , Y w , Z w ) (X_w,Y_w,Z_w) (Xw​,Yw​,Zw​)表示 2&#xff0c;相机坐标系 相机本身具有一个坐标系&…

Hugging Face功能介绍,及在线体验文生图模型Flux

Hugging Face简介 对于非机器学习或深度学习领域的人士来说&#xff0c;Hugging Face这个名字可能并不耳熟。然而&#xff0c;随着近年来大模型的迅速崛起&#xff0c;相信大家或多或少都有所接触。如果你对这一领域感兴趣&#xff0c;并在GitHub上查阅过一些开源资料&#xf…

华为ENSP:STP和链路聚合的管理与配置

这里将不再过度阐述STP和链路聚合的理论知识&#xff0c;不清楚的同学可以去观看Cisco文章中的理论知识 理论知识https://blog.csdn.net/2301_76341691/article/details/145166547?fromshareblogdetail&sharetypeblogdetail&sharerId145166547&sharereferPC&…

Asp.Net Core 8.0 使用 Serilog 按日志级别写入日志文件的两种方式

1、所需的Nuget包 本文项目的版本是.NET 8.0&#xff0c;如果使用其它版本安装适配版本即可。 Serilog.AspNetCore(8.0.2) Serilog.Sinks.File(5.0.0) Serilog.Expressions(5.0.0) 2、两种配置方式 2.1 代码形式&#xff08;Program.cs&#xff09; 在Program.cs文件中&am…