使用 PyTorch 构建 NLP 聊天机器人

一、说明

        聊天机器人提供自动对话,可以帮助用户完成任务或寻求信息。随着深度学习的最新进展,聊天机器人正变得越来越具有对话性和实用性。这个全面的教程将利用 PyTorch 和 Python 从头开始构建聊天机器人,涵盖模型架构、数据准备、训练循环、评估和部署。

查看 JavaScript 中的自然语言处理 (NLP)(系列)

二、设置 Python 环境

我们首先需要一个环境来运行我们的聊天机器人代码。本指南使用 Python 3.8 和 PyTorch 1.12:

# Create conda env 
conda create -n chatbot python=3.8
conda activate chatbot
# Install PyTorch 
pip install torch==1.12.0+cpu torchvision==0.13.0+cpu torchaudio===0.12.0 -f https://download.pytorch.org/whl/torch_stable.html
# Check installs 
python -c "import torch; print(torch.__version__)"

这为我们提供了用于机器学习工作的最新 PyTorch 版本。

三、聊天机器人模型架构

模型架构定义了生成聊天机器人响应的数据流和计算。我们将使用基于 LSTM 的编码器-解码器架构,该架构通常用于序列到序列任务。

编码器将输入语句(例如,“天气预报是什么?”)映射到固定长度的矢量表示形式中。解码器将此表示映射到自然语言响应(例如,“今天天气晴朗,25摄氏度”)。

import torch
import torch.nn as nn
class EncoderLSTM(nn.Module):
    def __init__(self, input_size, hidden_size):
        super().__init__()  
        self.lstm = nn.LSTM(input_size, hidden_size)
    def forward(self, input):
        _, (hidden, cell) = self.lstm(input)  
        return hidden, cell
class DecoderLSTM(nn.Module): 
    def __init__(self, input_size, hidden_size):
        super().__init__()
        self.lstm = nn.LSTM(input_size, hidden_size)
    def forward(self, input):
        outputs, _ = self.lstm(input)
        return outputs
class Seq2Seq(nn.Module):
    def __init__(self, encoder, decoder): 
        super().__init__()
        self.encoder = encoder
        self.decoder = decoder

我们实例化编码器和解码器,并将它们组合成一个 Seq2Seq 模型。我们将对此进行端到端的训练。

四、准备训练数据

我们需要一个对话示例数据集来训练我们的模型。导入数据集后,我们将文本标记为整数序列:

Kaggle 托管对话语料库,如 Ubuntu 对话语料库、句子释义集合和每日对话数据集,它们提供 100k+ 对话交流。这些是免费下载和使用的。

data = load_dataset("daily_dialog")
def tokenize(text):
    return [vocab[token] for token in text.split(" ")] 
vocab = {"hello": 1, "what": 2, "is": 3, ...}
tokenized_data = data.map(tokenize)

我们可以将其拆分为训练集和验证集:

from sklearn.model_selection import train_test_split
train_data, val_data = train_test_split(tokenized_data)

五、训练循环

        准备好数据后,我们定义模型、损失准则和优化器,然后循环示例:

embed_size = 128
hidden_size = 512
model = Seq2Seq(encoder=EncoderLSTM(embed_size, hidden_size),
                decoder=DecoderLSTM(embed_size, hidden_size))
criterion = nn.NLLLoss()
optimizer = torch.optim.Adam(model.parameters())
for epoch in range(10):
    for input, target in train_data:
       output = model(input)  
       loss = criterion(output, target)
       loss.backward()  
       optimizer.step()
       optimizer.zero_grad()

        通过反复计算损失和反向传播,我们的模型学习了生成逻辑。

六、模型评估

        我们使用困惑度和 BLEU 分数等指标评估我们训练有素的聊天机器人的验证数据:

from transformers import GPT2Tokenizer
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
scores = evaluate(model, val_data, tokenizer)  
print(f"Perplexity score: {scores['perplexity']}")
print(f"BLEU score: {scores['bleu']}")

        这些度量检查模型生成的流畅性、合理性和准确性。

七、部署

        一旦我们有了一个高性能模型,我们就使用 FastAPI 将其打包到 API 中:

import fastapi
app = fastapi.FastAPI()
@app.post("/chat")
def chat(input: str):
    input = tokenize(input) 
    output = model(input)
    return {"bot": output}

API 获取输入文本,将其馈送到我们的模型以生成机器人响应,并返回预测。

八、结论

        有了它,我们在 Python 中拥有了一个功能齐全的深度学习聊天机器人,可以响应消息并进行对话!我们学习了如何对模型进行排序,例如擅长文本数据的 LSTM,在 PyTorch 中训练聊天机器人模型,并了解如何优化、改进和部署我们的创作。

        还有很多事情可以做,比如添加个性化、链接 API 数据源以获取新鲜事实、集成翻译功能等等——聊天机器人的工作永远不会完成!我喜欢指导您完成本教程,并希望您能使用这些新技能来构建您的智能聊天应用程序。

九、常见问题解答

  • 为什么 PyTorch 更适合聊天机器人而不是 TensorFlow 或其他库?

我不会说它一定更好,但 PyTorch 的急切执行(动态计算而不是静态图)可以使迭代和调试更容易。所有主要框架都有其优势。选择你喜欢与之合作的人!

  • 我需要多少数据来训练一个好的聊天机器人?

没有硬性门槛,但一般来说,对话数据越多越好。数十万到数百万个对话示例对于生成类似人类的响应并非不切实际。利用预先训练的语言模型检查点也有帮助。

  • 需要什么样的硬件计算能力?我可以在本地或笔记本电脑上运行复杂的模型吗?

建议使用 GPU 加速,以获得除最基本原型之外的所有原型的良好性能。如果您没有认真的硬件,云服务提供 GPU 甚至量子加速训练!但要开始在本地进行试验,稍后再扩大规模。

  • 除了聊天机器人,我还可以使用 PyTorch 探索哪些其他 NLP 应用程序?

吨!文本分类、语义搜索、语法校正、预测类型、文档摘要、语言翻译......天空是无限的!PyTorch 拥有出色的文本支持和活跃的开发人员社区。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/372117.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【动态规划】【状态压缩】【2次选择】【广度搜索】1494. 并行课程 II

作者推荐 视频算法专题 本文涉及知识点 动态规划汇总 状态压缩 广度优先搜索 LeetCode1494. 并行课程 II 给你一个整数 n 表示某所大学里课程的数目,编号为 1 到 n ,数组 relations 中, relations[i] [xi, yi] 表示一个先修课的关系&am…

nginx slice模块的使用和源码分析

文章目录 1. 为什么需要ngx_http_slice_module2. 配置指令3. 加载模块4. 源码分析4.1 指令分析4.2 模块初始化4.3 slice模块的上下文4.2 $slice_range字段值获取4.3 http header过滤处理4.4 http body过滤处理5 测试和验证 1. 为什么需要ngx_http_slice_module 顾名思义&#…

配置Jenkins自动构建打包项目

转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。 需求说明 1、给A项目配置jenkins每2小时无条件自动构建一次,无论是否有代码提交。 2、给B项目配置jenkins每15分钟检…

FPGA高端项目:IMX327 MIPI 视频解码 USB3.0 UVC 输出,提供FPGA开发板+2套工程源码+技术支持

目录 1、前言免责声明 2、相关方案推荐我这里已有的 MIPI 编解码方案 3、本 MIPI CSI-RX IP 介绍4、个人 FPGA高端图像处理开发板简介5、详细设计方案设计原理框图IMX327 及其配置MIPI CSI RX图像 ISP 处理图像缓存UVC 时序USB3.0输出架构 6、vivado工程详解FPGA逻辑设计 7、工…

ChatGPT辅助编程,一次有益的尝试

如果大家想学习PCIe,搜索网上的信息,大概率会看到chinaaet上Felix的PCIe扫盲系列的博文 Felix-PCIe扫盲 每次看这个系列博文的时候,我都在想有没有什么方法可以把这个系列的博文都保存到一个pdf文件中,这样方便阅读。于是有了下…

异地办公必不可缺的远程控制软件,原理到底是什么?

目录 引言远程桌面连接软件的作用与重要性 基本概念与架构客户端-服务器模型网络通信协议 核心技术组件图形界面捕获与传输输入转发会话管理 性能优化策略带宽优化延迟优化 引言 远程桌面连接软件的作用与重要性 在当今这个高度数字化和网络化的时代,远程桌面连接软…

R语言学习case10:ggplot基础画图Parallel Coordinate Plot 平行坐标图

step1: 导入ggplot2库文件 library(ggplot2)step2&#xff1a;带入自带的iris数据集 iris <- datasets::irisstep3&#xff1a;查看数据信息 dim(iris)维度为 [150,5] head(iris)查看数据前6行的信息 step4&#xff1a;利用ggplot工具包绘图 plot5 <- ggparcoord(…

Linux目录:traceroute命令

目录 traceroute1、简介2、探测原理3、traceroute说明4、实例设置每跳探测数设置跳数探测包使用的基本UDP端口设置6789把对外发探测包的等待响应时间设置为3秒 总结 traceroute 1、简介 traceroute的主要功能是跟踪从IP网络发送到指定主机经过的网关的工具。它利用IP协议的生…

npm淘宝镜像源换新地址

新的淘宝npm镜像源地址&#xff1a;https://registry.npmmirror.com 切换新的镜像源 npm config set registry https://registry.npmmirror.com然后再执行以下操作查看是否成功 npm config list如果没安装过淘宝镜像源的&#xff0c;则直接安装 npm install -g cnpm --regi…

机器学习 - 梯度下降

场景 上一章学习了代价函数&#xff0c;在机器学习中&#xff0c;代价模型是用于衡量模型预测值与真实值之间的差异的函数。它是优化算法的核心&#xff0c;目标是通过调整模型的参数来最小化代价模型的值&#xff0c;从而使模型的预测结果更接近真实值。常见的代价模型是均方…

哪些因素会影响游戏服务器开发的性能?

在游戏开发中&#xff0c;服务器性能是一个关键因素&#xff0c;它影响着游戏的运行速度、稳定性以及玩家的游戏体验。游戏服务器需要处理大量的数据和请求&#xff0c;因此其性能受到多种因素的影响。本文将探讨影响游戏服务器开发性能的几个关键因素。 ​1、硬件资源 服务器…

互联网加竞赛 基于深度学习的目标检测算法

文章目录 1 简介2 目标检测概念3 目标分类、定位、检测示例4 传统目标检测5 两类目标检测算法5.1 相关研究5.1.1 选择性搜索5.1.2 OverFeat 5.2 基于区域提名的方法5.2.1 R-CNN5.2.2 SPP-net5.2.3 Fast R-CNN 5.3 端到端的方法YOLOSSD 6 人体检测结果7 最后 1 简介 &#x1f5…

PySpark(二)RDD基础、RDD常见算子

目录 RDD RDD五大特性 RDD创建 RDD算子 常见的Transformation算子 map flatMap mapValues reduceByKey groupBy filter distinct union join intersection glom groupByKey groupByKey和reduceByKey的区别 ? sortBy sortByKey 常见的action算子 countByKey…

Zoho联合知了标讯,为CRM系统加入智能招投标功能

随着我们在国内合作伙伴的名单不断扩充&#xff0c;CRM管理系统也在持续上线新功能。去年&#xff0c;Zoho联合知了标讯发布了智能招投标功能&#xff0c;集成在自己的CRM系统中&#xff0c;对有招投标需求的企业来说提供了莫大的便利。接下来&#xff0c;让我为您介绍&#xf…

【粉丝福利社】一书读懂物联网:基础知识+运行机制+工程实现(文末送书-完结)

&#x1f3c6; 作者简介&#xff0c;愚公搬代码 &#x1f3c6;《头衔》&#xff1a;华为云特约编辑&#xff0c;华为云云享专家&#xff0c;华为开发者专家&#xff0c;华为产品云测专家&#xff0c;CSDN博客专家&#xff0c;CSDN商业化专家&#xff0c;阿里云专家博主&#xf…

On the Spectral Bias of Neural Networks论文阅读

1. 摘要 众所周知&#xff0c;过度参数化的深度神经网络(DNNs)是一种表达能力极强的函数&#xff0c;它甚至可以以100%的训练精度记忆随机数据。这就提出了一个问题&#xff0c;为什么他们不能轻易地对真实数据进行拟合呢。为了回答这个问题&#xff0c;研究人员使用傅里叶分析…

vue3 + vite:打包部署后,动态组件渲染404问题解决

问题描述&#xff1a; 当需要渲染动态组件&#xff0c;动态的组件路径配置在数据库中时&#xff0c;如下图&#xff0c;本地运行能正常访问&#xff0c;用vite打包部署后&#xff0c;生产上改路径为404. 起初认为是&#xff0c;vite打包后的文件都是.js, 当页面加载后从数据库…

chisel之scala 语法

Chisel新手教程之Scala语言&#xff08;1&#xff09; Value & variable Value是immutable的&#xff0c;当它被分配一个数据后&#xff0c;无法进行重新分配。用 val 表示。 Variable是mutable的&#xff0c;可以重复赋值。用 var 表示。示例如下&#xff1a; val a …

vue2 el-table新增行内删除行内(两种写法)里面第一个是树组件,第二个是数字组件,第一个数组件只能勾选最后一个节点

第一种 <template><div class"time_table"><div style"margin-bottom: 10px"><el-button click"addRowFn">新增</el-button></div><el-form ref"costForm" :model"formData">&l…

普渡机器人CEO预测2024年服务机器人市场将扩大

原创 | 文 BFT机器人 根据普渡科技有限公司的报告&#xff0c;商用服务机器人在东亚地区的应用比其他地方更为广泛。然而&#xff0c;预计到2024年&#xff0c;全球其他地区也将迎头赶上。这家总部位于中国深圳的公司自豪地宣称&#xff0c;它已经成为中国最大的此类机器人出口…