A Neural Conversational Model 读后感

目录

摘要

1、介绍

2、相关工作

3、模型

4、数据(后面都是具体的东西,不赘述)

5、总结


使用微软翻译得到的中文原文:

摘要

会话建模是自然语言理解和机器智能中的一项重要任务。尽管存在以前的方法,但它们通常仅限于特定领域(例如,预订机票)并且需要手工制定的规则。在本文中,我们为这项任务提出了一种简单的方法,它使用最近提出的序列到序列框架。

我们的模型通过在给定前一个句子或对话中的句子的情况下预测下一个句子来进行对话。我们模型的优势在于它可以进行端到端的训练,因此需要的手工规则要少得多。

我们发现这个简单的模型可以在给定大型会话训练数据集的情况下生成简单的会话。我们的初步结果表明,尽管优化了错误的目标函数,但该模型能够很好地进行对话。它能够从特定领域的数据集以及大型、嘈杂和一般的电影字幕领域数据集中提取知识。在特定领域的 IT 帮助台数据集上,该模型可以通过对话找到技术问题的解决方案。在嘈杂的开放域电影脚本数据集上,该模型可以执行简单形式的常识推理。正如预期的那样,我们还发现缺乏一致性是我们模型的常见故障模式。

1、介绍

神经网络端到端训练的进步已经在语音识别、计算机视觉和语言处理等许多领域取得了显着进展。 最近的工作表明,神经网络可以做的不仅仅是分类,它们可以用来将复杂的结构映射到其他复杂的结构。这方面的一个例子是将一个序列映射到另一个在自然语言理解中具有直接应用的序列的任务(Sutskever et al., 2014)。该框架的主要优点是它几乎不需要特征工程和领域特异性,同时匹配或超过最先进的结果。我们认为,这一进步使研究人员能够针对哪个领域开展任务。知识可能不容易获得,或者对于手动设计规则太难的任务。

会话建模可以直接从这个构想中受益,因为它需要查询和响应之间的映射。 由于这种映射的复杂性,会话建模以前被设计为在非常狭窄的领域,并主要通过特征工程来辅助实现。在这项工作中,我们使用先前序列或者RNN生成的序列来预测下一个序列,来尝试建立一个对话模型任务。 我们发现这种方法在生成流利和准确的对话回复方面可以做得非常好。

我们在来自 IT 问答帮助台对话数据集的聊天会话上测试该模型,发现该模型有时可以跟踪问题并为用户提供有用的答案。 我们还对从嘈杂的电影字幕数据集中获得的对话进行了实验,发现该模型可以进行自然对话,有时还可以执行简单形式的常识推理。在这两种情况下,与 n-gram 模型相比,循环网络获得了更好的适应度,并捕获了重要的长期相关性。 从定性的角度来看,我们的模型有时能够产生自然的对话。

2、相关工作

我们的方法基于最近提出的使用神经网络将序列映射到序列的工作(Kalchbrenner & Blunsom,2013;Sutskever 等人,2014;Bahdanau 等人,2014)。 该框架已用于机器翻译,并在 WMT'14 数据集的英法和英德翻译任务上取得了改进(Luong 等人,2014;Jean 等人,2014)。 它还被用于其他任务,例如解析 (Vinyals et al., 2014a) 和图像加字幕 (Vinyals et al., 2014b)。由于众所周知普通 RNN 存在梯度消失的问题,因此大多数研究人员使用长短期记忆 (LSTM) 递归神经网络的变体 (Hochreiter & Schmidhuber, 1997)。

我们的工作也受到最近神经语言建模成功的启发(Bengio 等人,2003;Mikolov 等人,2010;Mikolov,2012),这表明递归神经网络是自然语言的相当有效的模型。最近,Sordoni 等人的工作和Shang等人,使用循环神经网络对简短对话中的对话进行建模(在 Twitter 式聊天中训练)。

在过去的几十年中,许多研究人员一直在追求构建机器人和会话代理,提供详尽的参考文献列表超出了本文的范围。 然而,这些系统中的大多数都需要一个相当复杂的多阶段处理流程(Lester 等人,2004;Will,2007;Jurafsky & Martin,2009)。我们的工作与传统系统不同,它提出了一种端到端的方法来解决缺乏领域知识的问题。 原则上,它可以与其他系统相结合,对候选回答的短名单进行重新评分,但我们的工作是基于通过概率模型生成答案,该模型经过训练以在某些情况下最大化答案的概率。

3、模型

我们的方法利用了(Sutskever et al., 2014)中描述的序列到序列(seq2seq)框架。该模型基于循环神经网络,一次读取输入序列一个标记,并预测输出序列,也是一次一个标记。在训练过程中,将真实的输出序列赋予模型,因此可以通过反向传播来完成学习。 该模型经过训练以在给定上下文的情况下最大化正确序列的交叉熵。 在推理过程中,假设没有观察到真实的输出序列,我们只需将预测的输出标记作为输入来预测下一个输出。 这是一种“贪婪”推理方法。一种不那么贪婪的方法是使用束搜索,并在上一步将几个候选者提供给下一步。 可以根据序列的概率来选择预测的序列。

具体来说,假设我们观察到有两个回合的对话:第一个人说“ABC”,第二个人回答“WXYZ”。 我们可以使用循环神经网络,并训练将“ABC”映射到“WXYZ”,如图 所示。模型在接收到序列结束符号“<eos>”时的隐藏状态可以看作是思想向量,因为它存储了句子或思想“ABC”的信息。

该模型的优势在于其简单性和通用性。 我们可以将此模型用于机器翻译、问答和对话,而无需对架构进行重大更改。将此技术应用于对话建模也很简单:输入序列可以是迄今为止已对话内容(上下文)的串联,输出序列是回复。

然而,与翻译等更简单的任务不同,像序列到序列这样的模型将无法成功“解决”建模对话的问题,因为有几个明显的简化:被优化的目标函数没有捕捉到通过人工实现的实际目标沟通,这通常是长期的,并且基于信息交换而不是下一步预测。缺乏确保一致性和一般世界知识的模型是纯无监督模型的另一个明显限制。

4、数据(后面都是具体的东西,不赘述)

在我们的实验中,我们使用了两个数据集:一个封闭域IT 帮助台故障排除数据集和开放域
电影成绩单数据集。两个数据集的详细信息。

5、总结

个人感觉,这篇报告就是一个成果展示报告,大致了解一下就行

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/31078.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

React中的HOC高阶组件处理

先了解函数柯里化 柯里化函数&#xff08;Currying Function&#xff09;是指将一个接受多个参数的函数转化成一系列只接受单个参数的函数&#xff0c;并且返回接受单个参数的函数&#xff0c;达到简化函数调用和提高可读性的目的。 简单来说&#xff0c;柯里化即将接收多个参…

Pytorch数据类型Tensor张量操作(操作比较全)

文章目录 Pytorch数据类型Tensor张量操作一.创建张量的方式1.创建无初始化张量2.创建随机张量3.创建初值为指定数值的张量4.从数据创建张量5.生成等差数列张量 二.改变张量形状三.索引四.维度变换1.维度增加unsqueeze2.维度扩展expand3.维度减少squeeze4.维度扩展repeat 五.维度…

Jenkins-pipeline自动化构建Java应用

本实验操作需要&#xff1a;Jenkins&#xff0c;git代码仓库&#xff08;如gitlab&#xff0c;gitee等都可以&#xff09;&#xff0c;maven&#xff0c;docker&#xff0c;docker镜像仓库&#xff08;habor&#xff0c;nexus或者阿里云ACR等&#xff09;以及k8s环境。 前期准…

Python网络爬虫基础进阶到实战教程

文章目录 认识网络爬虫HTML页面组成Requests模块get请求与实战效果图代码解析 Post请求与实战代码解析 发送JSON格式的POST请求使用代理服务器发送POST请求发送带文件的POST请求 Xpath解析XPath语法的规则集&#xff1a;XPath解析的代码案例及其详细讲解&#xff1a;使用XPath解…

k8s使用ceph存储

文章目录 初始化操作k8s使用ceph rbdvolumePV静态pv动态pv k8s使用cephfsvolume静态pv 初始化操作 ceph创建rbd存储池 ceph osd pool create k8s-data 32 32 replicated ceph osd pool application enable k8s-data rbd rbd pool init -p k8s-dataceph添加授权&#xff0c;需…

吴恩达ChatGPT《Building Systems with the ChatGPT API》笔记

1. 课程介绍 使用ChatGPT搭建端到端的LLM系统 本课程将演示使用ChatGPT API搭建一个端到端的客户服务辅助系统&#xff0c;其将多个调用链接到语言模型&#xff0c;根据前一个调用的输出来决定使用不同的指令&#xff0c;有时也可以从外部来源查找信息。 课程链接&#xff1a…

client-go的Indexer三部曲之三:源码阅读

欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码)&#xff1a;https://github.com/zq2599/blog_demos 《client-go的Indexer三部曲》全部链接 基本功能性能测试源码阅读 本篇概览 本文是《client-go的Indexer三部曲》系列的终篇&#xff0c;主要任务是阅读和…

VR全景智慧园区,沉浸式数字化体验,720度全视角展示

导语&#xff1a; 随着科技的迅猛发展&#xff0c;虚拟现实&#xff08;Virtual Reality&#xff0c;简称VR&#xff09;全景技术已经成为了人们趋之若鹜的新兴领域。 而城市园区作为现代社会的重要组成部分&#xff0c;也正在积极寻求创新的方式来吸引更多的人流和投资。 一&…

C++基础

C基础入门 1 C初识 1.1 第一个C程序 编写一个C程序总共分为4个步骤 创建项目创建文件编写代码运行程序 1.1.1 创建项目 ​ Visual Studio是我们用来编写C程序的主要工具&#xff0c;我们先将它打开 1.1.2 创建文件 右键源文件&#xff0c;选择添加->新建项 1.1.3 编…

SignalR快速入门 ~ 仿QQ即时聊天,消息推送,单聊,群聊,多群公聊(基础=》提升)

SignalR快速入门 ~ 仿QQ即时聊天&#xff0c;消息推送&#xff0c;单聊&#xff0c;群聊&#xff0c;多群公聊&#xff08;基础》提升&#xff0c;5个Demo贯彻全篇&#xff0c;感兴趣的玩才是真的学&#xff09; 官方demo:http://www.asp.net/signalr/overview/getting-started…

【面试】标准库相关题型(二)

文章目录 1. deque底层实现原理1.1 概述1.2 原理图1.3 类结构1.4 操作函数 2. 什么时候使用vector、list、deque2.1 vector2.2 list2.3 deque 3. priority_queue的底层实现原理3.1 一句话概括&#xff1a;用堆来实现优先级队列3.2 堆结构3.3 底层容器3.4 STL对堆结构提供的接口…

Java-API简析_java.lang.SecurityManager类(基于 Latest JDK)(浅析源码)

【版权声明】未经博主同意&#xff0c;谢绝转载&#xff01;&#xff08;请尊重原创&#xff0c;博主保留追究权&#xff09; https://blog.csdn.net/m0_69908381/article/details/131346082 出自【进步*于辰的博客】 其实我的【Java-API】专栏内的博文对大家来说意义是不大的。…

Python入门(二十七)测试(二)

测试&#xff08;二&#xff09; 1.测试类2.各种断言方法3.一个要测试的类4.测试AnonymousSurvey类5.方法setUp() 1.测试类 前面我们编写了针对单个函数的测试&#xff0c;下面来编写针对类的测试。很多程序中都会用到类&#xff0c;因此证明我们的类能够正确工作大有裨益。如…

学了那么长时间的编程,C语言的各种操作符都搞不懂?点开这里有详细的介绍—>

目录 前言 一、原码、反码、补码的基础概念 1.原码 2.反码 3.补码 二、原码、反码、补码的计算方法 1.原码 2.反码 3.补码 三、算术操作符 四、移位操作符 1. 左移操作符 移位规则&#xff1a; 2. 右移操作符 移位规则&#xff1a; &#xff08;1&#xff09; …

电脑怎么录屏?推荐2款录制电脑屏幕的软件!

案例&#xff1a;我经常需要把电脑上的内容分享给别人&#xff0c;一般通过手机拍摄的方式。这就导致视频十分模糊&#xff0c;给人的观感不太好&#xff0c;有没有什么方法可以实现在电脑上直接录屏&#xff1f; 【我想录制我的电脑屏幕上的内容分享给别人&#xff0c;但是我…

几个SQL的高级写法

一、ORDER BY FLELD() 自定义排序逻辑 MySql 中的排序 ORDER BY 除了可以用 ASC 和 DESC&#xff0c;还可以通过 ORDER BY FIELD(str,str1,...) 自定义字符串/数字来实现排序。这里用 order_diy 表举例&#xff0c;结构以及表数据展示&#xff1a; ORDER BY FIELD(str,str1,..…

【Neo4j教程之CQL函数基本使用】

&#x1f680; Neo4j &#x1f680; &#x1f332; 算法刷题专栏 | 面试必备算法 | 面试高频算法 &#x1f340; &#x1f332; 越难的东西,越要努力坚持&#xff0c;因为它具有很高的价值&#xff0c;算法就是这样✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;C…

3d重建+神经渲染

3d重建 基于深度相机(结构光、TOF、双目摄像头)的三维重建基于图像的三维重建&#xff1a;深度学习基于视觉几何的传统三维重建&#xff1a;这种三维重建方法研究时间比较久远&#xff0c;技术相对成熟。主要通过多视角图像对采集数据的相机位置进行估计&#xff0c;再通过图像…

一种对不同类型齐格勒-尼科尔斯 P-I-D 控制器调谐算法研究(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

常用工具类之AJ-Captcha入门

1.引入MAVEN依赖 若依官方引入的是1.2.7版本。我选择了目前最常用的1.3.0版本。 在项目中给的 ruoyi-framework\pom.xml 添加依赖 <!-- anji滑块验证码 --><dependency><groupId>com.anji-plus</groupId><artifactId>spring-boot-starter-captc…