【AI视野·今日NLP 自然语言处理论文速览 第七十二期】Mon, 8 Jan 2024

AI视野·今日CS.NLP 自然语言处理论文速览
Mon, 8 Jan 2024
Totally 17 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
Authors DeepSeek AI Xiao Bi, Deli Chen, Guanting Chen, Shanhuang Chen, Damai Dai, Chengqi Deng, Honghui Ding, Kai Dong, Qiushi Du, Zhe Fu, Huazuo Gao, Kaige Gao, Wenjun Gao, Ruiqi Ge, Kang Guan, Daya Guo, Jianzhong Guo, Guangbo Hao, Zhewen Hao, Ying He, Wenjie Hu, Panpan Huang, Erhang Li, Guowei Li, Jiashi Li, Yao Li, Y.K. Li, Wenfeng Liang, Fangyun Lin, A.X. Liu, Bo Liu, Wen Liu, Xiaodong Liu, Xin Liu, Yiyuan Liu, Haoyu Lu, Shanghao Lu, Fuli Luo, Shirong Ma, Xiaotao Nie, Tian Pei, Yishi Piao, Junjie Qiu, Hui Qu, Tongzheng Ren, Zehui Ren, Chong Ruan, Zhangli Sha, Zhihong Shao, Junxiao Song, Xuecheng Su, Jingxiang Sun, Yaofeng Sun, Minghui Tang, Bingxuan Wang, Peiyi Wang, Shiyu Wang, Yaohui Wang, Yongji Wang, Tong Wu, Y. Wu, Xin Xie, Zhenda Xie, Ziwei Xie, Yiliang Xiong, Hanwei Xu, R.X. Xu, Yanhong Xu, Dejian Yang, Yuxiang You, Shuiping Yu, Xingkai Yu, B. Zhang, Haowei Zhang, Lecong Zhang, Liyue Zhang, Mingchuan Zhang, Minghua Zhang, Wentao Zhang, Yichao Zhang, Chenggang Zhao, Yao Zhao, Shangyan Zhou, Shunfeng Zhou, Qihao Zhu, Yuheng Zou
开源大型语言模型法学硕士的快速发展确实令人瞩目。然而,之前文献中描述的缩放法则提出了不同的结论,这给法学硕士的缩放定律蒙上了一层阴影。我们深入研究了缩放定律,并提出了我们独特的发现,这些发现有助于在两种常用的开源配置(7B 和 67B)中缩放大型模型。在缩放定律的指导下,我们推出了 DeepSeek LLM,这是一个致力于从长远角度推进开源语言模型的项目。为了支持预训练阶段,我们开发了一个数据集,目前包含 2 万亿个令牌,并且正在不断扩展。我们进一步在 DeepSeek LLM Base 模型上进行监督微调 SFT 和直接偏好优化 DPO,从而创建 DeepSeek Chat 模型。我们的评估结果表明,DeepSeek LLM 67B 在各种基准上都超过了 LLaMA 2 70B,特别是在代码、数学和推理领域。

Fast and Optimal Weight Update for Pruned Large Language Models
Authors Vladim r Bo a
由于其规模巨大,修剪大型语言模型法学硕士是一项具有挑战性的任务。主要的困难是在剪枝后对模型进行微调,这是为了恢复因权重下降而造成的性能损失。最近的方法要么完全忽略微调,专注于有效的修剪标准,要么尝试分层权重更新,保留每层的行为。

Towards ASR Robust Spoken Language Understanding Through In-Context Learning With Word Confusion Networks
Authors Kevin Everson, Yile Gu, Huck Yang, Prashanth Gurunath Shivakumar, Guan Ting Lin, Jari Kolehmainen, Ivan Bulyko, Ankur Gandhe, Shalini Ghosh, Wael Hamza, Hung yi Lee, Ariya Rastrow, Andreas Stolcke
在口语理解 SLU 领域,通过向大型语言模型 LLM 提供转录语音而不是传统的书面文本,已经采用了许多自然语言理解 NLU 方法。在现实场景中,在输入 LLM 之前,自动语音识别 ASR 系统会生成输出转录假设,其中固有错误可能会降低后续 SLU 任务的性能。在这里,我们介绍一种利用 ASR 系统的点阵输出而不是仅仅依赖顶层假设的方法,旨在封装语音歧义并增强 SLU 结果。我们的情境学习实验涵盖了口语问答和意图分类,强调了法学硕士在来自格子的单词混淆网络的帮助下对嘈杂语音记录的适应能力,弥合了使用顶级 ASR 假设和预言机上限之间的 SLU 性能差距。

Introducing Bode: A Fine-Tuned Large Language Model for Portuguese Prompt-Based Task
Authors Gabriel Lino Garcia, Pedro Henrique Paiola, Luis Henrique Morelli, Giovani Candido, Arnaldo C ndido J nior, Danilo Samuel Jodas, Luis C. S. Afonso, Ivan Rizzo Guilherme, Bruno Elias Penteado, Jo o Paulo Papa
大型语言模型法学硕士越来越多地为自然语言处理带来进步。然而,资源匮乏的语言,即那些在各种 NLP 任务的数据集中缺乏广泛关注的语言,或者现有数据集不那么丰富的语言,例如葡萄牙语,已经从法学硕士中获得了一些好处,但程度不一。在多语言数据集上接受过培训的法学硕士通常很难对葡萄牙语的提示作出令人满意的回应,例如在他们的回应中呈现代码切换。这项工作提出了一个基于 LLaMA 2 的微调葡萄牙语提示模型,名为 Bode,有两个版本 7B 和 13B。我们使用零样本方法和上下文学习来评估该模型在分类任务中的性能,并将其与其他法学硕士进行比较。

DocGraphLM: Documental Graph Language Model for Information Extraction
Authors Dongsheng Wang, Zhiqiang Ma, Armineh Nourbakhsh, Kang Gu, Sameena Shah
视觉丰富文档理解 VrDU 的进步使得能够对具有复杂布局的文档进行信息提取和问答。受法学硕士和图神经网络的启发,出现了两种基于变压器的架构模型。在本文中,我们介绍了 DocGraphLM,这是一种将预先训练的语言模型与图语义相结合的新颖框架。为了实现这一目标,我们提出 1 一种联合编码器架构来表示文档,2 一种新颖的链接预测方法来重建文档图。 DocGraphLM 使用收敛联合损失函数来预测节点之间的方向和距离,该函数优先考虑邻域恢复并降低远处节点检测的权重。我们对三个 SotA 数据集的实验表明,通过采用图特征,IE 和 QA 任务得到了持续改进。

PeFoMed: Parameter Efficient Fine-tuning on Multimodal Large Language Models for Medical Visual Question Answering
Authors Jinlong He, Pengfei Li, Gang Liu, Zixu Zhao, Shenjun Zhong
多模态大语言模型 MLLM 代表了传统大语言模型功能的进化扩展,使它们能够应对超越纯文本应用程序范围的挑战。它利用了先前在这些语言模型中编码的知识,从而增强了它们在多模式环境中的适用性和功能。最近的工作研究了 MLLM 的适应情况,以预测自由形式答案,作为解决医学视觉问答 Med VQA 任务的生成任务。在本文中,我们提出了一个参数有效的框架,用于专门针对 Med VQA 应用程序进行微调 MLLM,并在公共基准数据集上进行实证验证。为了准确测量性能,我们采用人工评估,结果表明我们的模型的总体准确度达到 81.9 ,并且在封闭式问题上的绝对准确度明显优于 GPT 4v 模型 26 的绝对准确度。

From LLM to Conversational Agent: A Memory Enhanced Architecture with Fine-Tuning of Large Language Models
Authors Na Liu, Liangyu Chen, Xiaoyu Tian, Wei Zou, Kaijiang Chen, Ming Cui
本文介绍了通过 Scratchpad 和示例进行 RAISE Reasoning and Acting,这是一种高级架构,增强了 GPT 4 等大型语言模型 LLM 与会话代理的集成。 RAISE 是 ReAct 框架的增强版,包含双组件记忆系统,反映人类短期和长期记忆,以维持对话中的上下文和连续性。它需要一个全面的代理构建场景,包括对话选择、场景提取、CoT 完成和场景增强等阶段,最后进入法学硕士培训阶段。这种方法似乎增强了智能体在复杂的多轮对话中的可控性和适应性。我们在房地产销售环境中的初步评估表明,RAISE 比传统代理商具有一些优势,表明其具有更广泛应用的潜力。

German Text Embedding Clustering Benchmark
Authors Silvan Wehrli, Bert Arnrich, Christopher Irrgang
这项工作引入了一个评估不同领域中德语文本嵌入聚类性能的基准。该基准是由于在需要文本分组的任务(例如主题建模)中越来越多地使用聚类神经文本嵌入以及现有基准中对德语资源的需求而推动的。我们为一系列预训练的单语言和多语言模型提供了初步分析,这些模型根据不同聚类算法的结果进行评估。结果包括表现强劲的单语言和多语言模型。减少嵌入的维度可以进一步改善聚类。此外,我们还对德国 BERT 模型进行了持续预训练的实验,以估计这种额外训练的好处。我们的实验表明,短文本可以显着提高性能。

Unsupervised hard Negative Augmentation for contrastive learning
Authors Yuxuan Shu, Vasileios Lampos
我们提出了无监督硬负增强 UNA,一种基于词频逆文档频率 TF IDF 检索模型生成合成负实例的方法。 UNA 使用 TF IDF 分数来确定句子中术语的感知重要性,然后通过替换相关术语来生成负样本。我们的实验表明,使用 UNA 训练的模型提高了语义文本相似性任务的整体性能。当将 UNA 与释义增强相结合时,可以获得额外的性能增益。进一步的结果表明我们的方法与不同的骨干模型兼容。

MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance
Authors Renjie Pi, Tianyang Han, Yueqi Xie, Rui Pan, Qing Lian, Hanze Dong, Jipeng Zhang, Tong Zhang
多模态大语言模型 MLLM 的部署带来了对通过视觉输入进行恶意攻击的独特脆弱性。我们深入研究了保护 MLLM 免受此类攻击的新挑战。我们发现图像充当对齐过程中未考虑的外语,这可能使 MLLM 容易产生有害的响应。不幸的是,与基于文本的法学硕士中考虑的离散标记不同,图像信号的连续性质提出了重大的对齐挑战,这给彻底覆盖可能的场景带来了困难。由于开源 MLLM 主要在有限的图像文本对上进行微调,而该图像文本对比基于广泛文本的预训练语料库少得多,这使得 MLLM 在显式对齐调整期间更容易灾难性地忘记其原始能力,这一事实加剧了该漏洞。为了应对这些挑战,我们推出了 MLLM Protector,这是一种即插即用策略,结合了轻量级伤害检测器和响应解毒器。危害检测器的作用是识别 MLLM 的潜在有害输出,而解毒器则纠正这些输出以确保响应符合安全标准。这种方法有效地减轻了恶意视觉输入带来的风险,同时又不影响模型的整体性能。

AFSPP: Agent Framework for Shaping Preference and Personality with Large Language Models
Authors Zihong He, Changwang Zhang
大型语言模型法学硕士的发展引入了研究人类行为模拟的新范式。最近的研究采用基于 LLM 的代理来创建社会学研究环境,其中代理根据大型语言模型的未过滤特征表现出行为。然而,这些研究忽视了类人环境中的迭代发展。人类的偏好和个性是复杂的,受到各种因素的影响,并且由于环境和主观影响而不断变化。根据这一观察,我们提出了塑造偏好和人格的代理框架AFSPP,探索社交网络和主观意识对基于法学硕士的代理偏好和人格形成的多方面影响。通过 AFSPP,我们首次成功复制了人类人格实验的几个关键发现。其他基于 AFSPP 的实验结果表明,计划制定、感官知觉和带有主观信息的社交网络对偏好塑造的影响最为显着。

Pheme: Efficient and Conversational Speech Generation
Authors Pawe Budzianowski, Taras Sereda, Tomasz Cichy, Ivan Vuli
近年来,语音生成取得了显着的进步,现在已经实现了一次生成能力,通常与真实的人声几乎无法区分。将语音生成方面的这些进步与大型语言模型相结合可能会彻底改变广泛的应用程序。然而,某些应用程序(例如辅助会话系统)需要自然且会话式的语音生成工具,并且这些工具还可以实时高效地运行。当前最先进的模型(例如 VALL E 和 SoundStorm)由分层神经音频编解码器提供支持,需要大型神经组件和大量训练数据才能正常工作。相比之下,MQTTS 旨在构建更紧凑的会话 TTS 模型,同时利用较小规模的现实生活会话语音数据。然而,其自回归性质会产生较高的推理延迟,从而限制了其实时使用。为了减轻当前最先进的 TTS 模型的局限性,同时利用其优势,在这项工作中,我们引入了 Pheme 模型系列,1 提供紧凑但高性能的模型,2 允许并行生成 3 种自然对话语音,4 它可以在较小规模的对话数据上进行有效训练,将数据需求减少 10 倍以上,但仍与自回归 TTS 模型的质量相匹配。我们还表明,通过简单的师生蒸馏,我们可以在预训练的 Pheme 检查点之上实现单扬声器设置的语音质量显着提高,仅依赖于更大的教师模型生成的合成语音。

Large Language Models in Plant Biology
Authors Hilbert Yuen In Lam, Xing Er Ong, Marek Mutwil
大型语言模型法学硕士(例如 ChatGPT)已经席卷全球,并通过了某些形式的图灵测试。然而,法学硕士并不局限于人类语言,还可以分析连续数据,例如 DNA、蛋白质和基因表达。由此产生的基础模型可以重新用于识别数据中的复杂模式,从而产生能够解释细胞系统的强大的多用途预测工具。这篇评论概述了法学硕士的不同类型,并展示了它们最近在生物学中的用途。

Complex systems approach to natural language
Authors Tomasz Stanisz, Stanis aw Dro d , Jaros aw Kwapie
该评论总结了从复杂性科学的角度研究自然语言所使用的主要方法论概念,并记录了它们在识别书面语言的普遍特征和系统特定特征方面的适用性。涵盖了定量语言学中与复杂性相关的三个主要研究趋势。第一部分解决文本中的词频问题,并证明考虑标点符号可以恢复缩放比例,而对于最常见的单词,经常会观察到违反齐普夫定律的情况。第二部分介绍受时间序列分析启发的方法,用于研究书面文本中的各种相关性。相关时间序列是基于将文本划分为连续标点符号之间的句子或短语而生成的。事实证明,这些系列开发了复杂系统生成的信号中常见的特征,例如长程相关性或多重分形结构。此外,标点符号之间的距离似乎符合威布尔分布的离散变体。在第三部分中,回顾了网络形式主义在自然语言中的应用,特别是在所谓的单词邻接网络的背景下。表征此类网络的拓扑的参数可用于文本分类,例如从文体测量的角度。网络方法也可以用于表示单词关联的组织。单词关联网络的结构与随机网络中观察到的结构显着不同,揭示了语言的真正属性。

MAMI: Multi-Attentional Mutual-Information for Long Sequence Neuron Captioning
Authors Alfirsa Damasyifa Fauzulhaq, Wahyu Parwitayasa, Joseph Ananda Sugihdharma, M. Fadli Ridhani, Novanto Yudistira
神经元标记是一种可视化特定神经元的行为和对激活神经元的特定模式的响应的方法。神经元标记提取有关深度神经网络中某些神经元捕获的特征的信息,其中之一使用编码器解码器图像字幕方法。使用的编码器可以是基于预训练的 CNN 模型,解码器是基于 RNN 的文本生成模型。之前的工作,即米兰互信息引导的神经元语言注释,尝试在编码器中使用修改后的 Show、Attend 和 Tell SAT 模型来可视化神经元行为,并在解码器中添加带有 Bahdanau 注意力的 LSTM。 MILAN 在短序列神经元字幕上可以表现出很好的结果,但是在长序列神经元字幕上却没有表现出很好的结果,因此在这项工作中,我们希望通过利用不同类型的注意力机制并额外添加来进一步提高 MILAN 的性能多个注意力机制合而为一,以结合多种注意力机制的所有优点。使用我们的复合数据集,我们在我们提出的模型上获得了更高的 BLEU 和 F1 分数,分别达到 17.742 和 0.4811。

Memory, Consciousness and Large Language Model
Authors Jitang Li, Jinzheng Li
随着认知科学和大型语言模型法学硕士的发展,这两个不同领域之间的联系越来越多。基于这些联系,我们提出了一个猜想,表明法学硕士和图尔文的记忆理论之间存在二元性。我们确定了图文检索的协同回显模型 SEM 与法学硕士中观察到的涌现能力之间的潜在对应关系,为我们的猜想提供了支持证据。此外,我们推测意识可能被认为是基于这种二元性的一种突现能力。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/312314.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【修图】AI修图工具

人脸替换 免费的人脸替换工具: Face Swap: https://vmodel.ai/face-swap 支持单人换脸、多人换脸 AI消除 SnapEdit https://snapedit.app/remove-object 不付费的话只能下载清晰度较低的版本 但我试了几个在线的AI消除工具,SnapEdit算是…

最新版docker-compose安装

Ubuntu/Kali 下载安装最新版 docker-compose # FastGit加速 sudo curl -L "https://hub.fgit.cf/docker/compose/releases/download$(curl -L -i -s -o /dev/null -w "%{url_effective}\n" https://hub.fgit.cf/docker/compose/releases/latest | awk -F tag …

docker-compose部署kafka、SASL模式(密码校验模式)

一.基础kafka部署 zookeeper,kafka,kafka-ui docker-compose.yml 注意点:192.168.1.20 是宿主机的ip version: "3" services:zookeeper:image: wurstmeister/zookeepercontainer_name: zookeeperrestart: alwaysports:- 2181:2…

【python】python新年烟花代码【附源码】

欢迎来到英杰社区https://bbs.csdn.net/topics/617804998 新年的钟声即将敲响,为了庆祝这个喜庆的时刻,我们可以用 Python 编写一个炫彩夺目的烟花盛典。本文将详细介绍如何使用 Pygame 库创建一个令人惊叹的烟花效果。 一、效果图: 二…

质量好洗地机有哪些?洗地机口碑榜

在很多人眼中,洗地机可能被简单地视为一种高价的拖把,但作为一个经验丰富的洗地机测评博主,我要强调洗地机在家务工作中的巨大价值。它不仅仅是一种清洁工具,更是集扫地、拖地、洗地以及擦干地板等多项功能于一身的强大设备。通过…

【python 的各种模块】(9) 在python使用PIL,即pillow模块

目录 1 导入PIL模块(pillow) 1.1 导入PIL模块 1.1.1 可用的导入形式 1.1.2 常用的导入形式 1.1.3 PIL下面的常用子模块 2 用 PIL读入,生成和显示图片 2.1 用 PIL.Image.open() 可以读入图片 2.2 用PIL.Image.new() 生成新图片 2.3 …

详解矩阵的正交化(附例题分析)

目录 一. 矩阵Gram-Schmidt正交化的好处 二. 矩阵标准正交化过程 三. 例题 3.1 标准正交化 3.2 算法小结 3.3 优化分析 四. 小结 矩阵有两类等价关系 矩阵对角化 特殊矩阵 一. 矩阵Gram-Schmidt正交化的好处 假如有三个线性独立的向量a,b,c,他们是标准正…

antv/x6_2.0学习使用(五、路由)

X6 默认提供了以下几种路由: 路由名称说明normal默认路由,原样返回路径点orth正交路由,由水平或垂直的正交线段组成oneSide受限正交路由,由受限的三段水平或垂直的正交线段组成manhattan智能正交路由,由水平或垂直的正交线段组成…

【Linux】Linux 系统编程——tree 命令

文章目录 1. 命令概述2. 命令格式3. 常用选项4. 相关描述4.1 tree 命令安装 5. 参考示例5.1 创建树形目录5.2 使用 tree 命令查看树形目录 1. 命令概述 tree 命令用于在命令行界面以树状图形式显示目录及其子目录的内容。这个命令递归地列出所有子目录,并可选择显示…

uⅤ打印-小理光上海RYPC后台运动系统

uⅤ打印-小理光上海RYPC后台运动系统

应用在游戏机触摸屏中的触摸感应芯片

触屏游戏机的屏幕是由液晶屏和触控层组成的。触控层分为电容式触屏和电阻式触屏两种。电容式触屏是将悬空电极和屏幕玻璃上的电极组成静电场,当人体接近屏幕时,就会改变静电场分布,从而实现触摸的位置探测。而电阻式触屏则是利用玻璃上的两层电极之间通电形成一个电阻值,当手指…

四款AI写作助手推荐:提高内容创作效率与质量

随着人工智能技术的飞速发展,AI写作助手逐渐成为内容创作者的新宠。这些工具利用先进的人工智能技术,为写作者提供强大的支持,帮助他们提高创作效率和质量。本文将介绍四种受欢迎的AI写作助手:海鲸AI、Jenni AI、Writesonic和Jasp…

数字信号处理 唐向宏著 pdf +课后答案 免费下载

数字信号处理——原理、实现与仿真 pdf 唐向宏著 +课后答案 杭州电子科技大学 费劲心思在网上花钱买的,共享给大家 永久链接:https://wwi.lanzoup.com/b0140pf4f 密码:aflj 里面除了有原书PDF,还有课后题答案

2024年 最新 iPhone手机 历代机型、屏幕尺寸、纵横比、分辨率 整理

🎬 博客主页:https://xiaoy.blog.csdn.net 🎥 本文由 呆呆敲代码的小Y 原创,首发于 CSDN🙉 🎄 学习专栏推荐:Unity系统学习专栏 🌲 游戏制作专栏推荐:游戏制作 &…

k8s-数据卷

存储卷----数据卷 容器内的目录和宿主机的目录进行挂载 容器在系统上的生命周期是短暂的,delete,k8s用控制创建的pod,delete相当于重启,容器的状态也会恢复到初识状态 一旦容器回到初始状态,所有得分后天编辑的文件…

docker部署mongo过程

1、拉取MongoDB镜像,这里拉取最新版本。 docker pull mongo2、运行容器 docker run -d --name mongo -p 27017:27017 \ -e MONGO_INITDB_ROOT_USERNAMEadmin \ -e MONGO_INITDB_ROOT_PASSWORD123456 \ mongo:latest --auth#由于 mongodb 默认情况下,…

锤科HandShaker修改版,支持安卓14、澎湃OS

如今几乎各家手机厂商都在布局生态,但PC端往往是最容易被忽略的一环,哪怕是很强的华为鸿蒙、小米澎湃,想要做到手机和电脑互联,也限制了笔记本机型 虽然我一直致力于解锁非小米电脑安装小米电脑管家,比如前几天刚刚更…

雷达信号处理——恒虚警检测(CFAR)

雷达信号处理的流程 雷达信号处理的一般流程:ADC数据——1D-FFT——2D-FFT——CFAR检测——测距、测速、测角。 雷达目标检测 首先要搞清楚什么是检测,检测就是判断有无。雷达在探测的时候,会出现很多峰值,这些峰值有可能是目标…

CSS进阶方法——复合选择器、元素显示、背景设置

1、复合选择器 复合选择器是建立在基础选择器之上,对基础选择器进行组合形成的。 复合选择器可以更准确、更高效的选择目标元素(标签)复合选择器是由两个或多个基础选择器,通过不同的方式组合而成的常用的复合选择器包括&#xf…

12GoF之代理模式

解决问题的思维:AOP 解决问题技术:代理技术 代理技术太麻烦,因此使用框架 Spring AOP框架(底层是代理技术:jdk动态daili,cglib) 代理模式是GoF23种设计模式之一。属于结构型设计模式。 代理…