【论文阅读笔记】序列数据的数据增强方法综述

【论文阅读笔记】序列数据的数据增强方法综述

摘要

 这篇论文探讨了在深度学习模型中由于对精度的要求不断提高导致模型框架结构变得更加复杂和深层的趋势。随着模型参数量的增加,训练模型需要更多的数据,但人工标注数据的成本高昂,且由于客观原因,获取特定领域的数据可能变得困难。为了缓解数据不足的问题,作者提出了数据增强的概念,通过人为生成新的数据来增加数据量。

 论文指出,数据增强方法在计算机视觉领域取得了显著的成果,并探讨了这些方法是否可以应用在序列数据上。除了在时间域进行增强的方法(如翻转、裁剪)外,论文还描述了在频率域实现数据增强的方法。此外,除了基于经验或知识设计的方法,还详细论述了一系列基于生成对抗网络(GAN)的通过机器学习模型自动生成数据的方法。

 论文对应用在自然语言文本、音频信号和时间序列等多种序列数据上的数据增强方法进行了介绍,并涉及了它们在医疗诊断、情绪判断等问题上的表现。尽管这些数据类型不同,论文总结了应用在它们上的数据增强方法背后的相似设计思路。最后,论文以这一思路为线索,梳理了应用在各类序列数据类型上的多种数据增强方法,并进行了一定的讨论和展望

Introduction

  • 线下增强:训练之前,将整个数据集进行整体操作,再把增强之后的数据集喂入模型中
  • 线上增强:更为常用的是线上增强(online augmentation),对即将送入到模型的每一批(batch)数据执行转换,不必显式地占用磁盘空间

基础方法

  • 如变换取值维度的翻转、缩放(scaling)或 变 换 时 间 维 度 的 窗 口 规 整

  • 窗口切片:滑动窗口在时序数据不断采样,切片需要随机性

  • 添加噪声:对于数值型序列数据,可以对每一个取值随机地添加一定的噪声来生成新的序列[4,8],且不影响序列的整体性质和标签信息

在这里插入图片描述

  • 通过对时间域数据进行傅里叶变换得到频率域的振幅谱和相位谱
  • 在振幅谱上随机选择区间,用基于原始振幅的统计参数重新生成一段信号替换,如图2[9](b)所示;在相位谱上随机选择区间并添加白噪声

在这里插入图片描述

频率域变换

  • 首先对时序数据进行短时傅里叶变换,得到时序关系的谱特征,
  • 再在普特征上面使用两种数据增强的方法,一种是对每一个属性做局部平均,将局部平均序列接在原始序列的后面
  • 二是打乱顺序,以增加数据的方差,这种方法会使得数据尺寸发生变化
  • 由于STFT变换得到的普特征仍然是具有时序关系,这种数据增强方法也被认为是时间-频率域进行的
  • AAFT:赋值调整傅里叶变换可以实现只在频率域进行数据增强

基于分解或混合的方法


STL方法的应用:

使用STLSeasonal and Trend Decomposition using Loess)方法将时间序列分解为基础项、趋势项、季节项和残差项。
基础项、趋势项和季节项被认为是确定性部分,包含了原始序列的绝大部分信息。
Kegel等人基于相似矩阵和最近邻搜索等方法为不同成分分配权重,以组合新的时间序列。
随机的残差项通过重新建模生成,利用其分布特征和自相关特征。

Bergmeir等人的简单方法:

对时间序列信号进行分解,得到趋势项和季节项之外的剩余项。
对剩余项进行有放回的重复采样(bootstrap),生成新的剩余项序列,然后与前两者混合成新的时间序列。
在M3数据集上的实验证明,这种方法在月频数据上对预测精度的提升较为显著,但在长度较短的序列数据上表现一般。



  • 第一种方法以数据集为单位产生新的序列,而第二种方法以序列为单位产生新的序列。

  • 第一种方法更能利用数据集整体的分布特征进行数据增强,避免可能发生在第二种方法中对不典型序列进行增强的情况。

异常标签扩展

  • 对异常检测任务的数据增强方法,称为异常标签扩展(label expansion)。该方法旨在解决类别不平衡的问题,尤其是为了增加数量较少的异常标签。
    在这里插入图片描述

基于深度学习的序列数据增强方法

  • 使用生成对抗网络生成数据

  • GAN由生成器和判别器组成

  • 判别器判断样本是原始数据集的还是模型生成的,而生成器尽可能地最大化判别器判断错误的概率,整个模型的优化是一个二元极大极小博弈

在这里插入图片描述

总结

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/232189.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

kettle完成mysql表与表之间的更新和插入

版本:20231209 kettle完成数据库表与表之间的转换非常的简单,只需要在输入模块选择:输入表;在输出模块选择:插入和更新表模块 实例展示:将表stu1的数据同步到stu2,并覆盖掉stu2原本的数据。 cr…

Ubuntu 18.04使用Qemu和GDB搭建运行内核的环境

安装busybox 参考博客: 使用GDBQEMU调试Linux内核环境搭建 一文教你如何使用GDBQemu调试Linux内核 ubuntu22.04搭建qemu环境测试内核 交叉编译busybox 编译busybox出现Library m is needed, can’t exclude it (yet)的解释 S3C2440 制作最新busybox文件系统 https:…

【Com通信】Com模块详细介绍

目录 前言 1. Com模块功能介绍 2.关键概念理解 3.功能详细设计 3.1 Introduction 3.2 General Functionality 3.2.1 AUTOSAR COM basis 3.2.2 Signal Values 3.2.3 Endianness Conversion and Sign Extension 3.2.4 Filtering 3.2.5 Signal Gateway 3.3 Normal Ope…

Bean的作用域和生命周期

1. Bean的作用域 前引例子4 现在有一个公共的Bean对象,提供给A用户和B用户使用,然而在使用的时候A用户将Bean对象的数据进行修改,此时B得到的Bean对象是否是原来的Bean对象呢? Componentpublic class Users {Beanpublic User us…

人工智能原理复习--搜索策略(二)

文章目录 上一篇启发式搜索与或图搜索博弈下一篇 上一篇 人工智能原理复习–搜索策略(一) 启发式搜索 提高一般图搜索效率的关键是优化OPEN表中节点的排序方式 最理想的情况是每次排序OPEN表表首n总在解答路径上 全局排序–对OPEN表中的所有节点进行…

馆藏档案管理系统和数字档案管理系统的区别

馆藏档案管理系统是指传统的档案管理系统,主要包括档案馆内纸质档案的收集、整理、存储、保护、利用等工作。它的主要特点是针对纸质档案的管理,需要建立大量的文件柜、卷宗和保管设备,检索和借阅需要现场操作。 专久智能数字档案管理系统则是…

文献速递:多模态影像组学文献分享:多模态图注意力网络用于COVID-19预后预测

文献速递:多模态影像组学文献分享:多模态图注意力网络用于COVID-19预后预测 01 文献速递介绍 在处理像 COVID-19 这样的新出现的疾病时,患者和疾病特定因素(例如,体重或已知共病)对疾病的即时进展的影响…

使用智能AI文心一言处理采集数据

简数采集器支持调用百度智能AI文心一言大模型API接口,可对采集的数据进行研究分析,内容创作。 文心一言API使用方法如下: 目录 1. 采集数据 2. 申请API 3. 对接文心一言API 4. 设置文心一言API的执行指令 5. 使用文心一言API处理采集数…

案例061:基于微信小程序的互助学习系统

文末获取源码 开发语言:Java 框架:SSM JDK版本:JDK1.8 数据库:mysql 5.7 开发软件:eclipse/myeclipse/idea Maven包:Maven3.5.4 小程序框架:uniapp 小程序开发软件:HBuilder X 小程序…

54.grpc实现文件上传和下载

文章目录 一:简介1. 什么是grpc2. 为什么我们要用grpc 二:grpc的hello world1、 定义hello.proto文件2、生成xxx_grpc.pb.go文件3、生成xxx.pb.go结构体文件4、编写服务代码service.go5、编写客户端代码client.go 三、服务端流式传输:文件下载…

pycharm安装

1.先去官网下载pycharm 2.下载python3.8 3.修改pip镜像 4.如果有环境变量没加的加一下

一加 12 Pop-up快闪活动来袭,十城联动火爆开启

12 月 9 日,一加 12 Pop-up 快闪活动在北京、深圳、上海、广州等十城联动开启,各地加油欢聚快闪现场,抢先体验与购买一加 12。作为一加十年超越之作,一加 12 全球首发拥有医疗级护眼方案和行业第一 4500nit 峰值亮度的 2K 东方屏、…

我尝试用 AI 来做数据分析,结果差强人意!

大家好,我是木川 工作中经常会需要分析数据 1、统计分析,计算某项指标的均值、分位数、标准差等 2、相关性分析,比如分析销售额与顾客年龄、顾客性别、促销活动等的相关性 3、可视化分析,比如绘制柱状图、折线图、散点图等 有了 A…

Java网络编程——对象的序列化与反序列化

当两个进程进行远程通信时,彼此可以发送各种类型的数据,如文本、图片、语音和视频等。无论是何种类型的数据,都会以二进制序列的形式在网络上传送。当两个Java进程进行远程通信时,一个进程能否把一个Java对象发送给另一个进程呢&a…

本地部署语音转文字(whisper,SpeechRecognition)

本地部署语音转文字 1.whisper1.首先安装Chocolatey2.安装3.使用 2.SpeechRecognition1.环境2.中文包3.格式转化4.运行 3.效果 1.whisper 1.首先安装Chocolatey https://github.com/openai/whisper 以管理员身份运行PowerShell Set-ExecutionPolicy Bypass -Scope Process -…

自动化测试框架性能测试报告模板

一、项目概述 1.1 编写目的 本次测试报告,为自动化测试框架性能测试总结报告。目的在于总结我们课程所压测的目标系统的性能点、优化历史和可优化方向。 1.2 项目背景 我们公开课的性能测试目标系统。主要是用于我们课程自动化测试框架功能的实现,以及…

记录 | ubuntu监控cpu频率、温度等

ubuntu监控cpu频率、温度等 采用 i7z 进行监控,先安装: sudo apt install i7z -ysudo i7z

基于51单片机的多模式智能闹钟系统【代码+仿真+论文+PPT等16个文件资料】

一、项目功能简介 整个设计系统由STC89C52单片机LCD1602显示模块DS1302模块温度模块存储模块矩阵按键模块组成。 具体功能: 1、智能闹钟正常模式显示阳历年、月、日、星期、小时、分、秒; 2、可设置时间和日期; 3、 LCD显示当前温度&…

游戏玩家升级不伤手之选,光威龙武系列超强性能

得益于国产存储芯片的崛起,现在的内存条价格太香了。要放在前几年,购买内存条时都会优先考虑国际一线品牌。随着内存条行业发生巨变,国产品牌光威GLOWAY,是全球前三的内存模组厂商嘉合劲威旗下品牌,它推出的内存条产品…

十八、FreeRTOS之FreeRTOS任务通知

本节需要掌握以下内容: 1、任务通知的简介(了解) 2、任务通知值和通知状态(熟悉) 3、任务通知相关API函数介绍(熟悉) 4、任务通知模拟信号量实验(掌握) 5、任务通知…