Linguistic Steganalysis in Few-Shot Scenario论文阅读笔记

TIFS期刊 A类期刊

新知识点

在这里插入图片描述

Introduction

Linguistic Steganalysis in Few-Shot Scenario模型是个预训练方法。
评估了四种文本加密分析方法,TS-CSW、TS-RNN、Zou、SeSy,用于分析和训练的样本都由VAE-Stego生产(编码方式使用AC编码)。
实验是对比在少样本的情况下,各个模型的效果,当训练样本少于10的时候(few-shot),上面提到的TS-CSW和TS-RNN的表现都不好。
Zou和SeSy的方法用了pre-trained language mode,当训练标记样本到达1000的时候表现更好。
TS-CSW和TS-RNN的方法当样本达到10000的时候表现也很好。
表明,现有的分析网络需要大量样本作为训练的铺垫。

之前的文章 Few-shot text steganalysis based on attentional meta-learner[30]这篇文章考虑了few-shot的问题,但是作者的评价是:

Although this linguistic steganalysis method performs well when combined with multi-task scenario, there are some
problems in practical applications. Firstly, this method may not be able to demonstrate its advantages when there are
too few labeled samples to constitute multi-task, which limits its scope of application. Secondly, it is time-consuming
and labor-intensive to label samples accurately with various embedding rates and steganography algorithms

为了分析现实世界的实用场景,这篇文章只关注只有少量标记样本的实际场景(practiacl scenario)。
实验
第一阶段用 labeled data 去 fune-tune pretrained language model
第二阶段用 unlabeled data去进行 self-training(这个没太懂场景和效果问题)
在这里插入图片描述
总结的文本分析所用的方法和模型。👆
在这里插入图片描述
这是作者所用的模型,她提出了一个概念是,在slef-training的模型中,通过无标签(不知道是否是stego还是正常的cover)的文本来进行分析,选择more obvious and easier samples去标记pseudo-labeled(伪标记) dataset--------- D p D_p Dp D p D_p Dp便于后续的训练过程,提取和学习足够和更明显的特征,逐渐澄清分布差异。我们可以重复这个过程,然后得到了一种有效的少镜头语言步进分析方法。

basic model

对于基础模型,通过已标记数据集 D l D_l Dl来训练模型 B W ( ∗ ) B^W(*) BW()(Bert)。
训练的损失函数是:
在这里插入图片描述

N s N_s Ns是batch size,y_hat是预测结果,y是真实结果。

Self-Training Framework

在这里插入图片描述
其中的MC dropout是一种选择模型确定性较大的label给数据贴上。(个人理解类似于max_pooling,通过多次的选取特征明显的值来获取模型最能分辨的一些语句)。
MC dropout
其中 6 ,7 ,8 ,9 ,10几个公式在论文中展示了,效果就是从无标签的文本中选出最大特征的数据(这种数据对于basic model的训练效果最佳),从而实现对于整个模型的正循环的训练。

实验

dataset
使用IMDB和Twitter、News的文本,然后使用BERT-LSTM的架构训练一个VAE-stego的加密模型,对于每个模型,都使用了HC(Huffman Coding)和AC(Arithmetic Coding)两种编码方式来实现。
选择了嵌入率是,HC的candidate pool size 设为了32,每个单词的平均嵌入bit约为5。
AC的candidate pool size 设为了dictionary size,每个单词的平均嵌入bit约为7。
experimental settings
实验模型使用的bert,12层transformer,hidden dimension为768, 最大句子长度是128。
相同的steganalysis methods,做了对比试验,都使用bert作为基本模型,使用了 Zou,SeSy和FSStega进行了对比,在训练labeled sample小于等于10的情况下,作者的准确率(acc)要高于其他几个10%左右。
在这里插入图片描述

performance on unlabeled dataset
为了模拟真实场景(因为真实场景所含有的加密的样本比较少),作者把Cover:Stego的比例从2:1调整到1:0。然后在IMDB数据集上面的AC编码进行训练。由于训练的样本较少,基础模型不稳地,所以这次训练选择使用30个banlance labeled samples对之前的basic model进行再训练,然后再用unbalanced(正负样本比例不均衡) 和 unlabeled dataset对self-training进行训练。
-

Performance on Unlabeled Datasets With Mixed Language Styles
把三个数据集混合进行训练,按占比不同做新的数据集训练,然后按照训练的步骤再进行实验分类。

在这里插入图片描述
a是只进行basic model训练后的分类结果,b是通过unlabeled数据集训练后的分类结果,c是把a和b训练好的最终模型,来进行分类的结果(b产生的sample再进行a训练,把a的模型训练到最佳)。

Generality Test

一共六个数据集,选用了IMDB的AC编码的数据集,来进行对其他5个数据集的验证测试。
在这里插入图片描述

Efficiency Test

在这里插入图片描述
训练好的模型,做加密分析检测一次所需要的时间/内(显)存👆。

Hyper-Parameters Adoption

其中 θ θ θ是当unlableed产生假标记的数据后,labeled的数据(原始数据)再放进去训练basic model的比例(100%)则为完全的有监督学习。
在这里插入图片描述
其中的 α α α是等式9的可更改选择加标签数据的比例。
在这里插入图片描述
作者做的实验是真的全面,佩服!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/212765.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JavaWeb(二)

一、SQL简介 结构化查询语言,一门操作关系型数据库的编程语言。英文:Structured Query Language,简称 SQL。 二、Mysql和Oracle关于区分大小写 MySQL在Windows下都不区分大小写。 oracle中分为两种情况,单纯的sql语句不区分大小…

深入理解网络非阻塞 I/O:NIO

🔭 嗨,您好 👋 我是 vnjohn,在互联网企业担任 Java 开发,CSDN 优质创作者 📖 推荐专栏:Spring、MySQL、Nacos、Java,后续其他专栏会持续优化更新迭代 🌲文章所在专栏&…

非标设计之螺纹螺丝选型二

目录 一、螺丝的表面处理工艺:镀锌工艺:渗锌工艺:热浸锌工艺:达克罗工艺:镀镍工艺:氧化(发黑)工艺:电泳黑工艺:不锈钢螺钉: 二、按照颜色分工艺&a…

掌握视频剪辑技巧,轻松自定义视频速率,打造个性化出彩视频

你是否曾经因为视频节奏平淡而缺乏吸引力而苦恼?现在,我们为你推荐一款视频批量剪辑工具,让你轻松自定义视频速率,实现出彩个性化视频。 首先第一步,我们要打开好简单批量智剪,并登录账号。 第二步&#x…

三十五、Seata的基本架构、部署TC服务、微服务集成Seata

目录 一、基本架构 1、Seata事务中的三个重要角色 2、四种不同的分布式事务解决方案: 二、TC的部署 三、微服务集成Seata 1、引入Seata相关依赖 2、配置yml文件 3、启动服务 一、基本架构 Seata是 2019 年 1 月份蚂蚁金服和阿里巴巴共同开源的分布式事务解决…

centos7 yum安装mysql5.7

1.获取源 wget http://dev.mysql.com/get/mysql57-community-release-el7-11.noarch.rpm 2.安装源 yum -y install mysql57-community-release-el7-11.noarch.rpm 3.安装mysql yum -y install mysql-server 4.如果出现下面错误,没有错误就忽略 使用以下命令解决…

如何在Rocky Linux中安装nmon

一、环境基础 [rootlocalhost nmon16d]# cat /etc/redhat-release Rocky Linux release 9.2 (Blue Onyx) [rootlocalhost nmon16d]# uname -r 5.14.0-284.11.1.el9_2.x86_64 [rootlocalhost nmon16d]# 二、安装步骤 在Rocky Linux和AlmaLinux等基于RHEL 的发行版上&#xff…

把握生成式AI新机遇,亚马逊云科技助力下一位独角兽

文章目录 前言亚马逊云科技生成式AI创业热潮向应用与工具链集中生成式AI初创生而全球化 赛道更细分、布局更广阔后记 前言 DoNews11月20日消息,当一项新技术出现,并成为行业主流甚至是变革的“敲门砖”时,企业应该如何应对? 202…

Zookeeper 安装与部署

Zookeeper官网 目录 1 配置文件参数解读2 Zookeeper 单点安装3 Zookeeper 分布式安装 1 配置文件参数解读 Zookeeper 中的配置文件 zoo.cfg 中参数含义解读如下: (1)tickTime 2000:通信心跳数,Zookeeper 服务器与客户…

Shutdown Signal: channel error; protocol method: #method<channel.close>

完整异常信息&#xff1a; Shutdown Signal: channel error; protocol method: #method<channel.close>(reply-code404, reply-textNOT_FOUND - no exchange fanoutExchange in vhost /, class-id60, method-id40) 意思是找不到名字是 fanoutExchange 的虚拟机 就是虚拟机…

增强现实技术革新零售业:提升购物体验的未来技术

增强现实&#xff08;AR&#xff09;技术正在改变零售业的面貌&#xff0c;为消费者提供了全新的购物体验。本文将探讨AR技术在零售行业中的应用&#xff0c;以及它如何改变传统的购物方式。 首先&#xff0c;AR技术允许消费者在现实世界中查看虚拟的产品展示。在服装和家具行业…

基于51单片机的交通灯_紧急开关+黄灯倒计时+可调时间

51单片机交通灯_紧急开关黄灯倒计时可调时间 开题报告系统硬件设计主控制器选择系统硬件结构图时钟及复位电路指示灯及倒计时模块 倒计时模块&#xff1a;程序软件主流程框架main函数 设计报告资料清单资料下载链接 基于51单片机交通灯_紧急开关黄灯倒计时可调时间 仿真图prote…

【DPDK】Trace Library

概述 跟踪是一种用于了解运行中的软件系统中发生了什么的技术。用于跟踪的软件被称为跟踪器&#xff0c;在概念上类似于磁带记录器。记录时&#xff0c;放置在软件源代码中的特定检测点会生成保存在巨大磁带上的事件&#xff1a;跟踪文件。稍后可以在跟踪查看器中打开跟踪文件…

【U8+】用友U8删除固定资产卡片,提示:当前卡片不是本月录入的卡片,不能删除。

【问题描述】 用友U8软件&#xff0c;参照已有账套新建账套的时候&#xff0c;选择结转期初余额。 例如&#xff1a;参照已有账套的2022年新建2023年的账套。 结转期初的时候勾选了固定资产模块&#xff0c; 建立成功后登录23年新的账套后&#xff0c;删除固定资产卡片&#xf…

17.字符串处理函数——字符串比较函数

文章目录 前言一、题目描述 二、解题 程序运行代码 总结 前言 本系列为字符串处理函数编程题&#xff0c;点滴成长&#xff0c;一起逆袭。 一、题目描述 二、解题 程序运行代码 #include<stdio.h> #include<string.h> int main() {char *str1 "hello wo…

【C++ regex】C++正则表达式

文章目录 前言一、正则表达式是什么&#xff1f;二、<regex>库的基础使用2.1 第一个示例2.1 <regex>库的函数详解std::regex_matchstd::regex_searchregex_search 和 regex_match 的区别std::regex_replacestd::regex_iterator 和 std::sregex_iterator&#xff1a…

谭巍主任探讨:丝状疣感染机制揭秘

丝状疣是寻常疣的一种特殊类型&#xff0c;主要由人乳头瘤病毒(HPV)感染所致。HPV是一种常见的病毒&#xff0c;可以通过直接接触传播&#xff0c;也可以通过间接接触传播。而多年临床经验告诉北京劲松中西医医院皮肤性病科主任谭巍丝状疣的感染通常与以下因素有关&#xff1a;…

数据结构和算法-树与二叉树的存储结构以及树和二叉树和森林的遍历

文章目录 二叉树的存储结构二叉树的顺序存储二叉树的链式存储小结 二叉树的先中后序遍历例题小结 二叉树的层次遍历小结 由遍历序列构造二叉树一个遍历序列即使给定了前中后序&#xff0c;也不能确定该二叉树的形态可以确定的序列组合前序中序后序中序层序中序 小结若前序&…

6 Redis缓存设计与性能优化

缓存穿透 缓存穿透是指查询一个根本不存在的数据&#xff0c; 缓存层和存储层都不会命中&#xff0c; 通常出于容错的考虑&#xff0c; 如果从存储层查不到数据则不写入缓存层。缓存穿透将导致不存在的数据每次请求都要到存储层去查询&#xff0c; 失去了缓存保护后端存储的意义…

整数分频,奇偶分频。

实验目标&#xff1a; 实现任意整数奇偶分频。 /* 二分频电路就是用同一个时钟信号通过一定的电路结构转变成不同频率的时钟信号。 二分频就是通过有分频作用的电路结构&#xff0c;在时钟每触发2个周期时&#xff0c;电路输出1个周期信号。 比如用一个脉冲时钟触发一个计…