Embedding压缩之基于二进制码的Hash Embedding

推荐系统中,ID类特征的表示学习(embedding learning)是深度学习模型成功的关键,因为这些embedding参数占据模型的大部分体积。这些模型标准的做法是为每一个ID特征分配一个unique embedding vectors,但这也导致存储embedding table需要消耗巨大的内存。

在上一篇文章中 Embedding压缩之hash embedding,介绍了几种常见的hash embedding方法来对embedding进行压缩,实现模型的瘦身。今天继续介绍一种阿里在CIKM 2021的论文中提出的方法:基于二进制码的hash embedding,该方法兼具了调整embedding存储的大小的灵活性和尽可能保留模型的效果

算法流程

Binary code based Hash Embedding的算法流程如下图,主要分为了3步:特征hash、embedding索引生成、embedding向量生成。

Binary Hash Embedding

特征Hash

ID类特征的来源是多种类型,比如字符串或者整型,实际中的做法分为两种:

  1. 提前创建映射表,即将不同的特征值映射到对应的unique id,这种做法的缺点是不灵活,难以应对特征值的动态扩展,并且需要保存映射表;
  2. 另一种做法则是使用特征Hash,可以直接将原始特征值映射到Integer,如上图[Binary Hash Embedding-Step1],称为Hash ID:

h i = H ( f i ) h_i=\mathcal{H}(f_i) hi=H(fi)

其中, H \mathcal{H} H为hash函数(如Murmur Hash), h i h_i hi为特征值 f i f_i fi的Hash ID。为了尽量降低 h i h_i hi之间的冲突, H \mathcal{H} H的输出通常是一个比较大的数值,比如64位的Integer。

embedding索引生成

如上图[Binary Hash Embedding-Step2],Embedding索引生成分为3步:Binarization、Code Block Strategy和Decimalization。

Binarization

在特征Hash之后,每一个特征值可以认为是拥有一个对应的唯一(没有冲突)的Hash ID。

在这一步,会将Hash ID转化为一个二进制码 b i ∈ { 0 , 1 } S b_i \in \{0,1\}^S bi{0,1}S,S为二进制码的长度,如上图[Binary Hash Embedding-Step2.1],比如13的二进制码是 110 1 2 1101_2 11012

因为10进制转2进制这个过程是不包含任何参数,并且计算逻辑是固定的,因此二进制码 b i b_i bi是可以与特征值 f i f_i fi一一对应的。

Code Block Strategy

前面提到基于二进制码的hash embedding在调整embedding存储大小上具备灵活性,这个灵活性在这一节就会得到体现。论文提出了一种策略 code block strategy:

  1. 将二进制码 b i b_i bi的每一个0-1值切分到不同的块(blocks),每一个block中有序的0-1码可以来表示 K = 2 n K=2^n K=2n 个不同的整数,其中n是每个block中0-1值的个数,如上图[Binary Hash Embedding-Step2.2]。
  2. 接着,再将每一个block的0-1码转换成10进制的整数,作为每一个block的embedding table W ∈ R K × D W \in \mathbb{R}^{K \times D} WRK×D的索引

比如,当n=1时,每个block的0-1值个数为2,embedding table的存储大小为 O ( 2 D ) O(2D) O(2D)。而当所有的0-1值放在同一个block的时候,此时就相当于full embedding。因此,embedding table的大小可以通过n来控制,这也正是这个策略的灵活性体现。

用表达式来看,定义 B i = [ B i , 0 ; B i , 1 ; . . . ; B i , m ; . . . ] B_i=[B_{i,0};B_{i,1};...;B_{i,m};...] Bi=[Bi,0;Bi,1;...;Bi,m;...]为code block strategy产出的block序列, ∣ B i ∣ |B_i| Bi是block的数量,那么第m个block B i , m ∈ { 0 , 1 } n B_{i,m} \in \{0,1\}^n Bi,m{0,1}n可以表示为下式:

其中,Alloc是一个分配函数,将每一个0-1值分配到不同的block。Order则是将每个block的0-1值变为有序的函数。

论文提出了两种code block strategy的形式:

  • Succession. 如下图[code block strategy-a],succession策略从左往右遍历,Alloc函数会会将每t个0-1值放入到同一个block。而Order函数则是保持 b i b_i bi中每一个0-1值的原有顺序。
  • Skip. 如下图[code block strategy-b],skip策略将间隔为t的0-1值放入同一个block。Order函数与succession策略相同。
  • 当最后剩余的0-1值不够t时,则会将剩下的所有0-1值放入到同一个block中。

code block strategy

通过code block strategy,对于每一个 b i b_i bi可以获得唯一的 B i B_i Bi。但其实如果Hash ID长度空间超过 2 S 2^S 2S,那么还是会产生冲突的。

Decimalization

每一个block的embedding索引 k i , m k_{i,m} ki,m则通过 B i , m B_{i,m} Bi,m的十进制得到,如上图[Binary Hash Embedding-Step2.3]:

k i , m = D e c i m a l i z e ( B i , m ) k_{i,m}=Decimalize(B_{i,m}) ki,m=Decimalize(Bi,m)

其实就是将block中的0-1二进制码转化为10进制,作为embedding索引。

embedding向量生成

Embedding Lookup. 如上述提到,每一个block B i , m B_{i,m} Bi,m可以得到一个embedding索引 k i , m k_{i,m} ki,m,那么就可以将 k i , m k_{i,m} ki,m映射到一个embedding向量

e i , m = ε ( W m , k i , m ) e_{i,m}=\varepsilon(W_m,k_{i,m}) ei,m=ε(Wm,ki,m)

W m W_m Wm是第m个block B i , m B_{i,m} Bi,m对应的embedding table, e i , m e_{i,m} ei,m则代表 B i , m B_{i,m} Bi,m的embedding,而 ε \varepsilon ε是embedding lookup函数。

Embedding Fusion. 通过上面的流程,可以得到 ∣ B i ∣ |B_i| Bi个embedding,最后需要将 ∣ B i ∣ |B_i| Bi个embedding进行组合得到特征值 f i f_i fi 最终的embedding x i x_i xi,组合形式一般包括Sum Pooling、LSTM、Concatenation。

实验结果

不同Hash Embedding效果

不同Hash Embedding的存储大小

不同code block strategy对比

总结

优势

  • 确定性。embedding索引的计算是一个确定性的无参数的过程,对于新的特征值是友好的。
  • 灵活性。embedding的存储大小是靠超参数n来调整的。
  • 唯一性。无论embedding缩减到什么程度,每一个特征值 f i f_i fi都有唯一的 B i B_i Bi(在Hash ID长度空间不超过 2 S 2^S 2S的前提下)
  • 压缩率高。假如Hash ID的长度空间为 2 24 2^{24} 224,那么full embedding的存储大小为 2 24 × D 2^{24} \times D 224×D。而如果选择策略为succession,且t=12,即block的数量为 24 / 12 = 2 24/12=2 24/12=2,每个block的0-1个数为12,那么基于二进制码的hash embedding存储大小为 2 × 2 12 × D 2 \times 2^{12} \times D 2×212×D,压缩率高达 1 / 2 11 1/2^{11} 1/211

对比

  • Full Embedding:Full Embedding与论文方法都很好区分不同的特征值,该论文方法能够很好减少embedding的存储;
  • Hash Embedding:是论文方法的一种简化形式,即code block strategy是Succession,且仅取前t个0-1值来计算embedding索引;
  • Multi-Hash Embedding:都可以创建多个embedding索引,但论文方法对这些索引的唯一性约束更好;
  • Q-R Trick:可以看作是论文方法的一种特例,code block strategy是Succession,前t个0-1码作为quotient,剩余的0-1码作为remainder。

最后,再总结下基于二进制码的Hash Embedding原理。

  1. 将特征值的Hash ID转化为二进制码;
  2. 然后将二进制码的0-1值切分到不同的block,每一个block对应一个embedding table;
  3. 而每一个block中的0-1二进制码转换回10进制作为embedding索引;
  4. 最后,将从每一个block得到的embedding进行组合作为最后的embedding表征。

代码实现

git

包括二进制码的Hash编码算子实现、二进制码的Hash Embedding的Python实现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/239776.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【QT 5 调试软件+(Linux下验证>>>>串口相关初试串口)+Windows下qt代码在Linux下运行+参考win下历程+基础样例】

【QT 5 调试软件Linux下验证>>>>串口相关初试串口参考win下历程基础样例】 1、前言2、实验环境3、先行了解4、自我总结-win下工程切到Linux下1、平台无关的代码:2、依赖的库:3、文件路径和换行符:4、编译器差异:5、构…

揭秘高效大型语言模型:技术、方法与应用展望

近年来,大型语言模型(LLMs)在自然语言处理领域取得了显著的进展,如GPT-series(GPT-3, GPT-4)、Google-series(Gemini, PaLM), Meta-series(LLAMA1&2), BLOOM, GLM等模型在各种任务中展现出惊人的能力。然而,随着模…

IDC报告:国内游戏云市场,腾讯云用量规模位列第一

12月12日消息,IDC公布最新的《中国游戏云市场跟踪研究,2022H2》报告(以下简称“《报告》”)显示,腾讯云凭借全球化节点布局以及国际领先的游戏技术积累,在整体规模、云游戏流路数、CDN流量峰值带宽等多维度…

C++笔记之Delegate和委托构造(Delegating constructor)

C笔记之Delegate和委托构造辨析 code review! —— 杭州 2023-12-10 参考博文:C笔记之文档术语——将可调用对象作为函数参数 文章目录 C笔记之Delegate和委托构造辨析0.有道词典:英语发音1.ChatGPT:delegate概念详解2.Delegate和“将可调…

Python异常、模块和包

Python异常、模块和包 1.了解异常2.异常的捕获方法3.异常的传递4.Python模块5.Python包 1.了解异常 1.1什么是异常 当检测到一个错误是,Python解释器就无法继续执行了,发而出现了一些错误提示,这就是所谓的“异常”,也就是我们常…

橡胶塑料企业网站建设的作用是什么

橡胶塑料产品一般属于大额交易,对企业来说,需要不断提升品牌和拓客,但如今线下信息传播力不足,难以全面呈现内容,需要商家不断提升线上能力,获得进一步发展。 1、品牌宣传展示难 线上没有自己的平台难以将…

HTML---列表.表格.媒体元素

文章目录 前言一、pandas是什么&#xff1f;二、使用步骤 1.引入库2.读入数据总结 一.列表 无序列表 HTML中的无序列表&#xff08;Unordered List&#xff09;用于显示一组项目&#xff0c;每个项目之前没有特定的顺序或编号。无序列表使用<ul>标签来定义&#xff0c;每…

MTK Android P Sensor架构(一)

需求场景&#xff1a; 本来如果只是给传感器写个驱动并提供能读取温湿度数据的节点&#xff0c;是一件比较轻松的事情&#xff0c;但是最近上层应用的同事要求我们按照安卓标准的流程来&#xff0c;这样他们就能通过注册一个服务直接读取传感器事件数据了。这样做的好处就是第…

初始数据库 - 了解数据库

centos 7 版本当中安装 mysql 安装与卸载中&#xff0c;⽤⼾全部切换成为root&#xff0c;⼀旦 安装&#xff0c;普通⽤⼾是可以使用的。 卸载不需要的环境 首先&#xff0c;在安装之前&#xff0c;要先确定你当前系统当中是否已经有了mysql 的环境&#xff0c;如果你不想卸…

1838_emacs_evil中跳转到任意字符evil-avy-goto-char的功能分析

Grey 全部学习内容汇总&#xff1a;GitHub - GreyZhang/editors_skills: Summary for some common editor skills I used. 1838_emacs_evil中跳转到任意字符evil-avy-goto-char的功能分析 avy是一个比较成熟的emacs的插件&#xff0c;可以实现快速跳转到指定的字符位置的功能…

数据在网络中是怎么传输的?

计算机通信场景大致如下所示&#xff1a; 1.同一个子网中两台计算机通信 2.不属于同一个子网&#xff0c;两台计算机进行通信 以下内容&#xff0c;将围绕这两种场景进行阐述&#xff0c;在阐述之前&#xff0c;先举个场景示例&#xff0c;帮助大家理解一些名词 场景一&…

机器学习---Boosting

1. Boosting算法 Boosting思想源于三个臭皮匠&#xff0c;胜过诸葛亮。找到许多粗略的经验法则比找到一个单一的、高度预 测的规则要容易得多&#xff0c;也更有效。 预测明天是晴是雨&#xff1f;传统观念&#xff1a;依赖于专家系统&#xff08;A perfect Expert) 以“人无…

Reinfocement Learning 学习笔记PartⅠ

文章目录 Reinfocement Learning一、基本概念二、贝尔曼公式&#xff08;bellman equation&#xff09;2.1 为什么return重要2.2 state value function的定义2.3 贝尔曼公式推导2.4 如何求解贝尔曼公式2.5 Action value的定义 三、贝尔曼最优公式&#xff08;bellman optimalit…

HarmonyOS—实现UserDataAbility

UserDataAbility接收其他应用发送的请求&#xff0c;提供外部程序访问的入口&#xff0c;从而实现应用间的数据访问。Data提供了文件存储和数据库存储两组接口供用户使用。 文件存储 开发者需要在Data中重写FileDescriptoropenFile(Uriuri,Stringmode)方法来操作文件&#xf…

在做题中学习(32):只出现一次的数字 III

260. 只出现一次的数字 III - 力扣&#xff08;LeetCode&#xff09; 根据题目可知&#xff1a;有两个元素只出现一次&#xff0c;其余出现两次。 而在只出现一次的数字 I 里&#xff0c;只有一个元素出现一次&#xff0c;可以用异或的方式直接得到最后的答案&#xff0c;而此…

PaddleOCR:超越人眼识别率的AI文字识别神器

在当今人工智能技术已经渗透到各个领域。其中&#xff0c;OCR&#xff08;Optical Character Recognition&#xff09;技术将图像中的文字转化为可编辑的文本&#xff0c;为众多行业带来了极大的便利。PaddleOCR是一款由百度研发的OCR开源工具&#xff0c;具有极高的准确率和易…

Linux嵌入式配置USB鼠标支持+触摸板

在linux嵌入式中加入鼠标支持&#xff0c;首先在内核里面将mice驱动加入编译&#xff0c;这里用到的是usb所以还要有usb的支持&#xff0c;下载到板子上启动 1、定位鼠标 要用鼠标&#xff0c;首先要知道生成的鼠标设备是哪个&#xff0c;直接直接ls input目录&#xff0c;当…

2023.12.6-12.11 黑马知行教育项目实战,访问咨询意向线索主题

目录 简单介绍: 一.项目背景介绍 二.项目架构介绍 三.项目内容 3.1访问和咨询分析主题: 3.1.1 表与表之间的关联 3.1.2访问咨询主题需求汇总:最终需在ADS层制作六张表 3.1.3 访问咨询DWS大宽表建表与导入数据 3.2意向线索主题需求分析 3.2.1意向线索主题需求汇总:最终需在…

【数据结构(六)】希尔排序、快速排序、归并排序、基数排序的代码实现(3)

文章目录 1. 希尔排序1.1. 简单插入排序存在的问题1.2. 相关概念1.3. 应用实例1.3.1. 交换法1.3.1.1. 逐步推导实现方式1.3.1.2. 通用实现方式1.3.1.3. 计算时间复杂度 1.3.2. 移动法 2. 快速排序2.1. 相关概念2.2. 实例应用2.2.1. 思路分析2.2.2. 代码实现 2.3. 计算快速排序的…

华清远见作业第二十五天

使用三个程序来完成输出ABCABCABCABCABC #include <stdio.h> #include <unistd.h> #include <sys/types.h> #include <sys/wait.h> #include <sys/sem.h>#define NUM_SEMS 3 // 信号量集中的信号量数量union semun {int val;struct semid_ds *…