两种分类代码:独热编码与标签编码

目录

一、说明

二、理解分类数据

2.1 分类数据的类型:名义数据与序数数据

2.2 为什么需要编码

三、什么是独热编码?

3.1 工作原理:独热编码背后的机制

3.2 应用:独热编码的优势

四、什么是标签编码?

4.1 工作原理:标签编码的实际应用

4.2 示例:标签编码分步指南

4.3 应用:当标签编码合适时

五、比较:独热编码与标签编码

5.1 复杂性:维度灾难与内存效率

5.2 序数数据与名义数据:选择正确的编码

5.3 对算法的影响:当数字关系很重要时

5.4 内存和计算效率:权衡

六、何时使用独热编码与标签编码

七、One Hot 和标签编码的替代方案

八、结论


一、说明

        当你深入研究机器学习时,你遇到的第一个障碍就是如何处理非数字数据。这就是编码的作用所在——将分类数据转换成机器学习算法可以理解的东西。但问题是:并非所有编码都是平等的。

        您可能听说过独热编码标签编码——它们是转换分类数据时最常用的两种技术。但知道何时使用其中一种而不是另一种吗?这才是真正的挑战。一种是扩展数据集,而另一种是压缩数据集——但会产生后果。

在这篇文章中,我们将探讨这两种方法。我将带您了解每种方法的区别应用以及优缺点。到最后,您不仅会了解何时使用独热编码以及何时选择标签编码,而且还会知道每种方法如何影响模型的性能。

准备好了吗?让我们开始吧。

二、理解分类数据

        在讨论编码方法之前,让我们先确保我们对分类数据有相同的理解。简而言之,分类数据是任何代表类别的数据——例如颜色、动物类型,甚至是人的教育水平。这些不是我们可以在机器学习模型中直接处理的数字,但它们包含我们不能忽视的宝贵信息。

2.1 分类数据的类型:名义数据与序数数据

        事情变得有趣了:并非所有分类数据都一样。有名义数据和序数数据。

  • 名义数据是纯粹的描述性数据。可以把它想象成不按任何顺序命名事物——比如“红色”、“蓝色”和“绿色”。一个并不比另一个“大”,它们只是不同而已。
  • 另一方面,序数数据具有固有顺序。想象一下调查结果,例如“低”、“中”和“高”——尽管我们仍在处理类别,但其中存在自然的递进。

在独热编码和标签编码之间进行选择时,这种区别非常重要。为什么?因为错误的编码可能会扰乱算法对数据的解释。

2.2 为什么需要编码

        现在,你可能会想:“为什么要费心对分类数据进行编码?” 事情是这样的:机器学习算法使用数字。它们不“理解”单词或标签——它们需要数字表示。如果没有编码,你的算法就无法处理或从分类特征中学习。

        例如,如果你正在训练一个模型来预测一套房子是否会出售,而你的特征之一是“街区”,那么这就是分类数据。你需要对其进行编码,否则你的模型就会忽略这些信息——或者更糟的是,会误解它。

三、什么是独热编码?

        您可能听说过机器学习讨论中经常提到的“独热编码”一词。但它到底是什么意思呢?嗯,这是一种将类别转换为机器学习模型可以理解的格式(二进制向量)的方法。可以将其视为在编码世界中为每个类别分配一个特殊的位置。

3.1 工作原理:独热编码背后的机制

        具体过程如下:对于数据中的每个唯一类别,独热编码都会创建一个新的二进制列。因此,您不再拥有一个包含多个分类值的列,而是拥有多个列 — 每个列代表一个类别。

        让我们举个例子。假设你有一个数据集,其中有一列“水果”,其中包含三个类别:“苹果”、“香蕉”和“橙子”。在独热编码中,这三个类别将转换为三个单独的列。如下所示:

        在此设置中,每个水果类别都由一个二进制向量表示,其中一个类别标记为“1”,其他类别标记为“0”。这样,您的模型就不会意外地假设类别之间存在关系(因为毕竟苹果并不“大于”香蕉)。

        示例:逐步应用独热编码

        让我们通过一个更现实的例子进一步分解。假设您正在处理一个数据集,其中包含一个“国家/地区”列,其中包含“美国”、“加拿大”和“墨西哥”等值。以下是应用独热编码的方法:

  1. 步骤 1:确定独特类别(在本例中为三个:美国、加拿大和墨西哥)。
  2. 第 2 步:对于每个唯一类别,创建一个二进制列。
  3. 步骤 3:将 1 分配给每一行的相应列,将 0 分配给所有其他行。

编码后,“国家”列将转换为:

每个国家现在都有自己的列,并且不对它们之间的任何序数关系做出任何假设。

3.2 应用:独热编码的优势

        你可能会想:我到底在哪里使用独热编码?好吧,事情是这样的——独热编码在分类任务中被广泛使用,尤其是当算法不能很好地处理分类数据时。算法如下:

  • 逻辑回归:独热编码至关重要,因为该算法将分类变量视为独立变量。
  • 神经网络:神经网络喜欢独热编码,因为它简化了输入,让网络专注于数值数据中的模式。
  • K-Means 聚类:在这里,算法计算点之间的距离,如果没有独热编码,它可能会误解分类值。

独热编码功能强大,但有一个缺点——最终可能会产生太多列,尤其是当您有很多类别时。但我们稍后会谈到这一点。

四、什么是标签编码?

        现在,让我们来谈谈标签编码——将分类数据转换为可用数据的另一种方法。与创建多个二进制列的独热编码不同,标签编码为每个类别分配一个唯一的整数。

4.1 工作原理:标签编码的实际应用

        在标签编码中,您无需创建单独的列,而是将每个类别映射到一个数字。例如,让我们以之前的相同“水果”数据集为例:

        这里,“苹果”变成 0,“香蕉”变成 1,“橙子”变成 2。很简单,对吧?这里的关键区别在于,所有类别都打包到一列中,从而避免了使用独热编码时出现的列爆炸问题。

4.2 示例:标签编码分步指南

        让我们看一个不同的例子。假设您有一个数据集,其中有一列“汽车品牌”,其中包含“丰田”、“本田”和“福特”。当您应用标签编码时:

  1. 步骤 1:确定独特类别 — 丰田、本田、福特。
  2. 第 2 步:为每个类别分配一个唯一的整数。

经过标签编码后,该列变为:

        这样,您将获得一列代表类别的数值。这种方法高效且易于实现,但也存在风险 — 标签编码引入了隐含顺序。模型可能会认为“本田”(1) 在某种程度上大于“丰田”(0) 或“福特”(2),但事实并非如此。

4.3 应用:当标签编码合适时

        标签编码非常适合序数数据(具有明确的顺序或排名,例如“低”、“中”和“高”)。标签编码也更常用于自然处理分类数据而无需大量转换的算法中,例如:

  • 决策树:随机森林和决策树等算法可以处理标签编码数据,而不会误解类别之间的数字关系。
  • 排名问题:如果您处理的是序数数据,例如客户评级或调查回复,标签编码可能是一个简单的选择。

如果您拥有大量类别,并且想要避免独热编码带来的维数灾难,标签编码尤其有用。但是,您必须谨慎处理非序数数据,因为它可能会导致您的模型得出关于类别之间关系的错误结论。

到目前为止,您已经对独热编码和标签编码有了扎实的理解,但关键问题仍然存在:什么时候应该使用其中一种?请继续关注,因为我们接下来将解决这个问题。

五、比较:独热编码与标签编码

        现在我们已经分解了独热编码和标签编码的机制,您可能会想:“好吧,但我什么时候应该使用其中一种呢?”让我们进行详细的比较,以便您可以为您的数据集和机器学习模型做出最佳决策。

5.1 复杂性:维度灾难与内存效率

        问题是:独热编码和标签编码在复杂性方面存在很大差异。

  • 独热编码:虽然它在保持类别独立性方面做得很好,但它会显著增加数据集的维度。想象一下,您正在使用“城市”这样的特征,并且您的数据中有 1,000 个不同的城市。独热编码将创建 1,000 个新的二进制列 - 哎呀!这种列的激增不仅会增加内存使用量,还会导致我们所说的维数灾难。您添加的维度(或列)越多,算法就越难找到模式,这可能会导致模型性能下降。
  • 标签编码:另一方面,标签编码的内存效率更高。无论有多少类别,标签编码只需要一个列即可表示任何分类特征。但是,标签编码可能会因隐含的序数关系而引入偏差,这一点很重要。您的模型可能会错误地将“1”视为大于“0”,这可能会扭曲预测,尤其是在数字距离很重要的线性回归等算法中。

5.2 序数数据与名义数据:选择正确的编码

现在,让我们讨论一下分类数据的类型以及它的重要性。

  • 标签编码是处理序数数据(即具有自然顺序的数据)的首选。想想教育水平:“高中”、“大学”和“研究生”。在这种情况下,标签编码是有意义的,因为存在固有排名,并且数值不会混淆模型。
  • 处理名义数据时,独热编码效果显著,因为类别之间没有固有顺序。例如,如果您对“颜色”(例如,红色、蓝色、绿色)进行编码,则应用标签编码会暗示某种层次结构 - 例如“蓝色”在某种程度上比“红色”更好或“更大”,但事实并非如此。这就是独热编码能够独立处理每个类别的能力真正发挥作用的地方。

5.3 对算法的影响:当数字关系很重要时

事情变得有点棘手。有些算法对标签编码引入的数字关系很敏感,而其他算法则不敏感。

  • 标签编码可能会导致将数值解释为距离的算法出现问题。以线性回归为例:如果您对“城市”等特征使用标签编码,算法可能会将“纽约”(编码为 0)解释为比“芝加哥”(编码为 2)更接近“洛杉矶”(编码为 1),这是没有意义的。同样的问题也出现在K 均值聚类中,它严重依赖于点之间的距离。
  • 另一方面,独热编码非常适合基于距离的算法,如 K 均值和神经网络。神经网络尤其受益于独热编码,因为它可以帮助网络独立处理每个类别,从而防止其对类别之间的关系做出任何假设。

5.4 内存和计算效率:权衡

在处理大型数据集时,独热编码和标签编码之间的选择通常归结为内存使用量和计算复杂性之间的权衡。

  • 独热编码:正如我之前提到的,独热编码会导致大量的列,特别是当你的分类特征有许多唯一类别时。这种维度的增加不仅会消耗更多内存,还会减慢计算速度——算法必须更加努力地处理所有这些额外的列。
  • 标签编码:如果内存效率是首要考虑因素,尤其是在大型数据集中,标签编码是更具吸引力的选择。它非常精简,每个特征只需要一列,因此可扩展性更强。但请记住,如果您的数据不是有序的,则可能会引入偏差。

六、何时使用独热编码与标签编码

        那么,如何决定使用哪种方法呢?让我们来分析一下。

        算法兼容性

  • 对于能够处理高维数据并从独立类别中受益的算法,请使用独热编码。独热编码最理想的一些关键算法包括:
  • 神经网络:独热编码简化了神经网络的输入,使其能够专注于数字模式。
  • K-Means 聚类:由于 K-means 依赖于距离,因此最好采用独热编码,因为它可以避免数字关系。
  • 逻辑回归:在逻辑回归中,分类特征必须独立,而独热编码可以保留这一点。
  • 当您使用对分类特征具有鲁棒性的算法或处理序数数据时,请使用标签编码。 通常应用标签编码的一些算法包括:
  • 决策树随机森林:这些基于树的方法自然能够处理标签编码数据,而无需假设类别之间的关系。
  • XGBoost:与决策树一样,XGBoost 可以处理标签编码而不会误解数值。

        数据集特征

  • 大型数据集:如果您处理的是高基数特征(具有许多唯一类别的特征,如邮政编码或产品 ID),标签编码可能更有效,因为它可以节省内存并降低计算复杂度。但请记住,您只应在不存在引入序数偏差的风险时使用它。
  • 小型数据集:在较小的数据集中,过度拟合的风险会增加,尤其是使用独热编码时。独热编码创建的额外列可能会导致您的模型记住数据而不是进行泛化。标签编码可能更适合维度不是问题的小数据集。

        实际场景

        让我们将其应用到实际应用中。

  • 案例研究 1:预测客户流失
    假设您正在为一家电信公司构建客户流失预测模型。您有一个包含 50 个不同区域的“客户区域”特征。在这种情况下,独热编码可能会导致 50 个额外的列,从而减慢您的算法速度。由于区域之间没有序数关系,您可以坚持使用独热编码或使用 PCA 等技术降低维度。
  • 案例研究 2:按客户满意度对产品进行排名
    现在,假设您正在开发一个模型,该模型根据客户满意度评级(如“低”、“中”和“高”)对产品进行排名。在这里,标签编码是有意义的,因为评级有固有的顺序,而决策树等算法不会误解数值。

        所以,归根结底,你需要了解你的数据集,并理解你选择的算法如何处理分类数据。有了这些知识,你就可以自信地决定独热编码或标签编码是否最适合你的模型性能。

七、One Hot 和标签编码的替代方案

        随着你对机器学习世界的深入了解,你可能会发现传统的独热编码和标签编码不太适合。幸运的是,有几种替代方案可以帮助你更有效地处理分类数据。让我们探索其中几种替代方案,以便你扩展你的工具包。

        频率编码

        首先是频率编码。该技术涉及用数据集中相应的频率(或计数)替换每个类别。它很简单,对于大型分类变量特别有用。

  • 工作原理:例如,如果您有一个像“城市”这样的特征,其中包含“纽约”、“洛杉矶”和“芝加哥”等类别,那么您可以将每个城市替换为其在数据集中出现的次数。因此,如果“纽约”出现 300 次,“洛杉矶”出现 200 次,“芝加哥”出现 100 次,则您的新编码值将分别为 300、200 和 100。
  • 权衡:这种方法可以让你免于独热编码带来的维度灾难。然而,你可能会担心它的潜在缺点:由于频率编码将类别简化为单个数值,它可能会掩盖频率较低的类别的独特特征。这意味着,虽然你获得了效率,但如果某些类别对你的模型很重要,你可能会失去一些预测能力。

        目标编码

        接下来,我们来谈谈目标编码。这种方法的潜在优势可能会让你感到惊讶,尤其是在监督学习任务中。

  • 它是什么:目标编码将每个类别替换为该类别的目标变量的平均值。例如,如果您预测房价,并且您的分类特征是“街区”,则目标编码将用该街区的平均房价替换每个街区。如果“市中心”的平均价格为 500,000 美元,“郊区”的平均价格为 300,000 美元,那么这些就是您的新值。
  • 优点:在特定情况下,这种方法可以胜过独热编码和标签编码,尤其是当分类特征与目标变量有很强的关系时。通过捕捉这种关系,您的模型可能会做出更明智的预测。但是,这种技术需要谨慎处理以避免数据泄露,尤其是在处理小型数据集时。使用交叉验证可以帮助您降低这种风险,方法是确保仅基于训练数据计算目标均值。

        二进制编码

        最后,我们来探讨一下二进制编码。这种方法通常被视为独热编码和标签编码之间的折衷,结合了两者的特点,同时追求效率。

  • 工作原理:二进制编码首先将类别转换为整数,类似于标签编码。然后,它将这些整数转换为二进制代码。例如,如果您有三个类别,“红色”、“蓝色”和“绿色”,标签编码将分别分配给它们 0、1 和 2。然后二进制编码会将这些整数转换为二进制,结果如下:
  • 红色:00
  • 蓝色:01
  • 绿色:10
  • 每个类别由比独热编码更少的列来表示,但比标签编码更清晰地表示。
  • 为什么要使用它?:此方法可以节省内存,同时仍保持类别之间的区别。它对于高基数特征特别有用,其中独热编码会创建太多列,但您仍然希望避免标签编码可能引入的偏差。

八、结论

        总结一下对编码技术的探索,很明显,在独热编码和标签编码之间做出选择并不总是那么简单。您已经了解到每种方法都有其优点和缺点,了解这些细微差别可以显著影响模型的性能。

        您可能会想:“那么,我应该使用哪种编码?”答案通常取决于数据的性质、您计划实现的算法以及您的具体用例。

  • 对于不存在序数关系的名义数据,独热编码非常有用,可确保您的模型独立处理类别。
  • 对于可以处理数值可能暗示的隐式关系的序数数据和算法来说,标签编码是一个很好的选择。

        在继续机器学习之旅时,不要忘记探索频率编码、目标编码和二进制编码等替代方案。每种方法都有其适用之处,尝试这些方法可以得到更好、更高效的模型。

        归根结底,编码的世界是广阔的,精通这些技术将使您能够应对数据科学项目中的各种挑战。继续尝试,保持好奇心,让您的见解指导您找到最适合您的数据集的编码策略!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/948799.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【AWS SDK PHP】This operation requests `sigv4a` auth schemes 问题处理

使用AWS SDK碰到的错误,其实很简单,要装个扩展库 保持如下 Fatal error: Uncaught Aws\Auth\Exception\UnresolvedAuthSchemeException: This operation requests sigv4a auth schemes, but the client currently supports sigv4, none, bearer, sigv4-…

限时特惠,香港服务器,低至53元/年

家人们谁懂啊!香港服务器这价格简直逆天了,居然比内地的还便宜!就拿阿里云来说,人家最低配置的服务器,价格都很难做到这么亲民。 最低配的就不说了,2 核 4G 的配置,应对日常业务稳稳当当&#x…

USB子系统学习(一)USB电气信号

文章目录 1、声明2、USB协议概述3、USB电气信号3.1、USB基础概念3.1.1、低速/全速信号电平3.1.2、高速信号电平 3.2、学习目标3.3、设备断开与连接3.3.1、连接3.3.2、断开 3.4、复位3.5、设备速率识别3.5.1、低速/全速3.5.2、高速 3.6、数据信号3.6.1、低速/全速的SOP和EOP3.6.…

【机器学习篇】从新手探寻到算法初窥:数据智慧的开启之门

文章目录 【机器学习篇】从新手探寻到算法初窥:数据智慧的开启之门前言一、什么是机器学习?二、机器学习的基本类型1. 监督学习(Supervised Learning)2. 无监督学习(Unsupervised Learning)3. 半监督学习&a…

SQL-Server链接服务器访问Oracle数据

SQL Server 链接服务器访问 Oracle 离线安装 .NET Framework 3.5 方法一:使用 NetFx3.cab 文件 下载 NetFx3.cab 文件,并将其放置在 Windows 10 系统盘的 C:Windows 文件夹中。 以管理员身份运行命令提示符,输入以下命令并回车: …

【C++】矩阵转置问题详解与优化

博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: C 文章目录 💯前言💯题目解析💯第一种实现方式:我的初始做法实现思路优缺点分析 💯第二种实现方式:我的优化做法实现思路优缺点分析 &#x1f4a…

比QT更高效的一款开源嵌入式图形工具EGT-Ensemble Graphics Toolkit

文章目录 EGT-Ensemble Graphics Toolkit介绍EGT具备非常高的图形渲染效率EGT采用了非常优秀的开源2D图形处理引擎-Cairo开源2D图形处理引擎Cairo的优势Cairo 2D图像引擎的性能Cairo 2D图像引擎的实际应用案例彩蛋 - 开源EDA软件KiCAD也在使用Cairo EGT高效的秘诀还有哪些Cairo…

信息系统管理工程师教程第2版(2024年最新版)

信息系统管理工程师教程第2版 目录 第 1 章 信息化发展 第 2 章 信息技术发展 第 3 章 信息系统架构 第 4 章 信息系统治理 第 5 章 信息技术服务管理 第 6 章 软件开发过程管理 第 7 章 系统集成实施管理 第 8 章 信息系统运维管理 第 9 章 云服务及其运营…

Science Robotics让软机器人“活”得更久的3D打印!

软机器人硬件在医疗、探索无结构环境等领域有广泛应用,但其生命周期有限,导致资源浪费和可持续性差。软机器人结合软硬组件,复杂组装和拆卸流程使其难以维修和升级。因此,如何延长软机器人的生命周期并提高其可持续性成为亟待解决…

通过Dockerfile来实现项目可以指定读取不同环境的yml包

通过Dockerfile来实现项目可以指定读取不同环境的yml包 1. 挂载目录2. DockerFile3. 运行脚本deploy.sh4. 运行查看日志进入容器 5. 接口测试修改application-dev.yml 6. 优化Dockerfile7. 部分参数解释8. 优化不同环境下的日志也不同调整 Dockerfile修改部署脚本 deploy.sh重新…

AutoSar架构学习笔记

1.AUTOSAR(Automotive Open System Architecture,汽车开放系统架构)是一个针对汽车行业的软件架构标准,旨在提升汽车电子系统的模块化、可扩展性、可重用性和互操作性。AUTOSAR的目标是为汽车电子控制单元(ECU&#xf…

超越YOLO11!DEIM:先进的实时DETR目标检测

DEIM: DETR with Improved Matching for Fast Convergence arXiv: https://arxiv.org/abs/2412.04234 Project webpage:https://www.shihuahuang.cn/DEIM/ GitHub:https://github.com/ShihuaHuang95/DEIM 1 背景:DETR目标检测框架 目标检…

深入理解 Java 接口的回调机制

前言 回调是一种非常重要的编程技术,它广泛应用于事件驱动的编程、异步任务和框架设计中。在 Java 中,回调机制通常通过 接口 来实现。本篇博客将详细解析 Java 接口的回调原理、实现方式,以及实际开发中的应用场景。 泪崩了,期末…

二、用例图

二、用例图 (一)、用例图的基本概念 1、用例图的定义: 用例图是表示一个系统中用例与参与者关系之间的图。它描述了系统中相关的用户和系统对不同用户提供的功能和服务。 用例图相当于从用户的视角来描述和建模整个系统,分析系统的功能与…

【软考网工笔记】计算机基础理论与安全——网络安全

病毒 Melissa 宏病毒 1. 是一种快速传播的能够感染那些使用MS Word 97 和MS Office 2000 的计算机宏病毒。 2. 前面有**Macro** 表示这是宏病毒; 3. 宏病毒可以感染后缀为.xls的文件;Worm 蠕虫病毒 1. 通常是通过网络或者系统漏洞进行传播。 2. 利用信…

STM32 拓展 低功耗案例3:待机模式 (register)

需求描述 寄存器操作进入待机模式。待机模式的唤醒方式比较有限。我们这次使用WKUP引脚的上升沿唤醒。PA0就是WKUP引脚。 当然PA0仍然需要工作在下拉输入模式,只有这样当按键按下的时候才会有一个上升沿。 由于我们电路中PA0已经连接了LED1,所以要产生…

windows中硬件加速gpu计划开启cpu的使用率居高不下

1.加速gpu计划开启在任务管理器的gpu选项中看不到cuda选项,这给我们进行深度学习训练和推理带来很大影响。 2.开启硬件加速CPU的占用率明显增高,特别用GPU进行实时视频流解码时就不会分配给GPU解码,造成cpu占用居高不下。不利于深度学习训练…

【Go】运行自己的第一个Go程序

运行自己的第一个Go程序 一、Go语言的安装Go环境安装查看是否安装成功配置GOPROXY(代理) 二、Goland安装三、Goland破解四、新建项目 开一篇专栏记录学习Go的过程,一门新语言从hello world开始,这篇文章详细讲解Go语言环境搭建及hello world实现 一、Go语…

提升汽车金融租赁系统的效率与风险管理策略探讨

内容概要 在汽车金融租赁系统这个复杂的生态中,提升整体效率是每个企业都渴望达成的目标。首先,优化业务流程是实现高效运行的基础。通过分析目前的流程,找出冗余环节并进行简化,能够帮助企业缩短审批时间,提高客户满…

计算机网络 (25)IPV6

前言 IPv6,全称为“互联网协议第6版”(Internet Protocol Version 6),是由互联网工程任务组(IETF)设计的用于替代IPv4的下一代IP协议。 一、产生背景 IPv4,即互联网协议第4版,是现行…