【数据挖掘】机器学习中相似性度量方法-余弦相似度

写在前面:
首先感谢兄弟们的订阅,让我有创作的动力,在创作过程我会尽最大能力,保证作品的质量,如果有问题,可以私信我,让我们携手共进,共创辉煌。

路虽远,行则将至;事虽难,做则必成。只要有愚公移山的志气、滴水穿石的毅力,脚踏实地,埋头苦干,积跬步以至千里,就一定能够把宏伟目标变为美好现实。

“相似性度量(similarity measurement)”系列文章:、
【数据挖掘】机器学习中相似性度量方法-欧式距离

Hello,大家好。

继续更新"相似性度量(similarity measurement)"系列文章,今天介绍的是余弦相似度。多的不说,少的不唠,下面开始今天的教程。

以下内容,完全是我根据参考资料和个人理解撰写出来的,不存在滥用原创的问题。

1、余弦相似度

余弦相似度(Cosine Similarity)是一种用于衡量两个非零向量之间角度 cosine 值的度量方法,以此来评估这两个向量在多维空间中的方向性相似度。它是通过计算两个向量的点积(内积)后,除以两个向量的模长(即长度)的乘积得到的。

2、计算公式

数学上,对于向量A=[ x 1 , x 2 , . . . , x n x_ 1,x_ 2,...,x_ n x1,x2,...,xn]和向量B=[ y 1 , y 2 , . . . , y n y_ 1,y_ 2,...,y_ n y1,y2,...,yn],余弦相似度cos( θ \theta θ)定义为:

  S i m ( A , B ) = cos ⁡ ( θ ) = A ⋅ B ∥ A ∥ ∥ B ∥ = ∑ i = 1 n A i B i ∑ i = 1 n A i 2 ∑ i = 1 n B i 2 \ Sim(A,B)= \cos({\theta}) = \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \|\mathbf{B}\|} = \frac{\sum_{i=1}^{n} A_i B_i}{\sqrt{\sum_{i=1}^{n} A_i^2} \sqrt{\sum_{i=1}^{n} B_i^2}}  Sim(A,B)=cos(θ)=A∥∥BAB=i=1nAi2 i=1nBi2 i=1nAiBi

  • A⋅B 表示向量 A 和向量 B 的点积
  • ∥𝐴∥和 ∥B∥ 分别表示向量 A 和向量 B 的模(即长度)
  • 𝜃是向量 A 和向量 B 之间的夹角

余弦相似度的值范围是 [-1, 1]:

  • cos( θ \theta θ)=1,表示向量A和B方向完全相同
  • cos( θ \theta θ)=-1,表示向量A和B方向完全相反
  • cos( θ \theta θ)=0,表示向量A和B正交,没有任何方向上的相似性

3、余弦距离

余弦距离(Cosine Distance),从余弦相似度转换为距离概念,也是用来衡量两个向量间的相似性。余弦距离定义为:
  d ( A , B ) = 1 − cos ⁡ ( θ ) = 1 − A ⋅ B ∥ A ∥ ∥ B ∥ = 1 − ∑ i = 1 n A i B i ∑ i = 1 n A i 2 ∑ i = 1 n B i 2 \ d(A,B)= 1- \cos({\theta}) = 1- \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \|\mathbf{B}\|} = 1- \frac{\sum_{i=1}^{n} A_i B_i}{\sqrt{\sum_{i=1}^{n} A_i^2} \sqrt{\sum_{i=1}^{n} B_i^2}}  d(A,B)=1cos(θ)=1A∥∥BAB=1i=1nAi2 i=1nBi2 i=1nAiBi

通过公式可以看到,余弦距离是由1减去余弦相似度得到的。

  • 如果A和B两个向量完全相同,它们的余弦相似度是1,则余弦距离就是0,即A和B两个向量之间没有距离,完全一致
  • 如果A和B两个向量完全相反,它们的余弦相似度是-1,则余弦距离就是2,即A和B两个向量之间距离最大

4、代码实现

编写代码实现余弦相似度或余弦距离,在Python中,可以使用numpy、scipy或者sklearn来计算两个向量之间的余弦相似度或余弦距离:

# -*- coding: utf-8 -*-
"""
Created on Fri Jun 14 22:36:45 2024

@author: AIexplore微信公众号
"""


import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
from scipy.spatial.distance import cosine

import numpy as np

def cosine_similarity_v1(vector_a, vector_b):
    """
    计算两个向量的余弦相似度。
    
    参数:
    vector_a -- 第一个向量,类型为NumPy数组或列表
    vector_b -- 第二个向量,类型为NumPy数组或列表
    
    返回:
    两个向量的余弦相似度
    """
    # 将输入转换为NumPy数组(如果还不是的话)
    vector_a = np.array(vector_a)
    vector_b = np.array(vector_b)
    
    # 计算向量的点积
    dot_product = np.dot(vector_a, vector_b)
    
    # 计算向量的模长(欧几里得范数)
    norm_a = np.linalg.norm(vector_a)
    norm_b = np.linalg.norm(vector_b)
    
    # 防止除以零的错误
    if norm_a == 0 or norm_b == 0:
        return 0  # 如果任一向量为空,则认为相似度为0
    
    # 计算并返回余弦相似度
    return dot_product / (norm_a * norm_b)


def cosine_similarity_v2(vec1, vec2):
    vec1 = np.array(vec1)
    vec2 = np.array(vec2)
    # 计算余弦相似度
    cos_sim = 1 - cosine(vec1, vec2)  # cosine函数直接返回的是距离,所以用1减去得到相似度
    return cos_sim


def cosine_similarity_v3(vec1, vec2):
    vec1 = np.array([vec1])
    vec2 = np.array([vec2])
    sim = cosine_similarity(vec1, vec2)
    return sim[0][0]


# data
vec1 = [1, 2, 3]
vec2 = [4, 5, 6]

# 计算相似度
similarity = cosine_similarity_v1(vec1, vec2)
print("余弦相似度 v1:", similarity)

similarity = cosine_similarity_v2(vec1, vec2)
print("余弦相似度 v2:", similarity)

similarity = cosine_similarity_v3(vec1, vec2)
print("余弦相似度 v3:", similarity)

输出结果:

余弦相似度 v1: 0.9746318461970762
余弦相似度 v2: 0.9746318461970761
余弦相似度 v3: 0.9746318461970762

上面代码提供了三种实现方式,殊途同归,根据需要选择性使用。

5、应用场景

余弦相似度因其特性在多个领域和应用场景中扮演着重要角色,下面列举一些典型的应用场景:

  • 推荐系统:在电商、短视频、音乐平台等推荐系统中,通过计算用户历史偏好向量(基于用户对项目的评分或互动)和待推荐项目特征向量之间的余弦相似度,可以发现与用户兴趣最为接近的项目,从而实现个性化推荐
  • 图像识别与检索:在计算机视觉CV领域,将图像特征(如通过深度学习模型提取的特征向量等)映射到高维空间,利用余弦相似度来比较不同图像间的相似度,可以实现图像检索、图像分类以及内容相似的图像分组
  • 聚类分析:在无监督学习的聚类任务中,余弦相似度可用作距离度量,帮助将具有较高相似性的数据点聚集在一起,形成有意义的簇

当然,还可以应用到文本相似性判断、信息检索、社交网络分析、文本分类、用户行为分析等。

参考文章

[1]https://www.cnblogs.com/BlogNetSpace/p/18225493
[2]https://blog.csdn.net/Hyman_Qiu/article/details/137743190
[3]https://blog.csdn.net/qq_39780701/article/details/137007729
[4]https://www.cnblogs.com/ghj1976/p/yu-xian-xiang-shi-ducosine-similarity-xiang-guan-j.html

写在最后

作者介绍:CSDN人工智能领域优质创作者,CSDN博客专家,阿里云专家博主,阿里云技术博主,有机器学习、深度学习、OCR识别项目4年以上工作经验,专注于人工智能技术领域。会根据实际项目不定期输出一些非商业的技术,内容不限,欢迎各位朋友关注。
1、关注下方公众号,让我们共同进步。
2、需要技术指导、交流合作,点击"关于我-与我联系"添加微信交流。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/712039.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

在k8s上部署一个简单的应用

部署一个简单的应用 实验目标: 部署一个简单的 web 应用,比如 Nginx 或者一个自定义的 Node.js 应用。 实验步骤: 创建一个 Deployment。创建一个 Service 来暴露应用。验证应用是否可以通过 Service 访问。 今天我们来做一下昨天分享的可…

【TB作品】STM32F102C8T6单片机,PWM发生器

硬件: STM32F102C8T6核心板,按键,0.96 OLED显示屏。 软件: 1、硬件启动触发单片机输出PWM,未触发之前PWM输出为低电平。 2、按键修改PWM的变化模式、变化时间长度、占空比上下限。 3、输出的PWM是固定的10kHZ的。 4、变…

王思聪日本街头在被偶遇

王思聪日本街头再被偶遇,甜蜜约会日常成网友热议焦点近日,有网友在日本街头再次偶遇了“国民老公”王思聪,这次他不仅携带着一位美丽的女友,还展现出了两人之间亲密无间的互动,让不少网友感叹:这真的是每天…

Kafka 如何保证消息顺序及其实现示例

Kafka 如何保证消息顺序及其实现示例 Kafka 保证消息顺序的机制主要依赖于分区(Partition)的概念。在 Kafka 中,消息的顺序保证是以分区为单位的。下面是 Kafka 如何保证消息顺序的详细解释: ⭕分区内消息顺序 顺序写入&#…

掌握特劳特定位理论核心,明晰企业战略定位之重

在当今瞬息万变的市场环境中,企业战略定位的重要性日益凸显。它不仅是企业在激烈竞争中保持优势的关键,更是企业实现长期可持续发展的基石。 哈佛大学战略学教授迈克尔波特(Michael Porter)指出战略就是形成一套独具的运营活动&a…

前端组件样式穿透修改

背景: 在style经常用scoped属性实现组件的私有化时,要改变element-ui某个深层元素(例如.el-input__inner)或其他深层样式, 但是element-ui 并没有提供修改的接口。 这时,就是需要手动修改样式。 解决方法…

Oracle备份失败处理,看这一篇就够了!

作者:IT邦德 中国DBA联盟(ACDU)成员,10余年DBA工作经验, Oracle、PostgreSQL ACE CSDN博客专家及B站知名UP主,全网粉丝10万 擅长主流Oracle、MySQL、PG、高斯及Greenplum备份恢复, 安装迁移,性能优化、故障…

canvas学习

Canvas API 提供了一个通过 JavaScript 和 HTML 的 元素来绘制图形的方式。它可以用于动画、游戏画面、数据可视化、图片编辑以及实时视频处理等方面。 Canvas 的基本用法 <canvas> 元素 <canvas id"tutorial" width"150" height"150&quo…

基数和基数转换

目录 一、定义&#xff1a; 二、各个进制&#xff1a; 1、二进制&#xff1a; 2、八进制&#xff1a; 3、十进制&#xff1a; 4、十六进制&#xff1a; 三、基数转换&#xff1a; 1、各类基数转十进制&#xff1a; 二转十&#xff1a; 八转十&#xff1a; 十六转八&a…

1. 人工智能中的相关术语的概述

1.1 机器学习的概念&#xff1a;机器学习是指从有限的观测数据中学习出具有一般性的规律&#xff0c;并利用这些规律对未知数据进行预测的方法。机器学习可以分为监督学习&#xff0c;无监督学习和强化学习。 传统的机器学习主要关注于如何学习一个预测模型。一般需要首先将数据…

【教程】学会用PS做海报(教你如何套模板+模板资源),以研电赛展架为例

网上的视频都是好几十个小时&#xff0c;看起来很耗费时间&#xff0c;其实做海报&#xff0c;展架只用到其中的一部分功能&#xff0c;本文会进行讲解 这里写目录标题 去年研电赛做的展架1.首先打开比赛给的展板照片&#xff0c;按照研电赛要求设置大小2.调出ps的几个窗口&am…

苹果发布云AI系统;谷歌警告0day漏洞被利用;微软紧急推迟 AI 召回功能;劫持活动瞄准 K8s 集群 | 网安周报0614

苹果发布私有云计算&#xff0c;开创 AI 处理新时代&#xff0c;隐私保护再升级&#xff01; 苹果宣布推出一个名为“私有云计算”&#xff08;PCC&#xff09;的“开创性云智能系统”&#xff0c;该系统专为在云中以保护隐私的方式处理人工智能&#xff08;AI&#xff09;任务…

【数学竞赛】阿里巴巴全球数学竞赛(附2019-2024年试题+答案)

阿里巴巴全球数学竞赛对所有年龄、背景和职业的个人开放。迄今为止&#xff0c;最年长的参赛者超过80岁&#xff0c;最年轻的仅8岁。 2024年共计801名选手参加比赛&#xff0c;涟水这中专的姜萍获得了全球12名的出众成绩&#xff0c;港中大也抛出了橄榄枝。 初赛注重享受数学之…

【Linux内核】伙伴系统算法和slab分配器(1)

【Linux内核】伙伴系统算法和slab分配器&#xff08;1&#xff09; 目录 【Linux内核】伙伴系统算法和slab分配器&#xff08;1&#xff09;伙伴系统&#xff08;buddy&#xff09;算法伙伴系统算法基本原理内存申请内存回收 接口函数源码分析内存分配接口物理内存释放接口规范…

【TypeScript】类型兼容(协变、逆变和双向协变)

跟着小满zs 学习 ts&#xff0c;原文&#xff1a;学习TypeScript进阶类型兼容_typescript进阶阶段类型兼容 小满-CSDN博客 类型兼容&#xff0c;就是用于确定一个类型是否能赋值给其他的类型。如果A要兼容B 那么A至少具有B相同的属性。 // 主类型 interface A {name: string,a…

【游戏】一款纯web集前后端为一体的沙盒游戏框架介绍

1.biomes-game是什么&#xff1f; 一款基于MIT协议开源沙盒 MMORPG。游戏中可建造、采集、玩迷你游戏等等&#xff0c;所有操作均可通过浏览器完成。它主要使用React框架&#xff0c;前后端用 Typescript 和 WebAssembly 编写。 2.如何本地体验&#xff1f; 配置&#xff1a;…

计算机网络 —— 一文搞懂TCP/UDP

传输层&#xff1a;TCP/UDP 1. TCP1.1 TCP连接管理1.2 TCP首部格式 2. UDPUDP首部格式 3. 其他传输层协议3.1 SCTP3.2 DCCP 传输层实现源端主机和目标端主机上对等实体间会话&#xff0c;TCP/IP中两个代表性的传输层协议分别是TCP和UDP&#xff0c;两者均使用端口来标识传输数据…

数据防泄漏的六个步骤|数据防泄漏软件有哪些

在当前复杂多变的网络安全环境下&#xff0c;数据防泄漏软件成为了企业信息安全架构中不可或缺的一环。下面以安企神软件为例&#xff0c;告诉你怎么防止数据泄露&#xff0c;以及好用的防泄露软件。 1. 安企神软件 安企神软件是当前市场上备受推崇的企业级数据防泄漏解决方案…

为什么微信输入法是比搜狗输入法更好的选择?

微信输入法官网&#xff1a;https://z.weixin.qq.com/ 最近使用搜狗输入法时&#xff0c;频繁弹出广告&#xff0c;实在令人烦恼&#xff0c;于是我干脆卸载了它。然而&#xff0c;电脑上没有输入法是不行的。经过在网上对比了许多输入法软件后&#xff0c;我发现了微信输入法。…

算法:分治(快排)题目练习

目录 题目一&#xff1a;颜色分类 题目二&#xff1a;排序数组 题目三&#xff1a;数组中的第k个最大元素 题目四&#xff1a;库存管理III 题目一&#xff1a;颜色分类 给定一个包含红色、白色和蓝色、共 n 个元素的数组 nums &#xff0c;原地对它们进行排序&#xff0c;…