文本聚类——文本相似度(聚类算法基本概念)

一、文本相似度

1. 度量指标:

  • 两个文本对象之间的相似度
  • 两个文本集合之间的相似度
  • 文本对象与集合之间的相似度

2. 样本间的相似度

基于距离的度量:

  • 欧氏距离

d(a,b)=[\sum_{k=1}^M(a_k-b_k)^2]^{\frac{1}{2}}

  • 曼哈顿距离

d(a,b)=\sum_{k=1}^M|a_k-b_k|

  • 切比雪夫距离

d(a,b) = \max_{k}|a_k-b_k|

  • 闵可夫斯基距离

d(a,b)=[\sum_{k=1}^M(a_k-b_k)^p]^{\frac{1}{p}}

  • 马氏距离

  • 杰卡德距离

基于夹角余弦的度量

公式:

\cos{(a,b)}=\frac{a^Tb}{||a||b||}

当文本进行了2-范数归一化,余弦相似度与内积相似度\boldsymbol{a}\cdot\boldsymbol{b}=\boldsymbol{a^T}\boldsymbol{b}是等价的。

距离度量衡量的是空间各个点的绝对距离,与各点的位置(即个体特征维度的数值)直接相关,而余弦相似度衡量的事空间向量的夹角,更多的体现了方向上的差异,而不是位置(距离或长度)。

余弦相似度是文本相似度度量中使用最为广泛的相似度计算方法。

基于分布的度量

前面两种文本相似性度量方法主要针对定义在向量空间模型中的样本,而有时候,文本通过概率分布进行表示,如词项分布、基于PLSA和LDA模型的主题分布等。在这种情况下,可以用统计距离度量两个文本之间的相似度。

Kullback-Leibler(K-L)距离(K-L散度)

在多项分布中,从分布Q到分布P的K-L距离定义为:

D_{KL}(P||Q)=\sum_iP(i)\log{\frac{P(i)}{Q(i)}}

K-L散度是非负的,当且仅当两个分布完全相等时取零。它不是对称的。

对称的K-L距离

D_{SKL}(P,Q)=D_{KL}(P||Q)+D_{KL}(Q||P)

注:K-L距离常常用于度量两个文本集合之间的相似度,且数据稀疏会让分布刻画时区意义。

杰卡德相似系数

J(x_i,x_j)=\frac{x_i \cap x_j }{x_i \cup x_j}

3. 簇间相似度

一个粗通常由多个相似的样本组成。粗剪相似性度量是以各个簇内样本之间的相似性为基础的。假设d(C_m,C_n)表示簇C_m和簇C_n之间的距离,d(x_i,x_j)表示样本x_i, x_j之间的距离。

最短距离法(single linkage)

d(C_m,C_n)=\min\limits_{\substack{x_i \in C_m,x_j\in C_n}} d(x_i,x_j)

最长距离法(complete linkage)

d(C_m,C_n)=\max\limits_{\substack{x_i \in C_m,x_j\in C_n}} d(x_i,x_j)

簇平均法(average linkage)

d(C_m,C_n)=\frac{1}{|C_m|\cdot|C_n|}\sum\limits_{\substack{x_i\in C_m}}\sum\limits_{\substack{x_j\in C_n}}d(x_i,x_j)

重心法

d(C_m,C_n)=d(\bar{x}(C_m),\bar x(C_n))

离差平方和

两个簇中各个样本到两个簇合并后的簇中心之间距离的平方和,相比于合并前各个样本到格子簇中心之间距离平方和的增量:

d(C_m,C-n)=\sum \limits_{\substack{x_k \in {C_m \cup C_n}}}d(x_k, \bar x (C_m \cup C_n))-\\ \sum \limits_{x_i \in C_m}d(x_i,\bar x(C_m))-\sum \limits_{x_j \in C_n}d(x_j, \bar x(C_n))

其中,d(\boldsymbol a - \boldsymbol b) = ||\boldsymbol a- \boldsymbol b||^2

4. 样本与簇之间的相似性

样本与簇之间的相似性通常转化为样本之间的相似度或者簇间相似度进行计算。如果用均值向量来表示一个簇,纳秒样本与簇之间的相似性可以转化为样本与均值向量的样本相似性。如果将一个样本视作一个粗,那么就可采用上一种方法进行对量计算。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/250739.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

sectigo续费难吗

Sectigo是一家成立时间较长的CA认证机构,自成立以来,一直致力于提供安全、可靠的数字证书。这些证书被广泛应用于各种互联网应用中,如电子商务网站、企业内网、在线银行等等。事实上,购买了Sectigo的SSL证书的客户想要续费并不难&…

PyQt6 QDial旋钮控件

锋哥原创的PyQt6视频教程: 2024版 PyQt6 Python桌面开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili2024版 PyQt6 Python桌面开发 视频教程(无废话版) 玩命更新中~共计46条视频,包括:2024版 PyQt6 Python桌面开发 视频教程(无废话版…

蓝牙协议栈学习笔记

蓝牙协议栈学习笔记 蓝牙简介 蓝牙工作在全球通用的 2.4GHz ISM(即工业、科学、医学)频段,使用 IEEE802.11 协议 蓝牙 4.0 是迄今为止第一个蓝牙综合协议规范,将三种规格集成在一起。其中最重要的变化就是 BLE(Blue…

深入理解Dubbo-7.服务消费调用源码分析

👏作者简介:大家好,我是爱吃芝士的土豆倪,24届校招生Java选手,很高兴认识大家📕系列专栏:Spring源码、JUC源码、Kafka原理、分布式技术原理🔥如果感觉博主的文章还不错的话&#xff…

Linux权限(上)

目录 shell命令以及运行原理 Linux权限 Linux中的用户类别 文件类型 文件的访问权限 在讲权限之前,我们得先了解一下命令的执行原理。 shell命令以及运行原理 我们每次在打开Xshell执行相关命令时,通常会看到这样一段代码: [yjdhecs…

手工酸奶加盟店赚钱吗?一年有多少利润

手工酸奶以其新鲜、健康、美味的特点,受到了越来越多消费者的喜爱。 那开一家手工酸奶加盟店能赚钱吗?一年又能有多少利润呢? 作为经营酸奶店5年的创业者,我给大家分享下最真实的情况。(可以点赞收藏,方便…

巨杉数据库入选“2023信创独角兽企业100强”

近日,《互联网周刊》、eNet研究院、德本咨询联合发布了“2023信创独角兽企业100强”榜单,巨杉数据库凭借卓越的技术实力和出色的研发能力荣登榜单,本次上榜既是对巨杉数据库长期深耕信创领域的高度认可,也是对其在分布式文档型数据…

通过“待办事项列表项目”快速学习Pyqt5的一些特性

Pyqt5相关文章: 快速掌握Pyqt5的三种主窗口 快速掌握Pyqt5的2种弹簧 快速掌握Pyqt5的5种布局 快速弄懂Pyqt5的5种项目视图(Item View) 快速弄懂Pyqt5的4种项目部件(Item Widget) 快速掌握Pyqt5的6种按钮 快速掌握Pyqt5的10种容器&…

W25N01GV 芯片应用

项目中处于成本考虑,要把Nor Flash换成低成本的Nand Flash。 这里总结下芯片应用。 总体概述: 1)W25N01(NandFlash)和W25Q(Nor Flash)的操作大不一样。 NandFlash擦除以块(128KB&…

LeetCode-反转链表问题

1.反转链表 题目描述: 给你单链表的头节点 head ,请你反转链表,并返回反转后的链表。 思路: 反转链表也就是链表倒置,我一直以来的办法就是先建立一个头节点,之后再遍历链表来进行头插。 代码&#xff1…

HBuilderX 配置 夜神模拟器 详细图文教程

在电脑端查看App的效果,不用真机调试,下载一个模拟器就可以了 --- Nox Player,夜神模拟器,是一款 Android 模拟器。他的使用非常安全,最重要的是完全免费。 一. 安装模拟器 官网地址: (yeshen.com) 二.配…

也许你不需要人工智能

已经不记得我是什么时候开始使用谷歌搜索引擎的, 在刚开始的时候,我看到了一本书,里面有各种各样的搜索技巧。在考虑到如果我不会搜索引擎这种关键技能,那么我将在这个信息时代落后,我读了那本书。 从那本书中我学到了…

运行软件时提示msvcp140.dll丢失的5个解决方法

电脑打开软件提示找不到msvcp140.dll丢失,这是许多用户在使用电脑过程中会遇到的问题。本文将为您介绍五个详细的解决方法,以及msvcp140.dll丢失的原因、作用和是什么。 一、msvcp140.dll丢失原因 系统损坏:操作系统在使用过程中&#xff0…

使用SPSS的McNemar检验两种深度学习模型的差异性

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 使用SPSS的McNemar检验两种深度学习模型的差异性 前言简述:一、McNemar检验1.1来源1.2 两配对样本的McNemar(麦克尼马尔)变化显著性检验1.3 适用范围:…

机器学习之无监督学习

聚类:发掘纵向结构的某种模式信息,某些x属于相同的分布或者类别 特征学习:发掘横向结构的某种模式信息,每一行都可以看成是一种属性或特征 密度估计:发掘底层数据分布,x都是从某个未知分布p(x)采出来的&a…

Mysql数据库 19.Mysql 锁

MySQL锁 锁:锁是计算机用以协调多个进程间并发访问同一共享资源的一种机制,在数据库中,除传统的计算资源(CPU、RAM、I/O)的争用以外,数据也是一种供许多用户共享的资源,如何保证数据并发访问的一…

C#中的封装、继承和多态

1.引言 在面向对象的编程中,封装、继承和多态是三个重要的概念。它们是C#语言中的基本特性,用于设计和实现具有高内聚和低耦合的代码。本文将详细介绍C#中的封装、继承和多态的相关知识。 目录 1.引言2. 封装2.1 类2.2 访问修饰符 3. 继承4. 多态4.1 虚方…

高云GW1NSR-4C开发板M3核串口通信

1.PLLVR频率计算 高云的M3核要用到PLLVR核,其输出频率FCLKIN*(FBDIV_SEL1)/(IDIV_SEL1),但同时要满足FCLKIN*(FBDIV_SEL1)*ODIV_SEL)/(IDIV_SEL1)的值在600MHz和1200MHz之间。例如官方示例,其输入频率FCLKIN50MHz,要输出80MHz&am…

鸿蒙原生应用/元服务开发-Stage模型能力接口(三)

一、说明 AbilityLifecycleCallback模块提供应用上下文ApplicationContext的生命周期发生变化时触发相应回调的能力,包括onAbilityCreate、onWindowStageCreate、onWindowStageActive、onWindowStageInactive、onWindowStageDestroy、onAbilityDestroy、onAbilityFo…

一文弄懂自编码器 -- Autoencoders

1. 引言 近年来,自编码器(Autoencoder)一词在许多人工智能相关的研究论文、期刊和学位论文中被频繁提及。自动编码器于1980年推出,是一种用于神经网络的无监督学习技术,可以从未被标注的训练集中学习。 本文重点介绍…