【时间序列聚类】Feature-driven Time Series Clustering(特征驱动的时间序列聚类)

文章目录

    • 1.文章介绍
    • 2.问题背景
    • 3.拟解决的问题
    • 4.主要贡献
    • 5.提出的方法
      • 5.1模型pipeline
      • 5.2特征抽取和选择
      • 5.3图渲染和社区检测
      • 5.4共现矩阵的构建
      • 5.5对共现矩阵进行聚类
    • 6.实验
      • 6.1模型设置
      • 6.2实验结果
      • 6.3消融实验
    • 7.结论
    • 8.个人观点
    • 9.Reference

1.文章介绍

在这里插入图片描述

  • 论文出处:EDBT 2021(CCF-B)

  • 论文链接

  • 代码地址

  • 【摘要】:时间序列聚类问题在现实生活中有多种应用,尤其是在数据科学和数据分析管道中。现有的时间序列聚类算法只能根据原始数据计算时间序列的相似性,或者使用固定的特征集,因此对于特征丰富的真实世界时间序列来说效果不佳。在本文中,我们开发了一种基于特征的半监督聚类框架,解决了变长和异构时间序列的上述问题。具体来说,我们依赖于时间序列的图编码,这种编码是通过考虑大量重要的提取特征而获得的。然后,我们采用社区检测,并利用共现矩阵将所有最佳聚类结果组合在一起。我们进行的大量实验评估表明,我们的方法具有可扩展性和鲁棒性,而且在现实世界的医疗保健数据和 UCR 基准数据上都优于最先进的聚类算法。

2.问题背景

  • 现有的时间序列聚类算法一般基于原始数据计算时间序列的相似性或使用一组固定的特征,而这对特征丰富的现实世界时间序列无效

3.拟解决的问题

  • 根据输入的数据集自动选择最合适的统计特征,从而用于聚类

4.主要贡献

  • 提出了一种利用从时间序列中提取的最有鉴别力的特征的新型半监督聚类方法,将相似的时间序列视为社区,并将不同的社区编码为共现矩阵,从而获得时间序列的统一相似度值

  • 对给定数据集的所有特征同等对待,即通过计算选择合适的统计特征

  • 与Seeded KMeans 和K-Shape相比,方法高质量且扩展性更高

5.提出的方法

5.1模型pipeline

file

5.2特征抽取和选择

  • 根据时间序列的标签,使用Benjamini-Yekutieli程序识别各个特征的相关性,从而获得每个特征的p值。

  • 再从p值列表中选取20个特征,这些特征是通过PFA(PCA的变体)计算而来的

  • 示例,获得的特征如下:
    file

5.3图渲染和社区检测

定义:假设有一个特征 F i F_i Fi和一组时间序列 { T S 1 , . . . , T S n } \{TS_1,...,TS_n\} {TS1,...,TSn},将 T S i TS_i TSi成为图G中顶点集V的一个节点,让E成为图G的边集,每条边 e i e_i ei连接G中的两个结点
如图所示:
file

使用一个启发式的百分比 x x x表示要保持的最小距离的比例,例如选择50%,则距离大于28的边被剪去,小于等于28的边被保留,通常设置阈值为80%
file

应用社区检测 (CD) 算法来搜索形成社区的密集连接的顶点组,如图所示:
file

5.4共现矩阵的构建

  • 假设有M条时间序列和L个特征,再L个图上应用CD算法,可以获得以下聚类结果:
    file

  • 共现矩阵单元 x i j x_{ij} xij对应于时间序列 T S i TS_i TSi T S j TS_j TSj之间的相似度,相似度计算公式如下:
    file
    即时间序列 T S i TS_i TSi T S j TS_j TSj一起出现的次数除以 T S i TS_i TSi出现的次数

  • CD算法的应用及其对无权重共现矩阵的处理可能会导致社区碎片化的问题,即会形成大量的社区,而这些社区只包含几个时间序列,也就是聚类问题中常常遇到的退化解问题。

  • 加权函数定义如下:
    file
    其中C是用户事先定义的聚类数量, O i O_i Oi是通过CD算法提取的社区数量

示例:

  1. 原始数据:
    file
  2. 通过PFA算法获得三个特征:
    file
  3. 然后利用CD算法对每个特征进行聚类,获得的结果如下:
    file
  4. 利用权重函数W获得加权共线矩阵:
    file
  5. 最终结果如下:
    file

5.5对共现矩阵进行聚类

  • 将共现矩阵中的每行数据看作一个向量,使用欧氏距离进行计算,计算结果如下:
    file

  • 最后使用K-Medoid算法进行聚类

6.实验

6.1模型设置

  • 数据集:肾小球过滤率(GFR)数据集的两个变体Kidney3Yr和Kidney5Yr,UCR数据集

  • 评价指标:AMI

  • 对比方法:无监督的KShape和半监督的SeededKMeans

6.2实验结果

  • UCR数据集上的AMI指标对比
    file

  • 肾脏案例研究
    file

  • 扩展性研究
    file

6.3消融实验

  • 将距离度量换成DTW
    file

  • 使用随机选择的特征
    file

  • 将pipeline中的3,4,5步替换成K-means,即使用PFA算法选择和提取特征后直接使用K-Means算法
    file

7.结论

  • 本方法利用了从数据本身提取的特征,而不是为所有数据集采用一组预定义的特征

  • 本方法可以通过无监督方法进行改进,而不是当前的半监督方法

  • 可以根据处理后的特征动态选择图创建的阈值进行改进

  • 社区检测(CD)算法的权重可以与特征的相关度相结合

8.个人观点

  • 论文仅仅对比了两种算法,因为他的方法是半监督的,相关的论文代码太少,于是作者对比了一个无监督方法和一个半监督方法。我们是否也可以使用半监督方法与无监督方法进行对比

  • 本文的算法流程并不复杂,主要步骤就在于怎样获得共现矩阵

  • 文中使用到了tsfresh,它是用于从时间序列中自动提取特征的python包。

9.Reference

  • Benjamini-Yekutieli程序

  • tsfresh

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/984607.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

采用内存局部性分配有什么好处?

内存分配时的局部性分配(Locality of Allocation)是指将相关的内存对象分配在相邻或相近的内存区域中。这种分配策略在现代计算机系统中具有显著的好处,主要体现在以下几个方面: 1. 提高缓存命中率 现代计算机系统依赖于多级缓存…

Fast DDS Security--秘钥交换

Fast DDS Security模块中默认使用Diffie-Hellman算法进行秘钥交换。Diffie-Hellman 算法(简称 DH 算法)是一个非常重要的加密协议,用于在不安全的通信通道中安全地交换密钥。该算法通过利用数学中的离散对数问题来生成共享密钥,使…

3.3.5 VO-O语法- 高级语法

VO语言还提供了一些个性化的高级语法特性,这些语法特性有别于传统的编程语言。但可以更好的帮助开发者实现高效、稳定的生产级数据流程。 调度运行 在现行的编程语言中,调度运行不在语法表示范围之内。这属于具体的代码实现逻辑。但在VO语言设计中&…

NLP文本分析之依存句法分析(理论及技术实践)

引言 在自然语言处理(NLP)领域中,理解句子的语法结构是实现语义理解的基础。依存句法分析(Dependency Parsing) 作为句法分析的核心任务之一,通过揭示句子中词语之间的依存关系,为机器翻译、信…

LeetCode hot 100—爬楼梯

题目 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢? 示例 示例 1: 输入:n 2 输出:2 解释:有两种方法可以爬到楼顶。 1. 1 阶 1 阶 2. 2 阶 示例…

RoboVQA:机器人多模态长范围推理

23 年 11 月来自 Google Deepmind 的论文“RoboVQA: Multimodal Long-Horizon Reasoning for Robotics”。 本文提出一种可扩展、自下而上且本质多样化的数据收集方案,该方案可用于长期和中期的高级推理,与传统的狭窄自上而下的逐步收集相比&#xff0c…

WWDG窗口看门狗原理

WWDG(窗口看门狗)在窗口期喂狗 作用: 原理: 框图 WWDG寄存器: WWDG_CR控制寄存器 WWDG_CFR配置寄存器 状态寄存器WWDG_SR 超时时间计算公式 最小最大超时值 HAL配置函数: 1. IWDG 和 WWDG 的区别 IWDG&…

基于Flink SQL的实时指标多维分析模型

数据流程介绍 1.创建源表kafka接入消息队列数据,定义字段映射规则; 2.创建目标表es_sink配置Elasticsearch输出; 3.通过多级视图(tmp→tmp_dedup→tmp1/tmp2→tmp3→tmp_groupby)实现数据清洗、去重、状态计算&#x…

超分之DeSRA

Desra: detect and delete the artifacts of gan-based real-world super-resolution models.DeSRA:检测并消除基于GAN的真实世界超分辨率模型中的伪影Xie L, Wang X, Chen X, et al.arXiv preprint arXiv:2307.02457, 2023. 摘要 背景: GAN-SR模型虽然…

UIToolkit(一)

1 前言 UI Toolkit 是一种基于 Web 技术的 GUI 框架,是为了解决 UGUI 效率问题而设计的新一代 UI 系统(UGUI 的介绍详见→UGUI概述)。与 UGUI 不同,UI Toolkit 没有采用 GameObject 的方式,而是参考了 Web 技术的 XML …

Unsloth - 微调 Phi-4 + 修复 Bug

文章目录 Phi-4 错误修复1、分词器错误修复2、微调错误修复3、聊天模板问题 💡 我们的问题修复有效吗?🦙 Llama-fication🦥 动态 4 位量化🛠️ Finetuning Phi-4性能基准测试 本文翻译自:Phi-4 Finetuning …

多视图几何--对极几何--从0-1理解对极几何

1对极几何 1.1本质矩阵 1.1.1几何约束与推导 如图所示,物体点 P P P,图像点 p 1 , p 2 p_1,p_2 p1​,p2​,相机中心 o 1 , o 2 o_1,o_2 o1​,o2​五点共面的关系称为对极几何。 o 1 , o 2 o_1,o_2 o1​,o2​连线称为基线,其与图像的交点称为…

SpringBoot3.3.0集成Knife4j4.5.0实战

原SpringBoot2.7.18升级至3.3.0之后,Knife4j进行同步升级(Spring Boot 3 只支持OpenAPI3规范),从原3.0.3(knife4j-spring-boot-starter)版本升级至4.5.0(knife4j-openapi3-jakarta-spring-boot-starter),以下是升级过程与注意事项等 版本信息…

一招解决Pytorch GPU版本安装慢的问题

Pytorch是一个流行的深度学习框架,广泛应用于计算机视觉、自然语言处理等领域。安装Pytorch GPU版本可以充分利用GPU的并行计算能力,加速模型的训练和推理过程。接下来,我们将详细介绍如何在Windows操作系统上安装Pytorch GPU版本。 查看是否…

Linux——system V共享内存

共享内存区是最快的IPC(进程内通信)形式,不再通过执行进入内核的系统调用来传递彼此的数据 1.共享内存的原理 IPC通信的本质是让不同的进程先看到同一份资源,然后再进行通信,所以想要通过共享内存进行通信,那么第一步一定是让两个…

初识数组

数组的大概内容(自学)上篇 数组的创建和赋值 创建: int [] name new int [5]; int name [] new int [5]; int [] name {1,2.3,4,5}; 赋值: int [] score {1,2,3}; int [] score new int [] {1,2,3}; int [] score;//声明 score new int []…

OSPF-单区域的配置

一、单区域概念: 单区域OSPF中,整个网络被视为一个区域,区域ID通常为0(骨干区域)。所有的路由器都在这个区域内交换链路状态信息。 补充知识点: OSPF为何需要loopback接口: 1.Loopback接口的…

c++介绍锁二

锁主要在两个以上的线程中使用&#xff0c;当多个线程访问共享资源时&#xff0c;我们需要使用锁&#xff0c;开保证共享资源的唯一性。 当两个线程访问不带锁的共享资源时&#xff0c;如下代码 #include<array> #include<thread> #include<iostream> usin…

Ubuntu系统部署.NET 8网站项目

一、使用XShell连接 Ubuntu系统初次连接时默认的用户名为&#xff1a;ubuntu&#xff0c;使用此用户名与系统登录密码进行连接。 登录成功效果如下图&#xff1a; 二、root用户登录 linux下有超级用户&#xff08;root&#xff09;和普通用户&#xff0c;普通用户不能直接操…

学习资料电子版 免费下载的网盘网站(非常全!)

我分享一个私人收藏的电子书免费下载的网盘网站&#xff08;学习资料为主&#xff09;&#xff1a; link3.cc/sbook123 所有资料都保存在网盘了&#xff0c;直接转存即可&#xff0c;非常的便利&#xff01; 包括了少儿&#xff0c;小学&#xff0c;初中&#xff0c;中职&am…