数据挖掘及其近年来研究热点介绍

🎀个人主页: https://zhangxiaoshu.blog.csdn.net
📢欢迎大家:关注🔍+点赞👍+评论📝+收藏⭐️,如有错误敬请指正!
💕未来很长,值得我们全力奔赴更美好的生活!

前言

数据挖掘技术通过从数据中提取有价值的信息和知识,帮助人们更好地理解和利用数据,例如发现隐藏在数据背后的模式和规律、提供决策支持和预测能力、优化业务流程和资源利用、改进产品和服务质量以及识别欺诈和风险等,推动了现代社会的发展和进步,对于企业、政府、科研机构等各个领域都具有重要的意义。本文对数据挖掘技术的应用和挑战以及近年来研究热点进行简单介绍。


文章目录

  • 前言
  • 一、数据挖掘的介绍
  • 二、文献调研
    • 1. 数据挖掘近年来研究热点总结
    • 2.KDD、PAKDD近年来会议论文数据
  • 总结


一、数据挖掘的介绍

数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等[1]。
在这里插入图片描述

近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。数据挖掘利用了来自如下一些领域的思想:①来自统计学的抽样、估计和假设检验;②人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。

二、文献调研

1. 数据挖掘近年来研究热点总结

近些年来,数据挖掘技术渗透到了生活的方方面面,本文在查阅了大量的资料和文献基础上,对于数据挖掘技术近些年来的热点研究方向和应用进行简单阐述。

多模态广告融合推荐算法研究;推荐系统的物品侧一般会有图像、声音、文本等多种模态的信息,这些信息可以从多个方面刻画物品。如何去表征这些多模态的信息,并且将这些信息融入到推荐模型中,尤其是融入到当前的用户兴趣模型中,去动态地识别图像和文本中最影响用户兴趣的部分,是我们面临的一大挑战。

融合多场景的推荐系统研究;微信中存在不同的推荐场景,基于用户兴趣、社交等不同维度,满足用户多方面的信息获取需求,通过充分利用不同场景和业务的数据,可以进行推荐系统的多场景多任务联合优化。

基于知识图谱的兴趣推理及其在推荐系统中的应用;推荐系统中,往往基于用户-物品的交互来进行推荐。知识图谱中蕴含的结构化知识可以辅助推荐系统的可解释性,并扩展推荐系统的多样性。现有的知识图谱辅助推荐的方法,多考虑建模物品之间的实体与关系,而较少考虑刻画兴趣点之间的复杂关系及其演化。基于知识图谱的兴趣推理与扩展技术,通过弱监督学习、知识图谱结构挖掘、常识推理、强化学习等技术,习得基于用户-物品交互背后的显示兴趣表示,生成可解释的兴趣扩展路径。

患者疾病模型和行为预测;由于新冠疫情的爆发,线上线下结合的治疗方式越来越受到重视,也产生了一系列相关的研究课题,包括并不限于:挖掘患者相关的医疗数据,进行疾病预测以及对应的疾病阶段预测;患者用药脱落风险预测,提高患者依从性;患者治疗后院外风险预测,是否会有并发症,抑郁等情况出现。研究这些课题,设计到医学数据挖掘,结合医学知识图谱和行为数据的预测模型、超长时间预测模型、少样本学习、医学预训练模型等技术。

医疗数据的主动学习/半监督学习;不同于自然图像,医疗图像(如 CT、MRI)往往为 3D 数据,存在标注难度大、标注信息难以获取、标注成本高昂等问题。我们希望通过主动学习从未标注数据中挑选“更有训练价值的”样本,并进一步通过半监督算法,在降低标注成本的前提下,使深度学习在医疗图像相关任务上取得更好的效果。

交通大数据分析;基于交通大数据,研究城市时空动态预测、网络空间分析、空间决策优化、大数据可视化的理论方法和技术,并在实际场景中创新应用,解决复杂现实问题。

游戏社交推荐算法优化;游戏社交推荐算法具有较多应用场景,如好友推荐、战队推荐、物品推荐、网络传播等,同时游戏社交数据纷繁复杂,包括玩家图片、社交网络、游戏数据等。如何设计有效的推荐算法,具有较高的研究价值。

2.KDD、PAKDD近年来会议论文数据

数据挖掘相关的顶会论文如KDD、PAKDD最近几年的热门主题主要在商业智能方向,即推荐系统和计算广告。本文整理了相关的推荐系统和计算广告方向的相关研究。

推理;因果推断是推荐系统近期的热点,可以为推荐效果提升、AB实验等带来可靠性分析。近年来的相关研究有:新闻推荐推理的增强锚点知识图生成(Reinforced Anchor Knowledge Graph Generation for News Recommendation Reasoning)、社会意识自监督的立体推荐系统(Socially-Aware Self-Supervised Tri-Training for Recommendation)、不可知反事实推理模型消除推荐系统的流行偏差(Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender System)等。

多任务、多目标、跨领域推荐场景;多任务、多领域推荐将不同的领域视作不同的任务,比如新闻推荐、视频推荐两个领域的数据可以联合起来训练。多领域推荐和跨领域推荐不同,多领域推荐旨在提升多个领域的效果,而跨领域推荐旨在提升目标领域的效果,一个有方向性一个无方向性。多任务推荐有极高的研究价值和实践价值。从研究角度讲,多任务推荐可以联合多个任务的推荐任务,更进一步提升推荐性能。从实践角度讲,引入额外任务的数据大概率对原有任务有所帮助,是一个一定有效果提升的方法。近年来的相关研究有:序列依赖多任务学习(Modeling the Sequential Dependence among Audience Multi-step Conversions withMulti-task Learning in Targeted Display Advertising)、混合场景多任务学习(Learning to Expand Audience via Meta Hybrid Experts and Critics for Recommendationand Advertising)、对抗特征迁移多任务学习(Adversarial Feature Translation for Multi-domain Recommendation)、迁移学习去偏(Debiasing Learning based Cross-domain Recommendation)等。

纠偏;纠偏,其实就是通过各种数学转换,使得变量的分布呈现或者近似正态分布,模型的拟合常常会有明显的提升。构建一个稳定运行的推荐生态系统,纠偏的措施必不可少。近年来的相关研究有:反事实模型推断纠偏(Deconfounded Recommendation for Alleviating Bias Amplification)、动态推荐系统的热度纠偏(Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias inRecommender System和Popularity Bias in Dynamic Recommendation)、大规模推荐系统纠偏(Contrastive Learning for Debiased Candidate Generation in Large-Scale RecommenderSystems)、跨域推荐纠偏(Debiasing Learning based Cross-domain Recommendation)等。

基于图的推荐系统;图神经网络落地推荐系统是近期的热点,是建模类图关系的有效工具。近年来的相关研究有:高效图神经网络训练(MixGCF: An Improved Training Method for Graph Neural Network-based RecommenderSystems)、面向冷启动推荐的异构信息网络多视图去噪图自动编码器(Multi-view Denoising Graph Auto-Encoders on Heterogeneous Information Networks foCold-start Recommendation)、新闻推荐推理的增强锚点知识图生成(Reinforced Anchor Knowledge Graph Generation for News Recommendation Reasoning)。

冷启动;指数据挖掘需要数据的积累,而产品初期数据为空或者数据量太少导致所需的数据量达不到要求。因此冷启动就是积累第一批种子用户的过程。冷启动是推荐系统建立初期必然面对的问题,近年来的相关研究有:异构信息网络多视图去噪图自动编码器实现冷启动(Multi-view Denoising Graph Auto-Encoders on Heterogeneous Information Networks forCold-start Recommendation)、半个性化的音乐流媒体应用冷启动推荐系统(A Semi-Personalized System for User Cold Start Recommendation on Music StreamingApps)、在线推荐系统的架构及其自适应网络的操作(Architecture and Operation Adaptive Network for Online Recommendations)。

序列推荐;在真实场景的推荐系统中,通常会使用所有数据来训练推荐模型,学到的user embedding可以表示用户的兴趣偏好。但是这样的用户表示可能会遗漏用户的序列行为信息,而序列推荐则旨在显式地建模用户的序列行为,提升推荐系统的效果。序列推荐近年来的相关研究有:基于序列多模态信息传输网络的电商微视频推荐系统(SEMlI: A Sequential Multi-Modal Information Transfer Network for E-Commerce Micro-Video Recommendations)。

兴趣推荐;兴趣点推荐近年来的相关研究有:基于元学习的下一代兴趣点推荐系统(Curriculum Meta-Learning for Next POI Recommendation)。
Embedding;Embedding可以认为是推荐算法的核心基石之一,Embedding的主要作用是将稀疏向量转换成稠密向量,便于上层深度神经网络处理。近年来的相关研究有:定制设备上的弹性embedding(Learning Elastic Embeddings for Customizing On-Device Recommenders)、无embedding表的推荐系统特征建模(Learning to Embed Categorical Features without Embedding Tables for Recommendation)、推荐系统中的偏好放大(Preference Amplification in Recommender Systems)、推荐系统中网络嵌入方法的综合分析(Where are we in embedding spaces?A Comprehensive Analysis on Network EmbeddingApproaches for Recommender System)等。

蒸馏;蒸馏是为了解决小型化的问题,近年来的相关研究有:基于拓扑蒸馏的推荐系统(Topology Distillation for Recommender System)。

对抗攻击;对抗攻击是机器学习场景当中,广泛存在的问题,同样也是推荐场景所要面对的问题之一。近年来的相关研究有:不完整及扰动数据攻击推荐系统(Data Poisoning Attack against Recommender System Using Incomplete and PerturbedData)、基于正则化信息的流形神经网络推荐系统(Lnitialization Matters: Regularizing Manifold-informed lnitialization for NeuralRecommendation Systems)、三元对抗学习在推荐系统中毒攻击中的应用(Triple Adversarial Learning for lnfluence based Poisoning Attack in RecommenderSystems)等。

计算广告;计算广告与推荐系统场景非常相似,近年来的相关研究有:策略、广告模型(A Unified Solution to Constrained Bidding in Online Display AdvertisingClustering for Private Interest-based Advertising)、对抗学习(Diversity driven Query Rewriting in Search Advertising)等。


总结

本文对数据挖掘的概念进行了一个初步的介绍,在此基础上,本文基于大量数据挖掘相关论文的基础上,对数据挖掘近年来在学术界、工业界的热点研究方向进行了总结,

文中图片大多来自论文和网络,如有侵权,联系删除,文中有不对的地方欢迎指正、补充。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/525615.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

什么是mka音频格式?mp3与mka音频的区别 如何把mp3转成mka格式?

一,什么是mka音频格式 mka音频是一种音频文件格式,它是Matroska多媒体容器格式的一种变体,专门用于存储音频数据。mka文件通常包含压缩的音频流,如MP3、AAC或FLAC等,以及其他可能的元数据,如专辑封面、艺术…

24 个Intellij IDEA好用插件

24 个Intellij IDEA好用插件 一. 安装插件 Codota 代码智能提示插件 只要打出首字母就能联想出一整条语句,这也太智能了,还显示了每条语句使用频率。 原因是它学习了我的项目代码,总结出了我的代码偏好。 Key Promoter X 快捷键提示插件 …

基于ARM内核的智能手环(day7)

RTC(实时时钟) 什么是RTC? RTC是指实时时钟(Real-Time Clock),是一种能够持续跟踪时间的计时器,即使在设备断电的情况下也能保持时间的准确性。它通常用于需要准确时间记录的应用,…

[每日算法 - 阿里机试] leetcode739. 每日温度

入口 力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台备战技术面试?力扣提供海量技术面试资源,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/daily-temperatures/descr…

深度学习理论基础(七)Transformer编码器和解码器

学习目录: 深度学习理论基础(一)Python及Torch基础篇 深度学习理论基础(二)深度神经网络DNN 深度学习理论基础(三)封装数据集及手写数字识别 深度学习理论基础(四)Parse…

UE5、CesiumForUnreal实现加载建筑轮廓GeoJson数据生成白模功能

1.实现目标 在UE5.3中,通过加载本地建筑边界轮廓面GeoJson数据,获取底面轮廓和楼高数据,拉伸生成白模,并支持点选高亮。为防止阻塞Game线程,使用了异步任务进行优化,GIF动图如下所示: 其中建筑数量:128871,顶点索引数量:6695748,三角面数量:2231916,顶点数量:165…

golang 归并回源策略

前言 下面是我根据业务需求画了一个架构图,没有特别之处,很普通,都是我们常见的中间件,都是一些幂等性GET 请求。有一个地方很有意思,从service 分别有10000 qps 请求到Redis,并且它们的key 是一样的。这样…

CSS - 你遇到过动画卡顿的问题吗

难度级别:中高级及以上 提问概率:70% 回答这道题,首先要说的就是,浏览器在每一帧动画里大概做了什么事情。首先浏览器会执行Javascript,或是操作DOM元素,紧接着需要对DOM元素进行样式计算,当计算完成后,就需要针对DOM元素的位置以及大小…

2024年MathorCup妈妈杯数学建模思路D题思路解析+参考成品

1 赛题思路 (赛题出来以后第一时间在群内分享,点击下方群名片即可加群) 2 比赛日期和时间 报名截止时间:2024年4月11日(周四)12:00 比赛开始时间:2024年4月12日(周五)8:00 比赛结束时间&…

oracle hang分析使用

oracle hang分析测试 使用hang分析大部分原因在于产生锁资源的争用 1-2:只有hanganalyze输出,不dump任何进程 3:Level2Dump出在IN_HANG状态的进程 4:Level3Dump出在等待链里面的blockers(状态为LLEAF/LEAF_NW/IGN_DMP) 5&…

软件设计师29--并发控制

软件设计师29--并发控制 考点1:事务的特性例题: 考点2:并发问题并发产生的问题丢失更新不可重复读问题读“脏”数据 考点3:封锁协议例题: 考点1:事务的特性 原子性(Atomicity)&…

好文阅读-数据库-CREATE TABLE AS

添加链接描述 收获如下: 1 DROP DELETE TRUNCATE对比 2 CREATE TABLE AS 这种方式创建表不会复制表的索引,主键,外键约束,包括自增ID。因此应该使用 CREATE TABLE LIKE。 3 数据的处理可以通过建立临时表的方式,之后还…

【实战解析】YOLOv9全流程训练至优化终极指南

【实战解析】YOLOv9全流程训练至优化终极指南 0.引言1.环境准备2.数据预处理(1)数据准备(2)按比例划分数据集(3)xml转txt脚本(4)配置文件 3.模型训练(1)单GPU…

超越基准 | 基于每个高斯变形的3D高斯溅射方法及其高效训练策略

作者:小柠檬 | 来源:3DCV 在公众号「3DCV」后台,回复「原论文」可获取论文pdf 添加微信:dddvision,备注:3D高斯,拉你入群。文末附行业细分群 详细内容请关注3DCV 3D视觉精品课程:…

ctfshow web入门 命令执行 web53--web77

web53 日常查看文件 怎么回事不让我看十八 弄了半天发现并不是很对劲,原来我发现他会先回显我输入的命令再进行命令的回显 ?cnl${IFS}flag.php||web54 绕过了很多东西 基本上没有什么命令可以用了但是 grep和?通配符还可以用 ?cgrep${IFS}ctfshow${IFS}???…

JavaCollection集合--单列集合——JavaCollections类

目录 集合--->容器 代码 运行 Java集合API 单列集合 Collectio接口 List接口实现类 ArrayList 数组实现 概念 代码 运行 代码 ArrayList方法 代码 运行 LinkedList 链表实现 概念 代码 运行 Vector 数组实现 概念 代码 运行 List接口集合…

知识推理技术解析与实战

目录 一、引言二、知识推理基础知识表示方法本体论语义网络图形数据库 推理机制概述演绎推理归纳推理类比推理 实践代码示例 三、知识推理的核心技术自动推理系统规则引擎推理算法 知识图谱的运用构建知识图谱知识推理与查询 推理算法深度分析转导推理逻辑推理概率推理 实践代码…

java智慧校园系统源码+SaaS智慧学校系统源码+PC端

java智慧校园系统源码SaaS智慧学校系统源码PC端 有演示,可正常上线运营可授权PC端,SaaS服务模式开发环境:Javaspringbootvueelement-uimysql开发语言:JavaspringbootVUE 小程序 全套源码 建设一个一流的智慧校园,使先进…

MuJoCo 入门教程(五)Python 绑定

系列文章目录 前言 本笔记本提供了使用本地 Python 绑定的 MuJoCo 物理入门教程。 版权声明 DeepMind Technologies Limited 2022 年版权所有。 根据 Apache License 2.0 版(以下简称 "许可协议")授权;除非遵守许可协议&am…

操作系统1

概念 操作系统 组织和管理计算机系统中的软件和硬件,组织计算机系统工作流程、控制程序执行,提供给用户工作环境和友好的接口。 3个作用: 管理计算机中运行的程序和分配各种软硬件资源为用户提供友善的人机洁界面为应用程序的开发和运行提供…