扩展学习|国内外用户画像相关进展一览

文献来源:徐芳,应洁茹.国内外用户画像研究综述[J].图书馆学研究,2020(12):7-16.DOI:10.15941/j.cnki.issn1001-0424.2020.12.002.

 一、用户画像的概念

        用户画像概念一经提出,便被广泛应用到精准营销等领域。后来,作为一种描绘用户特征、表达用户诉求的有效工具,用户画像被逐渐引入到图书馆服务等领域。关于用户画像的概念,普遍认为最早是由“交互设计之父”Cooper提出来的,他认为用户画像是真实用户的虚拟表示,是基于一系列真实数据(Marketing data,Usability data)的目标用户模型7。Massanari8将用户画像用于描述产品的使用对象中并认为用户画像是按照用户姓名、照片、兴趣爱好等特征对用户进行描述而形成的用户画像模型,强调了用户在产品开发过程中所起的决定性作用。国内方面,代表性观点有:用户画像是参考用户性别、受教育程度等人口统计学特征、社交关系和行为模式等标准而分析、总结和构建出来的一种标签化了的用户模型;用户画像的过程包括搜集用户数据、分析用户相关的业务特色以及可视化数据分析结果等;用户画像代表了某类目标用户群的特征。

        关于用户画像的特征研究,Travis的研究提出了用户画像的基本性(Primary research)、真实性(Realistic)、目标性(Objectives)、独特性(Singular)、移情性(Empathy)等特性。梁荣贤认为用户画像具有真实性、独特性、动态性和应用性的特点。许鹏程的研究发现可迭代性、时效性、区隔性、交互性、知识性和聚类性是数据背景下用户画像的特征。宋美琦等把用户画像的特征归纳为标签化、时效性和动态性5。可见,用户画像是以大量真实用户数据为基础,对用户行为、兴趣等进行特征抽取而形成的虚拟用户模型,它具有全面性、真实性、代表性、动态性以及移情性等特征。

二、用户画像的构建流程

        目前,有一些关于用户画像构建流程方面的研究。代表性的观点有:用户画像的构建流程包括用户的基本特征、需求、偏好等特征信息的提取和用户画像模型的建构;用户画像的构建流程是一个搜集用户特征数据、研究用户信息、细分标签、丰富用户画像描述的过程。在现有研究的基础上,我们将用户画像的构建流程划分为3个步骤:数据采集、数据挖掘及过滤和标签提取及重组。如图1所示。

(一) 数据的采集

        用户数据是用户画像流程的基础。用户数据越全面准确,用户画像的刻画就越接近于真实用户,用户画像结果就会越成功。关于数据采集的方法,有许多学者从不同的学科和视角进行了探索。代表性的观点有:陈烨等研究者认为应该采集多视角数据,因为其对同一对象从不同层面或者不同方法进行数据的描述,数据可以呈现出多态性、多源性、多描述性和高维异构性等特点。柳益君等研究者则将用户数据划分为:显式行为数据、隐式行为数据、个人信息数据、社交数据以及终端感知数据。但是,当前研究对用户数据真实性、可靠性等方面尚缺乏系统而深入的研究。以视频网站账号为例,针对多人共用同一账号而产生的兴趣、行为方面的偏差可能会对用户画像构建的真实性方面存在一定的偏差。

(二) 数据挖掘及过滤

        数据挖掘及过滤是用户画像流程的核心和关键。用户画像可以挖掘用户数据之间的关系,将用户画像结果应用到精准信息服务、精准营销等领域来实现其价值。国内外学者对此进行了不同程度的研究,代表性的研究有:Cooper利用数据挖掘对加州大学数字图书馆不同类型用户进行分析,从大量的图书馆数据中筛选隐藏数据,发掘了表面上复杂无序信息的联系,发现了不同类型用户逗留时间的规律。Skillen等人在文章中指出根据智能手机中日志数据进行数据挖掘可以提供个性化服务。陈丹等人认为基于大数据挖掘技术,可以从用户行为、用户社交数据、用户标签集这3种途径提取用户画像标签,从而构建用户画像,进而实现个性化的高质量服务。文献调查表明现有研究的重点关注于用户的行为、用户的关系网络以及兴趣等方面,但针对用户画像数据的过滤以及清洗方面的研究较为鲜见。

(三)标签的提取及重组

        标签的提取与重组是用户画像流程的最后环节,是直接影响用户画像结果准确性的步骤,甚至标签权重的不同也会使得用户画像模型存在差异性。标签是一个对采集的用户数据进行挖掘与过滤,提取目标用户群的特征,用高度精炼词语对这些特征进行标识的过程,具有语义化、短文本化、专一性等特点。另外,标签出现的频率与用户兴趣也有明显的关系。国内学者对这方面进行了较多的研究。代表性的研究有:葛晓鸣将标签分为2D与3D标签,其中2D指用户标签中的人口属性、人格等具有相对稳定性的静态标签;而3D标签则指那些具有动态特征的标签,如:浏览器Cookies记录的信息检索、商品购买以及社交行为等。刘漫将用户画像构建的标签归为特征、行为以及用户兴趣标签。

        综上,本文认为用户画像标签需要按照一定的标准进行划分和等级的排列,从分类的角度来讲,用户标签可以分为用户行为标签、社会网络标签以及兴趣标签等。用户行为标签包括:点击频率、浏览时间长短、搜索记录、评论等等。社会标签则包括:用户角色、用户关系网络、个体与群体的关系等等。用户的兴趣标签包括:用户的兴趣偏好、历史偏好、兴趣转变等标签。从等级排列的角度来讲,行为方面可以划分为一年内的行为、一月内的行为、一周内的行为、一日内的行为等。从社会关系网络的角度来划分可以分为个人与群体的关系、个人与社会的关系等。从兴趣角度来划分可以分为:当前兴趣以及潜在兴趣。

        此外,值得注意的是用户画像模型的构建离不开各种算法与技术的支持。在用户画像构建的不同阶段需要不同技术手段的支持。 在数据采集方面,数据采集往往借用不同工具和方法进行数据的采集,国内外学者运用自编程序、八爪鱼爬虫软件、深度访谈等方法开展了相关的研究。 在数据挖掘和过滤方面,数据挖掘的方法有聚类、分类、关联规则、决策树、协同过滤等,聚类和分类的算法能够更好地将用户划分为具有相似特征的群体,以便于将这一类人视为具有共同特征的个体进行划分,关联规则则是基于对象的相似性进行数据关系的构建。根据目的的不同,选择数据挖掘的方法可以进行相应的选择。此外,有研究发现用户画像模型构建过程中常用到数据挖掘算法,如:向量空间模型等算法。标签的提取与重组方面,多数学者采用关联规则、标签评分、TF-IDF 算法、社会网络分析等来构建用户兴趣模型。另外,用户属性特征分析方面,常用数理统计、数据挖掘以及机器学习等方法。

三、用户画像研究的流派

        按照用户画像模型构建流程中依据的用户数据不同,本文将国内外用户画像研究的流派划分为行为流派、社交媒体流派、兴趣流派以及基于本体的流派。

(一) 用户画像行为流派

        用户画像行为流派将用户的行为作为描绘用户画像模型构建的依据。用户行为是指用户为满足特定的信息需求在信息行为中采取的各种动作和表现。一般来说,用户画像行为流派对用户行为的研究主要包括用户的信息检索行为、信息浏览行为等。国外方面代表性的研究主要有:早在2005年,Barabasi的研究发现人们的行为轨迹服从“幂律分布(Power Law Distribution)”和人的行为都是可预测的。Adomavicius等研究者通过对用户阅读时间和点击率等行为进行分析来发现用户消费特征与规律,为用户画像构建提供支持。Svendsen等研究技术接受程度行为与人的性格之间的关系,发现外向人表现出行为积极接受行为。Iglesias 等研究人员应用聚类方法对不同用户群体行为的网络日志进行数据挖掘,为用户画像的构建提供支持。国内方面代表性的研究成果主要有:郝增勇归纳了用户画像模型构建过程中用户行为分析的主要方法,如:用户流量统计、用户分布等。王仁武等利用自编的 Python 爬虫程序抓取高校教师和学生使用图书馆电子资源的访问时间、访问方式等日志数据,并对其进行分析、标引、解析等处理,试图构建学术用户画像的行为标签。刘锦宏等研究人员应用 “用户行为理论”和“技术接受模型(TAM)”,构建移动图书馆用户行为模型。何胜等研究人员分析了用户日志库中的数据,发现用户的显性兴趣和隐性需求,为制定个性化的用户服务策略提供支持。综上可知,用户画像的行为流派是以用户行为数据为依据,从看似散乱无序的行为数据中挖掘出用户行为的规律与特征,构建用户画像模型。根据用户画像模型,信息服务提供者可以预测用户的行动,实现精准信息服务的目的。但应该注意的是虽然用户画像行为流派的模型构建方法应用较为广泛,但是用户画像行为流派的研究尚存在一些局限,如:用户画像模型构建方法与可视化、人工智能等技术手段的结合尚不够紧密,使得基于用户行为数据构建的户画像模型在动态性、立体感等方面尚有待完善。

(二) 用户画像社交媒体流派

        社交媒体的出现改变了人类的信息行为,构建了现实社会中难以构建的虚拟社会关系。社交网络中的用户由于评论、转发、点赞等行为在网络世界构建了各种各样的社会化联系,这种联系具有纽带的作用,增强了用户与用户之间的联系,且用户之间的联系具有实时性与动态性特征。目前,使用社交媒体采集用户数据来进行用户画像研究的文献有所增加,形成了较为丰富的研究成果。因此,非常有必要对该领域研究的文献进行梳理。

        用户画像社交媒体流派的代表性研究主要有:Bhtacharyya等研究人员以Facebook用户关键词为样本,分析用户之间的相似性,找到交友中受影响的相似之处。徐海玲等人以豆瓣网为例,通过采集和分析社交媒体网站上的用户数据,构建了用户画像模型和资源画像模型。林燕霞等研究人员以微博为例,通过采集和分析用户微博上的动态来挖掘用户感兴趣的主题,构建微博用户画像,发现用户画像在社交媒体个性化信息服务、舆论治理等方面能够产生一定的作用。张亚楠等研究人员以科研社交媒体平台为例,通过采集和分析科研社交平台的用户数据,构建科研社交平台的用户画像,对于提高科研社交平台信息服务的精准性具有一定的参考意义。张艳丰等研究人员以移动社交媒体为例,通过采集和分析移动社交媒体的用户数据,构建了潜水忽略型、忍耐使用型、平台转移型和行为替代型等用户画像模型。综上可知,用户画像社交媒体流派用户画像模型构建的要点有:一是注重对用户社交媒体社会关系的描绘;二是注重用户数据的群体性特征,根据相似性等指标将用户划分为具有某一共同标签的群体。但是,现有用户画像社交媒体流派的研究同样也存在一定的局限性。例如:社交媒体存在于具有虚拟性的非现实网络世界,有些用户会因为求异心理、从众心理等原因在社交媒体社会网络中构建出一个与现实生活中行为、表现完全不同的虚拟用户形象,以此虚拟用户相关的社交媒体数据刻画的用户画像,其准确性有待商榷。因此,用户画像社交媒体流派的研究还需要对搜集到的社交媒体用户数据的真实性进行辨别,以便提高用户画像的准确性。

(三) 用户画像兴趣流派

        用户画像兴趣流派的研究特征主要体现在:用户画像模型构建时是以用户兴趣、偏好等用户数据为基础。这方面的文献较为丰富,国外代表性的研究成果主要有:Godoy等研究者采用聚类方法对用户浏览过的网页痕迹数据进行分析,以此来挖掘用户的兴趣、偏好等特征;Pazani 等研究者对用户生成的兴趣标签进行分析,总结用户兴趣建档方法;Li 等研究者对用户和社会化标签进行共现分析(Co-occurrence Analysis)来发现用户兴趣,利用主题聚类方法来划分用户兴趣主题;依据用户兴趣进行用户画像模型构建,从而提高个性化搜索的性能;采用潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型来分析用户所关注的文档,挖掘用户兴趣主题并实现其可视化展示。国内代表性的研究成果主要有:石宇等研究者以电影数据为例,采集和分析用户感兴趣资源的相关数据,构建用户兴趣画像模型;王顺箐以图书馆智慧推荐系统为例,采集和分析了图书馆读者的数据,构建读者兴趣用户画像模型;王庆等研究者以图书馆馆藏资源推荐为例,采集和分析了图书馆读者的兴趣数据,构建了单用户兴趣画像模型和多用户兴趣画像模型;赵开慧采用聚类方法对用户标签和资源标签进行分析,实现用户内容的推荐;夏立新等研究者利用LDA主题模型分析用户标签的主题,探索用户兴趣层级演化规律,发现了始终处于核心层、核心层向边缘层淡化和始终处于边缘层的3种用户兴趣层级状态;唐晓波等研究者以新浪微博为例,分析了新浪微博用户的兴趣主题,构建用户画像并实现个性化的信息推荐。可见,用户兴趣流派的用户画像模型构建主要是以用户兴趣数据为基础。与用户画像行为流派和用户画像社交媒体流派不同,这种流派在描述用户画像时,重点关注用户的兴趣而非用户本身。根据用户喜欢的商品或者兴趣点等数据进行深入的挖掘与分析,发现用户兴趣的特征与规律,以便将相似的产品或者服务推荐给感兴趣的用户。

2.4 基于本体的用户画像流派

        基于本体(Ontology)的用户画像流派是从本体的角度对用户数据进行规范化的提取、定义、表达、组织和评价,构建一套能被广为接受和理解的用户数据本体体系,以便用户画像模型构建的重用和共享。国外代表性的研究有:Chen等研究者提出了一种基于本体的用户画像建模方法,以树图和空间图为基础;Razmerita 等人提出了基于本体的用户画像模型架构,并应用该用户画像架构进行知识管理领域的移动用户行为研究;Issam等人描述了一种基于通用本体的用户建模技术,以满足用户画像的需求;Hawalah等人将用户兴趣表示为本体概念,本体概念通过将用户访问的网页映射到参考本体来构建,然后被用于学习短期和长期兴趣的挖掘与分析。国内代表性的研究有:郑建兴等人以微博为例,利用本体的部分结构来表示用户画像模型,提出了neighbor-user画像的实现方法,以便全面地反映用户兴趣;唐晓波等人构建了一种基于本体和标签的个性化推荐模型,并发现该模型优于传统的基于社会化标签的推荐;姜建武等人用结构化信息本体来表示抽象的用户,构建数学模型来研究结构化信息本体的提取方法。可见,基于本体的用户画像模型构建流派相较于其它用户画像构建流派能够考虑信息源包含的具体含义,并且在语义表达能力以及逻辑推理方面具有更强的优势。但同时也应该注意的是,该流派的研究技术性比较强,通常要求研究人员具备计算机等学科知识。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/592085.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

karpathy Let‘s build GPT

1 introduction 按照karpathy的教程,一步步的完成transformer的构建,并在这个过程中,加深对transformer设计的理解。 karpathy推荐在进行网络设计的过程中,同时利用jupyter notebook进行快速测试和python进行主要的网络的构建。 …

前端页面平滑过渡解决方案

一、问题产生 在使用图片作为页面背景时,无法使用transtion进行平滑过渡,直接切换背景又会降低使用体验。 二、解决方式 使用clip-path对背景图片裁剪配合transtion实现平滑过渡的效果 三、效果展示 网址:ljynet.com 四、实现方式 tem…

图像特征点检测

⚠申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址。 全文共计3077字,阅读大概需要3分钟 🌈更多学习内容, 欢迎👏关注👀【文末】我的个人微信公众号&#xf…

练习题(2024/5/3)

1对称二叉树 给你一个二叉树的根节点 root , 检查它是否轴对称。 示例 1: 输入:root [1,2,2,3,4,4,3] 输出:true示例 2: 输入:root [1,2,2,null,3,null,3] 输出:false提示: 树中…

前端工程化04-VsCode插件设置总结(持续更)

1、输出语句log设置 log输出、平常你输出log,还必须得打一个console然后再.log()非常不方便,当然我们可以直接输入一个log,但是提示有两个,我们还得上下选择 所以我们直接采用插件的提示 一个clg就可以了 2、括号包裹提示 找到VsCode的settings.js文…

考研入门55问---基础知识篇

考研入门55问---基础知识篇 01 >什么是研究生入学考试? 研究生是指大专和本科之后的深造课程。以研究生为最高学历, 研究生毕业后,也可称研究生,含义为研究生学历的人。在中国大陆地区,普通民众一般也将硕士毕业生称…

微图乐 多种装B截图一键制作工具(仅供娱乐交流)

软件介绍 采用exe进程交互通信。全新UI界面,让界面更加清爽简约。支持zfb、VX、TX、Yin行、Dai款、游戏等图片生成,一键超清原图复制到剪辑板,分享给好友。适用于提高商家信誉度,产品销售额度。装逼娱乐,用微图乐。图…

InfiniFlow 創始人兼CEO張穎峰確認出席“邊緣智能2024 - AI開發者峰會”

隨著AI技術的迅猛發展,全球正逐步進入邊緣計算智能化與分布式AI深度融合的新時代,共同書寫著分布式智能創新應用的壯麗篇章。邊緣智能,作為融合邊緣計算和智能技術的新興領域,正逐漸成為推動AI發展的關鍵力量。借助分布式和去中心…

扫雷实现详解【递归展开+首次必展开+标记雷+取消标记雷】

扫雷 一.扫雷设计思路二.扫雷代码逐步实现1.创建游戏菜单2.初始化棋盘3.打印棋盘4.随机布置雷5.统计周围雷的个数6.递归展开棋盘7.标记雷8.删除雷的标记9.保证第一次排雷的安全性棋盘必定展开10.排查雷11.判断输赢 三.扫雷总代码四.截图 一.扫雷设计思路 1.创建游戏菜单。  2.…

使用机器学习确定文本的编程语言

导入必要的库 norman Python 语句&#xff1a;import <span style"color:#000000"><span style"background-color:#fbedbb"><span style"color:#0000ff">import</span> pandas <span style"color:#0000ff&quo…

Postman的一些使用技巧

Postman 是一个流行的 API 开发工具&#xff0c;用于设计、开发、测试、发布和监控 API。在现代web开发中使用非常广泛。后端开发必备而且必会的工具。 目录 1.配置环境变量 2.动态变量 3.脚本 4.测试 5.模拟 6.监控 7.集合运行器 8.响应保存 9.请求历史 10.同步请求…

基于springboot+vue+Mysql的影城管理系统

开发语言&#xff1a;Java框架&#xff1a;springbootJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包&#xff1a;…

brpc profiler

cpu profiler cpu profiler | bRPC MacOS的额外配置 在MacOS下&#xff0c;gperftools中的perl pprof脚本无法将函数地址转变成函数名&#xff0c;解决办法是&#xff1a; 安装standalone pprof&#xff0c;并把下载的pprof二进制文件路径写入环境变量GOOGLE_PPROF_BINARY_PA…

现代循环神经网络(GRU、LSTM)(Pytorch 14)

一 简介 前一章中我们介绍了循环神经网络的基础知识&#xff0c;这种网络 可以更好地处理序列数据。我们在文本数据上实现 了基于循环神经网络的语言模型&#xff0c;但是对于当今各种各样的序列学习问题&#xff0c;这些技术可能并不够用。 例如&#xff0c;循环神经网络在…

Java中接口的默认方法

为什么要使用默认方法 当我们把一个程序的接口写完后 用其他的类去实现&#xff0c;此时如果程序需要再添加一个抽象方法的时候我们只有两种选择 将抽象方法写在原本的接口中 但是这样写会导致其他所有改接口的实现类都需要实现这个抽象方法比较麻烦 写另一个接口 让需要的实…

23.哀家要长脑子了!

目录 1.290. 单词规律 - 力扣&#xff08;LeetCode&#xff09; 2.532. 数组中的 k-diff 数对 - 力扣&#xff08;LeetCode&#xff09; 3.205. 同构字符串 - 力扣&#xff08;LeetCode&#xff09; 4.138. 随机链表的复制 - 力扣&#xff08;LeetCode&#xff09; 5.599. 两…

Spring Boot与OpenCV:融合机器学习的智能图像与视频处理平台

&#x1f9d1; 作者简介&#xff1a;阿里巴巴嵌入式技术专家&#xff0c;深耕嵌入式人工智能领域&#xff0c;具备多年的嵌入式硬件产品研发管理经验。 &#x1f4d2; 博客介绍&#xff1a;分享嵌入式开发领域的相关知识、经验、思考和感悟&#xff0c;欢迎关注。提供嵌入式方向…

VMware虚拟机中ubuntu使用记录(6)—— 如何标定单目相机的内参(张正友标定法)

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、张正友相机标定法1. 工具的准备2. 标定的步骤(1) 启动相机(2) 启动标定程序(3) 标定过程的操作(5)可能的报错 3. 标定文件内容解析 前言 张正友相机标定法…

什么是PWM?

1.PWM也叫做脉冲宽度调制&#xff0c;它是一种模拟控制方式&#xff0c;根据相应 载荷 的变化来调制晶体管基级和MOS管栅极的偏置&#xff0c;来实现 晶体管 或 MOS管 导通时间的改变&#xff0c;从而实现开关稳压电源输出的改变。 这种方式能使电源的输出电压在工作条件变化时…

linux的基础入门(2)

环境变量 在Shell中&#xff0c;正确的赋值语法是没有空格的&#xff0c;即变量名数值。所以&#xff0c;正确的方式是&#xff1a; tmpshy 这样就将变量tmp赋值为"shy"了。 注意&#xff1a;并不是任何形式的变量名都是可用的&#xff0c;变量名只能是英文字母、…