内容运营工具:标签体系

一.分类和标签的区别

■标签是扁平的,分类是层级的。
■标签是精确的,分类是粗糙的。
■标签是多维的,分类是一维的。

二.标签的本质:元数据

事实上,在数据领域,有一个鼎鼎大名的词汇与标签极其雷同,无论它的定义、适用范围,还是它的衍生应用都与标签令人惊讶地一致。它就是:元数据。
元数据:用来描述数据的数据,是从数据中抽取出来用于说明其特征的数据,是结构化数据。
■元数据是结构化数据。
■元数据是可被搜索和精确定位的。
■元数据可以附属在任意结构数据上。
■元数据使得图片、文档、视频这些无法搜索内容的非结构化数据也可以被搜索、组织和管理。

三.标签的两种类型

1.规则标签
这类标签最简单,就是运营团队人为制定的规则,然后给这堆规则命名。例如沉默用户,定义为启动 APP 后10分钟内就离开的用户;流失用户,定义为3个月内没有回访的注用户。这里的默和用就是规则标签。规则标签,有时候也叫业务标签。
2.特征标签
在内容分发领域,更多应用的是特征标签,不再是人为制定的规则,而是通过机器学习来理解内容并提取特征作为标签,即把原始的图文或视频的文本信息丢进 NLP ,然后 NLP 去分析和理解并输出特征文本,即标签。一篇文章,有可能全篇的文字都没有提到比尔·盖茨,但是 NLP 也能输出比尔·盖茨,这种操作用高级的说法就是:内容理解

四.标签系统的核心逻辑

1.标签是结构化数据
标签常态下是一个普通得不能再普通的文本,文本一定是可以结构化的,也就是说标签是可以被结构化,可以被有效存储、组织、管理、搜索和精确定位的。总之,结构化数据的特点和治理方式可以完美地套用到标签上。
2.标签是可被搜索和精确定位的
由于标签是结构化的,是可以在关系型数据库中有效组织、存储和管理的,那么,它就一定能被搜索且被精确定位。也就是说,我们总是有很高效的办法来定位每一个标签。
这一点非常重要,结构化数据总是能够被高效地搜索和定位,这样就让标签数量可以无后顾之忧地爆发性增长。而随着标签数量的不断增长,标签能够愈加精确地去描述信息,让信息本身也愈加容易被精确定位和搜索,这是一个双赢的结果。
3.标签可用于各种数据结构上
虽然标签是结构化的,但其本身并不局限于只能描述结构化的数据。
事实上,标签用以描述的信息是普适性的,也就是说标签可以应用于任意数据结构,比如常规的文本、图片、视频、音频、超链接,甚至更抽象的信息。
4.标签可以使原本无法描述、搜索和定位的数据也可以被描述、搜索和定位
这个特性简直就是标签的黑科技,如果把标签比作天火,数据比作擎天柱,那么给数据加上标签,也就等于给擎天柱附加了天火的飞行引擎。众所周知,视频这种非结构化数据不仅存储起来让人头疼,搜索起来更让人头疼。因为非结构化数据很难被搜索和精确定位。而上述的给视频增加文件名、标题甚至大段描述文字的效果依然很差,因为这种
描述的信息量非常有限。

百度就已经开始研发针对视频的每一帧来打标签的技术,而最能让群众接受和喜闻乐见的针对视频内容或者视频帧的标签,就是二次元们用的弹幕。
B站的视频弹幕列表,不仅标记了弹幕出现的时间点,还能双击弹幕快速跳转到对应的视频内容时间点上。

五.标签和权重

当我们给某些信息打上这些标签时,其实我们潜意识是有一个预期和判断的,大致就是一线城市和十线县城赋予信息的重要程度是完全不一样的,即信息被打上广州和被打上曲麻莱县具有完全不同的含义,也就是说:标签是有权重的
■有了权重,标签就有了分级,于是使用标签的信息就有了分级。
■有了权重,标签就有了优先级,于是使用标签的信息就有了优先级。
■有了权重,标签可以满足个性需求,于是使用标签的信息就可以体现个性需求。

六.最佳实践1:BAT是怎么建设标签体系的

1.工程应用中的标签体系
在实际工程应用中,标签体系通常是和分级体系结合在一起成为完整的内容分类体系。相对粗粒度的分类体系和相对细粒度的标签体系各司其职,共同发挥作用。在内容分发平台中( UC 头条、今日头条等 APP )。
在这里插入图片描述

(1)一级类
最顶层,最粗粒度,也是最通用的分类,例如社会、娱乐、科技等。一般有15~20个,各个内容分发平台差别不大,各个内容类型(图文、短视频、音频等)差异也不大。

(2)二级分类次级,次粒度的分类,二级分类很好理解,把一级分类细拆下来就是了,例如一级分类的娱乐细拆为电影、音乐、电视剧等二级分类。

(3)三级分类
这个不是每家都有,原因在于:三级分类已经和标签的粗粒度差不多,可以用标签来代替三级分类;三级分类数量太大,体系化管理和维护成本太高。某信息流产品的一级分类有22个,二级分类有88个,再拆到三级分类就是指数级的增加了。于是,三级分类在工程应用中的定位是填补上层二级分类和下层标签体系之间的粒度空白。

什么是粒度空白?例如一级分类是娱乐,二级分类是电影,标签是王家卫,可能会出现下面这种情况:假设我是一个文艺电影爱好者,如果用二级分类的电影做推荐,那可就太粗了。如果用王家卫的标签做推荐,那可就太细了,文艺片有好多导演的嘛, CTR 肯定惨不忍睹。那怎么办呢?简单,在电影和王家卫之间增加一个:文艺片,既比电影的粒度细,又比王家卫的粒度粗,既可以满足看文艺片的需求,也不会天天推王家卫这么局限。

研究中文语义和词义的专家就给出了解决方案:针对指向性不明显,建议标签优先使用名词,且唯一指代。

实体词代表的标签称为实体标签。实体标签必须是名词,且必须是唯一指代。
苹果,是实体标签吗?并不是。
因为实体标签的要求:名词,且唯一指代。苹果,是名词,但不是唯一指代,苹果可以指代科技公司、手机、水果、牛仔裤。所以如果用"苹果"作为标签去推荐,我看了苹果手机,你却给我推1斤3元的苹果,岂不是让人啼笑皆非?
在这里插入图片描述

难道我就不能用"苹果"了吗?当然可以用,只不过要给它另外起个名字:概念标签。概念标签通常表示的是**"一类"或"某种相似"的内容,**

在这里插入图片描述

2.图文和短视频的标签生产有什么不同?
现代工程中,基本上是通过 NLP 来生产标签的,也就是把图文或者短视频丢进 NLP 模型,模型呼啦呼啦一顿运算找出"自认为"最符合输入内容特征的标签,完事。这个事的核心逻辑是 NLP 模型的效果(准确率,召回率和覆盖率,简称准召覆)严重依赖输入的信息以及信息量。依赖的信息仅为文本信息,图片、语音没用,并且信息量越多越好,越纯净越好

**图文信息的 NLP 准召覆业内平均都可以做到85%以上,短视频的 NLP 准召覆能到70%就不错了。**针对短视频的文本信息少,有效信息都在视频和音频中,一般采用融合模型来搞定。融合模型:不仅分析短视频仅有的文本信息,同时对视频帧和音频进行处理,故谓之融合模型。

七.最佳实践2:BAT是如何让标签赋能各个业务模块的

1.标签如何赋能内容管理和运营
内容均衡化和针对性入库,内容库运营者负责内容源、内容质量等,分类的粒度太粗了,而且同一分类下的内容也会千差万别。举个例子,假如内容库有社会这个分类,那么极有可能出现这种可能:
■国家领导人出访友邻达成友好共识。
■磊叔家隔壁的小哥哥聚众打架引发青少年教育反思。
当热点运营者发现社会分类的 CTR 显著高于大盘,那么到底是教育这个二级分类火了,还是青少年教育这个标签火了,还是隔壁小哥哥打架这件鸡毛蒜皮的事情爆冷突然火了呢?
通过分析分类体系和标签体系的 CTR ,运营者发现是"青少年教育"这个标签打上的内容都火了,接下来就可以人工监控"青少年教育"这个标签的热度,控制好推荐策略中的权重,太热容易失控,这叫热点运营;同时自媒体运营同学可以告诉广大自媒体作者:老师您好,写个青少年教育的文章呗,保量下发,这叫创作引导。

2.标签如何赋能冷启动
用户冷启动:通常会引导我们关注一堆内容,本质是标签。
内容冷启动:内容被打上标签,第一次下发时,优先下发给与标签相匹配的用户。

3.标签如何赋能相关推荐
标签简直就是天然为推荐场景而生的,毕竟都在讲要个性化推荐,都在讲精准推荐。标签的精准指向恰好就是为此服务的。标签推荐下发场景的应用丰富多彩,玩法五花八门,各家也是百花齐放。
对于常见的内容型产品,典型的用户路径是这样的:
某个用户触达入口→内容 list →内容详情页→返回内容 list →另一个内容详情页→ repeat →退出。
这么描述可能有点抽象,我们找个有代入感的场景来说明。
例如,用户收到一条推送,点击进入推送列表,点击某条内容进入详情页,看完后要么写个评论,要么分享点赞收藏,要么什么都不做就闪人。
发现问题了吗?停留时间太短,好不容易拉来的流量过来溜达一圈就走了。如此浪费流量自然不能坐视不理,得想点办法。有了,让用户在某个页面多停留一会儿不就解决了。看来看去,好像只有详情页有点空间增加一些内容来留住用户。如果用户点进来,而且浏览到正文末尾了,那么可以认为
用户对此内容有强兴趣。可以在正文末增加与当前内容强相关的推荐,行话叫相关推荐。
这么描述还是抽象,我们再说得具体一些:
■ A 君点击了一篇办理港澳通行证的文章。
■ A 君看到了最后一行。
■ A 君发现后面还有"你可能还想看",里面推荐了香港和澳门的旅游景点和美食。
■ A 君觉得还不错,看了一篇有关香港旅游的文章。
■ A 君不仅看完了文章,还在"你可能想看"又点击了其他内容。
■"无限循环"。
然后运营者发现, APP 使用时长猛增几十倍,可喜可贺。描述得有点简单,不过实际情况确是如此,相关推荐的核心逻辑是这样:
■如果内容的阅读完成率和阅读时长达到某个阈值,即认为当前内容命中了用户的即时兴趣。
■如果命中了用户的即时兴趣,即认为当前内容的某些特征命中了用户的即时兴趣。
■如果当前内容的某些特征命中了用户当前兴趣,即认为用户有更高的可能性去浏览基于这些特征推荐的其他内容。
■如此这般就形成了基于标签的相关推荐场景下的流量莫比斯环。
核心逻辑的关键词就是内容的特征,即标签,命中了用户的即时兴趣,即当前浏览下的兴趣。

4.标签赋能产品
上面几个赋能都是运营相关的,那么产品呢?产品方面有标签露出、关注标签。分别对应的产品有: B 站 APP 的视频详情页有露出相关的标签;什么值得买的标签可以订阅,标签命中的内容如有更新会主动告知用户.

5.标签赋能用户画像和兴趣探索
这里更好玩,用户画像和兴趣与标签系统是基于同一套标签库的,不然怎么样进行用户兴趣和内容推荐的匹配呢,不多解释。好玩的反而是在兴趣探索,为什么?总不能一直给用户推荐相似的内容吧,天天吃龙虾也会腻的。

八.最佳实践3:标签系统的局限和劣势

准确地说是实体标签的局限和劣势。实体标签的定义是:名词,且唯一指代,优点是精准,局限是太精准,故导致实体标签的覆盖率有天花板,现代工程中实体标签的覆盖率大概只能到70%~75%,因为精准,所以局限;同时易导致推荐策略过度收敛。在推荐系统中,实体标签很精准,特征很明显,好处是描述用户兴趣非常准确,有利于提高推荐系统的效果,但容易导致推荐系统判断用户兴趣时变得极其狭隘和过度精准,行话就是过度收敛。由于标签会让推荐越来越收敛,所以在推荐策略中的核心关注点就是保持推荐的精准和兴趣探索的平衡。
■增加负反馈,让用户明确告诉推荐系统不喜欢哪些内容,并且这种负反馈的权重很大,优先级很高。
■ ReRank 层增加强策略,人为约束标签的过度收敛。
■人工运营中,可能会打压部分热门标签的流量或者降低权重。某些时效性很强的标签,比如娱乐圈的那些破事,爆出来后时效性也就那么几天,没必要一直霸着好位置占流量,所以这类标签通常在推荐系统中会被加上一个时间衰减函数,让它们尽快衰减。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/164354.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【C++】:模板进阶

朋友们、伙计们,我们又见面了,本期来给大家解读一下有关C模板进阶的知识点,如果看完之后对你有一定的启发,那么请留下你的三连,祝大家心想事成! C 语 言 专 栏:C语言:从入门到精通 数…

qsort函数使用方法总结

目录 一、qsort函数原型 二、compar参数 三、各种类型的qsort排序 1. int 数组排序 2. 结构体排序 3. 字符串指针数组排序 4. 字符串二维数组排序 四、回调函数 1. 什么是回调函数 2. 为什么要用回调函数? 3. 怎么使用回调函数? 4.下面是…

皮肤性病科专家谭巍主任提出HPV转阴后饮食七点建议

HPV转阴是每一位感染者都期盼的,因为转阴所以健康,只有转为阴性才意味着不具备传染性,从此也不必再害怕将病毒传染给家人的风险,也不必再担忧持续感染而引发的健康风险。总之,HPV转阴是预示感染者恢复健康与否的主要标…

不知道如何制作产品图册的,赶紧收藏住!

产品图册是展示产品外观、功能和特点的重要工具,对于销售和推广产品至关重要。然而,制作一本高质量的产品图册并不是一件容易的事情。如果你没有经验或者不确定如何着手,那么这篇文章将为你提供一些实用的建议和技巧,帮助你轻松制…

AtCoder Beginner Contest 329 题解A~F

A - Spread 输入字符串&#xff0c;字符之间加上空格输出 B - Next 输出数组当中第二大的数 C - Count xxx 统计每个字符出现过的最长长度&#xff0c;再累加即可 #include<bits/stdc.h> #pragma GCC optimize("Ofast") #define INF 0x3f3f3f3f #define I…

Flutter 中数据存储的四种方式

在 Flutter 中&#xff0c;存储是指用于本地和远程存储和管理数据的机制。以下是 Flutter 中不同存储选项的概述和示例。 Shared Preferences&#xff08;本地键值存储&#xff09; Shared Preferences 是一种在本地存储少量数据&#xff08;例如用户首选项或设置&#xff09…

漂亮的pyqt6皮肤 PyOneDark_Qt_Widgets_Modern_GUIPublic

大家先看看界面图&#xff0c;真的很漂亮&#xff1a; github地址&#xff1a;GitHub - Wanderson-Magalhaes/PyOneDark_Qt_Widgets_Modern_GUI 作者还录了教程&#xff1a; TUTORIALS: Tutorial 01: https://youtu.be/QQGlTGYCMg0 Tutorial 02: https://youtu.be/LwKre2proDk…

GMEL:基于地理上下文嵌入的OD流预测

1 文章信息 文章题为“Learning Geo-Contextual Embeddings for Commuting Flow Prediction”&#xff0c;是一篇发表于The Thirty-Seventh AAAI Conference on Artificial Intelligence (AAAI-20)的一篇论文。该论文主要针对交通中OD流预测任务&#xff0c;从地理上下文信息中…

【机器学习基础】正则化

&#x1f680;个人主页&#xff1a;为梦而生~ 关注我一起学习吧&#xff01; &#x1f4a1;专栏&#xff1a;机器学习 欢迎订阅&#xff01;后面的内容会越来越有意思~ ⭐特别提醒&#xff1a;针对机器学习&#xff0c;特别开始专栏&#xff1a;机器学习python实战 欢迎订阅&am…

鸿蒙:实现两个Page页面跳转

效果展示 这篇博文在《鸿蒙&#xff1a;从0到“Hello Harmony”》基础上实现两个Page页面跳转 1.构建第一个页面 第一个页面就是“Hello Harmony”&#xff0c;把文件名和显示内容都改一下&#xff0c;改成“FirstPage”&#xff0c;再添加一个“Next”按钮。 Entry Compone…

⑩⑥ 【MySQL】详解 触发器TRIGGER,协助 确保数据的完整性,日志记录,数据校验等操作。

个人简介&#xff1a;Java领域新星创作者&#xff1b;阿里云技术博主、星级博主、专家博主&#xff1b;正在Java学习的路上摸爬滚打&#xff0c;记录学习的过程~ 个人主页&#xff1a;.29.的博客 学习社区&#xff1a;进去逛一逛~ 触发器 ⑩⑥ 【MySQL】触发器详解1. 什么是触发…

在前端开发中,什么是CDN(Content Delivery Network)?它的作用是什么?

聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 欢迎来到前端入门之旅&#xff01;感兴趣的可以订阅本专栏哦&#xff01;这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…

基于金鹰算法优化概率神经网络PNN的分类预测 - 附代码

基于金鹰算法优化概率神经网络PNN的分类预测 - 附代码 文章目录 基于金鹰算法优化概率神经网络PNN的分类预测 - 附代码1.PNN网络概述2.变压器故障诊街系统相关背景2.1 模型建立 3.基于金鹰优化的PNN网络5.测试结果6.参考文献7.Matlab代码 摘要&#xff1a;针对PNN神经网络的光滑…

牛客网刷题笔记三 寻找第K大+两数之和+合并两个排序的链表+用两个栈实现队列

算法题牛客网NC88 寻找第K大 题目&#xff1a; 思路就是做个排序&#xff0c;要求时间复杂度 O ( n log ⁡ n ) O(n\log n) O(nlogn)&#xff0c;因此选用快排。代码&#xff1a; class Solution:def quickSort(self, a, start, end):if start > end:returnval a[start]…

测试老鸟总结,Web/APP与接口测试测试流程总结,避背黑锅...

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 1、web测试流程 …

集合框架面试题

一、集合容器的概述 1. 什么是集合 集合框架&#xff1a;用于存储数据的容器。 集合框架是为表示和操作集合而规定的一种统一的标准的体系结构。 任何集合框架都包含三大块内容&#xff1a; 对外的接口、接口的实现和对集合运算的算 法。 接口&#xff1a;表示集合的抽象数据…

量化交易:借助talib使用技术分析指标

什么是技术分析&#xff1f; 所谓股票的技术分析&#xff0c;是相对于基本面分析而言的。基本分析法着重于对一般经济情况以及各个公司的经营管理状况、行业动态等因素进行分析&#xff0c;以此来研究股票的价值&#xff0c;衡量股价的高低。而技术分析则是透过图表或技术指标…

低代码在ERP中的理解与应用:提升开发效率与业务灵活性

企业资源规划&#xff08;ERP&#xff09;指通过融合不同部门的信息和流程&#xff0c;提升企业效率、融洽运营的管理体系。ERP系统通过提供一套集成化应用程序&#xff0c;助力企业管理工作流程&#xff0c;包含选购、库存、销售、生产规划等。 低代码&#xff08;Low-Code&a…

网页视频下载工具 iTubeGo mac中文版软件特色

iTubeGo YouTube Downloader mac是一款功能强大的YouTube视频下载工具。 iTubeGo YouTube Downloader mac软件特色 多种格式支持&#xff1a;iTubeGo YouTube Downloader可以将YouTube视频下载为多种常见的视频和音频格式&#xff0c;包括MP4、MP3、AVI、FLV、MOV、WMV等&…

基于猕猴Spike运动解码的不同解码方法性能对比

公开数据集中文版详细描述 参考前文&#xff1a;https://editor.csdn.net/md/?not_checkout1&spm1011.2124.3001.6192神经元Spike信号分析 参考前文&#xff1a;https://blog.csdn.net/qq_43811536/article/details/134359566?spm1001.2014.3001.5501神经元运动调制分析 …