百度“文心•跨模态大模型”又有新动态,支持内容分析时输出自定义标签库

大模型真正的价值在于应用。

一、基本概念

AI大模型具有强大的表征学习能力,能够在海量数据中提取有用的特征,为各种复杂任务提供解决方案。例如GPT-4o、BERT等模型的出现,不仅展示了大规模参数和复杂计算结构的优势,还在自然语言处理、图像识别等领域取得了令人瞩目的成果。同时,多模态大模型发展也为人工智能技术的多领域融合应用提供了可能。

1.跨模态大模型

跨模态大模型(Cross-Modal Large Models),是一种能够处理和理解来自不同模态(如文本、图像、音频、视频等)的数据,并在这些模态之间进行转换、关联和推理的深度学习模型。为了捕捉和表示各种模态数据中的丰富信息,这些模型通常具有庞大的参数规模和复杂的网络结构。

随着深度学习技术的不断发展和计算能力的提升,跨模态大模型的性能和效果越来越好,已经被广泛地投入使用。跨模态大模型可以实现图像描述生成、视觉问答、图像检索等任务,有效地关联和融合信息,为用户提供更加灵活便捷的检索方式。除此之外,跨模态大模型经常用于分析多媒体内容,如视频、音频等,提取其中的关键信息和特征。

2.内容分析

本文介绍的是“媒体内容分析”。它主要利用视觉、语音、知识图谱等AI技术,对视频和图片进行结构化分析,帮助平台实现个性化内容推荐,提升用户检索体验,促使业务有效转化。

百度的媒体内容分析MCA(Media Content Analysis) 借助百度积累的海量级数据,针对视频场景进行声音、人脸、图像、文字多维度分析,输出内容的泛标签,可以达到最优的识别效果。

3.结构化标签

结构化标签是一种用于明确标识和分类内容的标记形式。它不仅能帮助人类更好地理解内容,还可以让机器(如搜索引擎、自动化工具等)解析和索引信息,更准确地理解文本含义和上下文信息,提高任务处理效率,从而提高内容的可访问性,改善观众的搜索体验。

结构化标签通常遵循某种标准或规范,如HTML5的语义化标签(如<header>, <footer>, <article>, <section>等)、微数据(Microdata)、RDFa(Resource Description Framework in Attributes)或JSON-LD(JavaScript Object Notation for Linked Data)等。

4.自定义文心标签

当系统中已有的标签无法满足实际需求时,只需在文心标签库里输入“标签名称+提示词”的文本,系统就能为视频、图片打上对应的标签。这个能力的实现,使用了百度“文心•跨模态大模型”,因此通过这种方式打出的标签,被称为“文心标签”。

百度的内容分析系统,支持“系统内置文心标签”和“自定义文心标签”。前者由内容分析产品官方团队维护,用户可在模板中配置是否开启;后者由用户自主维护,需要用户手动创建标签库,并将其绑定在模板上。

二、超详细实操指南

登录百度智能云官网、进入产品页面后,点击分析管理>自定义库管理>自定义文心标签库,进入自定义文心标签库页。

Step 1 确定标签内容

根据自身的业务需求,梳理好期望系统输出的标签。我们推荐在以下场景内,使用自定义文心标签功能:

  • 自然场景标签:如“暴雪天”“森林”“冰川”“极光”“星空”等自然场景。

  • 人文场景标签:如“演出活动”“博物馆”“握手”“龙舟比赛”等社会文化生活中常见的场景、活动、动作。

  • 常见实体标签:如“滑板”“蛋糕”“飞机”“二维码”“长城”等物体、地标。

Step 2 创建文心标签库

进入自定义库管理>文心标签库页面,点击“创建文心标签库”按钮,创建库。每个用户最多可创建3个库,单个库最多支持300个标签。

Step 3 添加标签与提示词

创建完自定义文心标签库后,进入标签库编辑页。点击“添加标签”,即可添加标签与提示词。

3.1 什么是提示词

标签是用户期望系统为图片、视频内容打上的标签,提示词是系统打标签的参考依据。

例如,“冬季运动”为标签,“滑冰、滑雪、冰壶、雪车”为提示词。系统在进行内容分析的过程中,如果发现某个图片或视频的画面内容与提示词一致,就会为其打上对应的标签。

3.2 怎么写提示词

如果标签可以概括提示词内涵,可以直接使用标签作为“提示词”,如“极光”。为了保证召回的效果,也可以使用近义词撰写多个提示词,如“舞台”。

如果标签涵盖的场景较为复杂,提示词要细化不同的场景。如标签“救援”“婚纱照”。

3.3 标签验证

为每个标签添加提示词后,可使用“标签验证”功能,检验提示词是否合适,以确保系统根据提示词匹配的图片与提示词表达的内涵一致。如遇到不一致的情况,可对提示词进行调整。

如“红包”这个标签,本意是想召回在线的各类红包营销活动、红包提示,但进行“标签验证”后发现,系统召回了“红色的手提包”。为了避免系统对红包产生歧义、以至在后续使用过程中,给很多图片错误打上“红包”标签,可以将提示词改写为“电子红包画面”“电子红包”“电子红包弹窗”。

修改提示词前的标签验证结果,如下图:

修改提示词后的标签验证结果,如下图:

类似的例子还有标签“平板”,本意是指平板电脑,提示词只写“平板”,召回的内容不符合预期,改为“平板电脑”后,与预期一致。

修改提示词前的标签验证结果,如下图:

修改提示词后的标签验证结果,如下图:

3.4 标签阈值

系统支持输入0.26-0.35之间的两位小数作为标签阈值,默认阈值为“0.32”。只有“置信度”大于阈值的标签,才会被输出。阈值将直接影响图片打标签的严格程度。

  • 阈值较低(如0.26或0.27):意味着打标签规则相对宽松,图片更容易被打上当前标签。

  • 阈值较高(如0.34或0.35):意味着打标签规则更加严格,只有高度符合提示词描述的图片才会被打上当前标签,因此被打上标签的图片数量可能会减少。

当阈值设定好之后,在“标签验证”时,也只有“置信度”大于阈值的图片,才会被召回,且最多可以召回20张图片。

Step 4 将标签库绑定至模板

编辑好标签和提示词后,可以在视频分析模板、图片分析模板的“自定义文心标签”项下,绑定对应的标签库。

视频分析模板:

图片分析模板:

Step 5 开始使用

通过API接口或内容分析产品控制台,选择已经绑定好文心标签库的模板,发起“图片内容分析”“视频内容分析”,验证内容打标结果是否符合预期。如与预期不符,可增加或修改提示词。

图片内容分析:

视频内容分析:

三、总结

人工智能“百模大战”已经开启,借助大模型能力满足业务的自定义需求,已经成为大势所趋。文心跨模态大模型和自定义文心标签,突破了应用场景、产业生态、技术成本的限制,呈现出了蓬勃的生机与活力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/800088.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Android Studio - adb.exe已停止运作的解决方案

adb.exe 是Android Debug Bridge 的缩写&#xff0c;它是Android SDK 中的一个调试工具&#xff0c;允许开发者通过命令行界面与设备进行交互&#xff0c;执行各种操作&#xff0c;如运行设备的shell、管理模拟器或设备的端口映射、在计算机和设备之间上传/下载文件、将本地APK…

如何申请抖音本地生活服务商?3种方式优劣势分析!

随着多家互联网大厂在本地生活板块的布局力度不断加大&#xff0c;以抖音为代表的头部互联网平台的本地生活服务商成为了创业赛道中的大热门&#xff0c;与抖音本地生活服务商怎么申请等相关的帖子&#xff0c;更是多次登顶创业者社群的话题榜单。 就目前的市场情况来看&#x…

微信小程序,订阅消息

微信小程序&#xff0c;订阅消息&#xff0c;完整流程 1.选择需要的模版 2.前端调用订阅消息 注&#xff1a;tmplIds&#xff1a;模板ID模版id,这里也可以选多个 wx.requestSubscribeMessage({tmplIds: [7UezzOrfJg_NIYdE1p*******],success (res) { console.log(res);wx.g…

为什么要使用加密软件?

一、保护数据安全&#xff1a;加密软件通过复杂的加密算法对敏感数据进行加密处理&#xff0c;使得未经授权的人员即使获取了加密数据&#xff0c;也无法轻易解密和获取其中的内容。这极大地提高了数据在存储、传输和使用过程中的安全性。 二、遵守法律法规&#xff1a;在许多国…

axios 下载大文件时,展示下载进度的组件封装——js技能提升

之前面试的时候&#xff0c;有遇到一个问题&#xff1a;就是下载大文件的时候&#xff0c;如何得知下载进度&#xff0c;当时的回复是没有处理过。。。 现在想到了。axios中本身就有一个下载进度的方法&#xff0c;可以直接拿来使用。 下面记录一下处理步骤&#xff1a; 参考…

一款好用的特殊字符处理工具

跟mybatis代码的时候&#xff0c;偶然发现的一款特殊字符处理工具java.lang.StringTokenizer。平常&#xff0c;我们看到的mybatis mapper.xml里面各种换行各种缩进&#xff0c;但日志文件里面的sql都是整整齐齐的。没有换行符&#xff0c;缩进等。就是利用该工具做的格式化处理…

Web前端知识视频教程分享

资料下载地址: https://545c.com/f/45573183-1323561488-e4957b?p7526 (访问密码: 7526)

《前端开发实战 · videojs 视频需求开发》

&#x1f4e2; 大家好&#xff0c;我是 【战神刘玉栋】&#xff0c;有10多年的研发经验&#xff0c;致力于前后端技术栈的知识沉淀和传播。 &#x1f497; &#x1f33b; CSDN入驻不久&#xff0c;希望大家多多支持&#xff0c;后续会继续提升文章质量&#xff0c;绝不滥竽充数…

026-GeoGebra中级篇-曲线(2)_极坐标曲线、参数化曲面、分段函数曲线、分形曲线、复数平面上的曲线、随机曲线、非线性动力系统的轨迹

除了参数曲线、隐式曲线和显式曲线之外&#xff0c;还有其他类型的曲线表示方法。本篇主要概述一下极坐标曲线、参数化曲面、分段函数曲线、分形曲线、复数平面上的曲线、随机曲线、和非线性动力系统的轨迹&#xff0c;可能没有那么深&#xff0c;可以先了解下。 目录 1. 极坐…

docker学习笔记-03

docker学习笔记 ---每特教育 docker命令 1.docker images 镜像缓存 docker images 镜像缓存 REPOSITORY 存储库名称 Tag 镜像的标签 不写版本号码 默认下载最新latest镜像 IMAGE ID 镜像id CREATED 创建时间 SIZE 大小 docker images 查看本地镜像…

【常见开源库的二次开发】基于openssl的加密与解密——Base的编解码(二进制转ascll)(二)

目录&#xff1a; 目录&#xff1a; 一、 Base64概述和应用场景 1.1 概述 1.2 应用场景 二、Base16 2.1 Base16编码 2.2 Base16编解码 三、Base64 四、OpenSSL BIO接☐ 4.1 Filter BIOs&#xff1a; 4.2 Source/Sink BIOs&#xff1a; 4.3 应用场景&#xff1a; 4.4 具体使用&…

平替ChatGPT的多模态智能体来了

在人工智能领域&#xff0c;多模态技术的融合与应用已成为推动技术革新的关键。今天&#xff0c;我们用智匠AI实现了完全由国产模型驱动的多模态智能体——智酱v0.1.0&#xff0c;它不仅能够媲美ChatGPT的多模态能力&#xff0c;更在联网搜索、图片识别、画图及图表生成等方面展…

EMQX开源版安装

一、EMQX是什么 EMQX 是一款开源的大规模分布式 MQTT 消息服务器&#xff0c;功能丰富&#xff0c;专为物联网和实时通信应用而设计。EMQX 5.0 单集群支持 MQTT 并发连接数高达 1 亿条&#xff0c;单服务器的传输与处理吞吐量可达每秒百万级 MQTT 消息&#xff0c;同时保证毫秒…

flutter实现语言的国际化

目录 前言 一、GetX实现国际化(推荐) 1.安装Getx 2.创建国际化的文件 3.使用国际化字符串 4.配置GetMaterialApp 5.更改语言 6.系统语言 ​编辑 7.原生工程配置 1.iOS工程配 1.打开iOS工程&#xff0c;在Project的info里面添加语言 2.创建String File文件 2.andr…

vi 编辑器快捷生成 main 函数和基本框架

step1: 执行 sudo vi /etc/vim/vimrc &#xff08;修改vimrc需要管理员权限&#xff1a;sudo&#xff09; step2:输入用户密码&#xff0c;回车, 编辑vimrc文件 step3:在尾行输入以下代码&#xff08;可复制&#xff09; map mf i#include<stdio.h><ESC>o#includ…

uniapp 实现上传文件的功能

上传单个文件 <script setup>const handleUploadClick () > {console.log("上传文件")uni.chooseImage({success: (chooseImageRes) > {const tempFilePaths chooseImageRes.tempFilePaths;console.log("用户选择的图片&#xff1a;", temp…

数据结构(复杂度)

复杂度 算法在编写成可执行程序后&#xff0c;运⾏时需要耗费时间资源和空间(内存)资源。因此衡量⼀个算法的好 坏&#xff0c;⼀般是从时间和空间两个维度来衡量的&#xff0c;即时间复杂度和空间复杂度。 时间复杂度主要衡量⼀个算法的运⾏快慢&#xff0c;⽽空间复杂度主要…

VsCode 与远程服务器 ssh免密登录

首先配置信息 加入下列信息 Host qb-zn HostName 8.1xxx.2xx.3xx User root ForwardAgent yes Port 22 IdentityFile ~/.ssh/id_rsa 找到自己的公钥&#xff0c;不带pub是私钥&#xff0c;打死都不能给别人。复制公钥 拿到公钥后&#xff0c;来到远程服务器 vim ~/.ss…

vue的学习--day1

一、软件的安装 首先&#xff0c;安装vscode,这个安装好像没有什么需要注意的点&#xff0c;如果不放心的话就网上找个博客&#xff0c;跟着步骤安装即可。 安装完成之后&#xff0c;在组件&#xff08;下图&#xff09;中安装相应的插件。首先建议英文和我一样不好的&#x…

buuctf-web

先输入127.0.0.1查找本地 得到网页目录&#xff0c;再输入127.0.0.1|ls查找下一级 得到php文件&#xff0c;127.0.0.1 | ls /返回上级目录 127.0.0.1 | cat /flag得到flag