内容安全复习 2 - 网络信息内容的获取与表示

文章目录

  • 信息内容的获取
    • 网络信息内容的类型
    • 网络媒体信息获取方法
  • 信息内容的表示
    • 视觉信息
    • 视觉特征表达
    • 文本特征表达
    • 音频特征表达

信息内容的获取

网络信息内容的类型

  • 网络媒体信息
    传统意义上的互联网网站公开发布信息,网络用户通常可以基于网络浏览器获得。网络媒体、网页信息
  • 网络通讯信息
    互联网用户使用除网络浏览器以外的专用客户端软件,实现与特定点通信或进行点对点通信时所交互的信息。电子邮件、网上聊天

网络媒体信息获取方法

  • 静态媒体发布信息获取
    按信息发布方式,网络媒体信息可以分为直接匿名浏览信息和需身份认证网络信息;
    按网页具体形态可分为静态网页动态网页两种。
  • 基于自然人网络浏览行为模拟的信息获取
    自然人网络浏览行为模拟技术在网络媒体信息获取环节得到广泛应用。
  • 大模型信息获取重点,好好看看
    步骤如下:
    (1)用户提问:可以通过提出问题开始。
    (2)模型评估:基于问题,模型评估能否根据已有知识库回答,否则需要使用浏览器工具。
    (3)使用浏览器工具:如需最新消息,会使用内置的浏览器工具。
    (4)回答用户:将整理好的信息以回答的形式提供给用户。
    (5)反馈和调整:用户可以进行反馈,模型调整搜索策略或解释信息。

信息内容的表示

视觉信息

  • 处理过程
    获取、压缩、传输、重建、处理。
  • 视觉感知器
    柱状细胞、锥状细胞。
    其中锥状细胞对亮度不敏感,在高亮工作;刺激响应快。柱状细胞反之。
  • 三原色
    红、绿、蓝。
  • 计算机视觉信息
    一幅图像可以用矩阵表示,一个像素点对应矩阵中的一个元素。
    在这里插入图片描述
    彩色图像转化成灰度图像: Y = ( R + G + B ) / 3 Y = (R+G+B) / 3 Y=(R+G+B)/3
    对于视频,视频实际是其内容随时间变化的一组动态图像,又叫运动图像或活动图像。

视觉特征表达

图像特征表达是理解图像内容的基础,把图像从非结构化数据变成结构化数据,使得其相关性可以被有效度量。

应用:图像相似度计算(图像检索、匹配)。

  • 颜色特征
    在这里插入图片描述
    首先选择颜色空间,并将颜色空间划分成若干个小的区域,即颜色量化。
    统计其颜色落入每个小区间的像素数目可以得到颜色直方图。
    优点: 计算简单,一定场景下能反映图片内容;缺点:丢失空间信息。如下图示例。
    在这里插入图片描述
  • 纹理特征
    纹理是一种普遍存在的视觉现象,尚无广泛接受的定义。纹理是图像灰度或色彩在空间上的变化或重复。
    (1)局部二值模式(LBP)。
    (2)梯度直方图特征(HOG)。
    (3)尺度不变特征变换(SIFT)。
    (4)后SIFT时代的其他局部特征。

文本特征表达

重点

  • 将词语表达成向量
    首先,我们用 1-of-N Encoding 方法,如下所示。
    在这里插入图片描述
    只有这个方法是不够的。肉眼可见的维数爆炸,词语越多维数越多。因此在这一步后加入了 Word Class 和 Word Embedding 两个步骤,如下。
    在这里插入图片描述
    在 Word Class 中,我们对具有相同特征的词做聚类,将他们分为同一个类(Class),用所属类来表达该词。
    在 Word Embedding 中,我们把每一个词都投影到高维空间上,当然,这个空间的维度远小于第一步 1-of-N Encoding 的维度。因此这实际上是一个降维的过程。
  • 将文本表达成向量
    (1)词频(TF):词频指一个词在文本中出现的次数。通过词频进行特征选择实际上是将某一频率区间外的值去掉从而降维。
    (2)文档频数(DF):指数据集中有多少文本包含某个单词。
    (3)TF-IDF:
    TF = 某个词在文章中的出现次数 / 文章的总词数;
    IDF(逆文档频率)= log(语料库的文档总数 / (包含该词的文档数+1))。
    TF-IDF = TF * IDF。

音频特征表达

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/729095.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据结构_优先级队列(堆)

目录 一、优先级队列 1.1 堆 1.2 PriorityQueue接口 二、模拟实现优先级队列 2.1 初始化 2.2 创建大根堆 (向下调整) 2.3 堆的插入 2.4 堆的删除 2.5 堆排序 总结 一、优先级队列 优先级队列是一种特殊的队列,其出队顺序与入队顺序无关,而与优…

Unet已死,Transformer当立!详细解读基于DiT的开源视频生成大模型EasyAnimate

Diffusion Models视频生成-博客汇总 前言:最近阿里云PIA团队开源了基于Diffusion Transformer结构的视频生成模型EasyAnimate,并且提出了专门针对视频的slice VAE,对于目前基于Unet结构的视频生成最好如SVD形成了降维打击,不论是生…

16s功能注释--PICRUST2的安装及使用

文章目录 安装本地安装conda安装 使用一些报错 安装 本地安装 在github网址下载压缩包:https://github.com/picrust/picrust2/releases/tag/v2.5.2 解压后将bin目录设置到环境变量 conda安装 利用bioconda安装 conda create -n picrust2 -c bioconda -c conda-…

Matlab基础语法:变量和数据类型,基本运算,矩阵和向量,常用函数,脚本文件

目录 一、变量和数据类型 二、基本运算 三、矩阵和向量 四、常用函数 五、脚本文件 六、总结 一、变量和数据类型 Matlab 支持多种数据类型,包括数值类型、字符类型和逻辑类型。掌握这些基本的变量和数据类型,是我们进行数学建模和计算的基础。 数…

网络安全复习笔记

概述 要素 CIA:可用性;完整性;保密性。 可控性;不可否认性;可审查性。 攻击 被动:窃听 - 保密性;监听 - 保密性主动:假冒 - 完整性;重放 - 完整性;改写 -…

数学建模系列(4/4):Matlab建模实战

目录 引言 1. Matlab简介与安装 1.1 Matlab简介 1.2 Matlab的安装 2. Matlab基础操作 2.1 Matlab基础语法和常用命令 2.2 Matlab中的数据类型和数据结构 3. 用Matlab进行建模 3.1 矩阵运算与线性代数 矩阵运算 3.2 Matlab中的绘图功能 绘制2D图形 绘制3D图形 3.3…

中服云产品远程运维系统

中服云产品远程运维系统主要针对设备售后市场服务的管理,利用工业物联网技术,一方面面向设备生产厂商,将分散的经销商、客户、销售出去的设备统一管理;另一方面面向设备使用厂家,实现设备实时运行监控;系统…

【手机号性别查询、姓名查询、年龄查询、要素核验接口】支持高并发查询。

** 最近更新时间:2024-06-21 用户手机号注册实名认证接口,精度高,简化注册用户的认证流程,输入手机号码就可以获得认证结果,适合金融、社交、教育、电商、商户入驻等业务场景,用于简化实名认证流程&#…

AI网络爬虫:用deepseek提取百度文心一言的智能体数据

真实网址:https://agents.baidu.com/lingjing/experhub/search/list?pageSize36&pageNo1&tagId-99 返回的json数据:{ "errno": 0, "msg": "success", "data": { "total": 36, "p…

Ollma本地大模型沉浸式翻译【403报错解决】

最终效果 通过Chrome的 沉浸式翻译 插件,用OpenAI通用接口调用本地的Ollma上的模型,实现本地的大模型翻译文献。 官方文档指导的Ollama的配置:一定要配置环境变量,否则会出现【403报错】

H6901B 2.7-24V36V60V72V80V100V 高效率高精度升压型大功率LED恒流驱动芯片

H6901B是一款高效率高精度升压型大功率LED恒流驱动芯片,它具备多种特性和优势,应用于多种LED照明产品中。 首先,H6901B具有宽范围的输入电压,从2.7V到100V,这使其能够适应不同电压源的应用场景。同时,其高效…

【解决方案】智慧园区解决方案(配套源码)

智慧园区整体解决方案-综合运营管理系统 1. 园区现状与发展机遇 2. 智慧园区愿景 3. 智慧解决方案架构 4. 智慧园区各子系统介绍 5. 智慧园区建设意义 楼宇管理,物业管理,消防管理,巡检管理,门禁管理,停车管理等综合实…

如何手机录屏?2个方法轻松搞定!

随着智能手机的普及和移动互联网的飞速发展,手机录屏已经成为人们在日常生活中经常需要使用的功能。无论是录制游戏精彩瞬间、分享App操作教程,还是保留重要聊天信息,手机录屏都发挥着重要作用。可是你知道如何手机录屏吗?本文将介…

若电路板上的二极管损坏后怎么确定型号呢?

若电路板上的二极管损坏后,还可以看清原来管子的型号,换用一个同型号的二极管即可。若看不清型号或管子未标注型号,一般可以根据该二极管在电路中的作用来代换。电路板上的二极管坏了,如何确定它的型号?。 一般来说看…

Linux 软链接

# 语法 ln -s <文件夹or文件的真实路径> <自定义路径别名> # 例子 ln -s /etc/sysconfig/network-scripts/ifcfg-ens33 ~/ens33

【启明智显产品介绍】Model3C工业级HMI芯片详解专题(一)芯片性能

【启明智显产品介绍】工业级HMI芯片Model3C详解&#xff08;一&#xff09;芯片性能 Model3C 是一款基于 RISC-V 的高性能、国产自主、工业级高清显示与智能控制 MCU&#xff0c;配置平头哥E907&#xff0c;主频400MHz&#xff0c;强大的 2D 图形加速处理器、PNG/JPEG 解码引擎…

AI写作如何助力大学生完成毕业论文?

近年来&#xff0c;随着科技的快速发展&#xff0c;AI已经逐渐渗透到了生活中的方方面面&#xff0c;其中也包含着学术领域。 作为学生党&#xff0c;你是否还在为期末论文&#xff0c;大学生实践报告而发愁&#xff1f; 有了这些AI写作神器&#xff0c;大学生们再也不用在期…

Numpy: np.memmap详细用法

文章目录 0. 引言1. 基本用法2. 参数说明3. 例子3.1 读取内存映射文件3.2 修改内存映射文件 4. 使用场景5. 注意事项 0. 引言 np.memmap 是 NumPy 提供的一种用于内存映射大文件的类&#xff0c;允许大文件不完全加载到内存中&#xff0c;而是通过内存映射的方式部分加载。这在…

还原试卷的软件叫什么?这3款一键还原

还原试卷的软件叫什么&#xff1f;在数字化学习日益普及的今天&#xff0c;学生们在处理试卷时经常面临一个问题&#xff1a;如何高效地将已作答的试卷还原成空白状态以便重复练习&#xff1f;为了解决这一问题&#xff0c;市场上涌现出了多款还原试卷的软件。下面&#xff0c;…

职工管理系统

需求分析 系统需要能够实现对职工信息的插入、删除、查找、修改和排序功能。职工信息包括职工编号、姓名、性别、出生年月、参加工作年月、学历、职务、住址、电话等信息。界面友好&#xff0c;通过菜单实现以上功能&#xff0c;操作简单&#xff0c;能够方便快捷地进行信息管理…