信息检索与数据挖掘 | (八)语言建模的IR

文章目录

  • 📚语言生成模型
  • 📚平滑
    • 🐇线性插值平滑方法(Lelinek-Mercer)
    • 🐇dirichlet 平滑
    • 🐇Vector space(向量空间) vs BM25 vs LM

📚语言生成模型

  • 传统的语言生成模型可以用于识别或生成字符串。如果每个自动机的节点都有一个生成不同此项概率分布,便可以得到一个语言模型。

  • 一个最简单的语言模型等价于一个概率有穷自动机,仅有一个节点组成,只有一个生成不同词项的概率分布,以及停止的概率。从而我们就可以计算一个词序列出现的概率。
    在这里插入图片描述

  • 在ir中,对文档集中的每篇文档d构建其对应的语言模型Md,检索的目标是将文档按照其与查询相关的概率P(d|p)排序
    在这里插入图片描述

    • P(q)是证据,对所有文档都一样,可以忽略,P(d)是先验,往往视为均匀分布,也可以忽略。所以仅需考虑似然P(q|d)是在文档d对应的语言模型下生成q的概率,因此ir中的语言建模方法实际是在对查询的生成过程进行建模
      在这里插入图片描述
    • 等价于:
      在这里插入图片描述

  • 考虑MLE:

在这里插入图片描述

  • MLE(Maximum Likelihood Estimation,最大似然估计)是一种常用的参数估计方法,用于从观测数据中推断出最有可能产生这些观测数据的模型参数。

    • 在MLE中,我们假设观测数据是从一个已知参数化模型生成的,但是我们并不知道真实的参数取值。我们的目标是找到使得观测数据出现的概率最大化的参数取值
    • 步骤

      1. 定义参数化模型:首先,我们需要定义一个参数化模型,该模型描述了观测数据的生成过程。模型可以是概率分布,回归模型或其他类型的模型,具体取决于问题的性质。
      2. 构建似然函数:根据模型的参数化形式,我们可以计算观测数据出现的概率或密度函数,称为似然函数。似然函数是参数的函数,表示给定参数下观测数据出现的可能性。
      3. 最大化似然函数:我们通过最大化似然函数来求解参数的最优值。最大化似然函数等价于寻找使得观测数据出现概率最大的参数取值。通常使用优化算法(如梯度下降、牛顿法或拟牛顿法)来求解最大似然估计。
      4. 参数估计:最大化似然函数后,得到的参数值即为最大似然估计值。这些估计值通常用来描述模型的参数,以便进行预测、推断或其他进一步的分析。
    • 优点:

      • 易于理解和实现
      • 在大样本情况下具有良好的统计性质,例如一致性和渐近正态性
  • 但是当一个query词项未出现时,整体结果均为0,所以要进行平衡smoothing以避免0值的出现,同时平滑也实现了词项权重计算的主要部分。

📚平滑

(平滑一般用加上某个项然后重新归一化)

🐇线性插值平滑方法(Lelinek-Mercer)

  • 方法分析:在一般的参照概率分布中,文档中未出现的查询项的概率在某种程度上接近但是不可能超过在整个文档集中偶然出现的概率,即如果tf=0,那么P(t|M)<=cft/T=P(T|Mc),其中cft是t在整个文档集的出现次数,T是所有文档集中词条的个数。用上界来近似

  • 函数公式
    在这里插入图片描述

  • 将二者进行线性插值,将基于文档的多项式分布和基于全部文档集估计出的多项式分布结合⭐️。

    在这里插入图片描述

  • 参数分析

    • λ \lambda λ较高时适用于类连词搜索,倾向于检索出的文档包含所有query词;
    • λ \lambda λ较低时,更适合长检索
    • 正确的选择超参的取值很关键, λ \lambda λ越小越平滑

🐇dirichlet 平滑

  • 函数公式
    在这里插入图片描述

  • 将从全部文档集中获得的语言模型看成贝叶斯更新过程的一个先验分布

  • 参数分析

    • α \alpha α决定了先验的影响有多强, α \alpha α越大越平滑
    • dirichlet分布更适合关键词查询,而Lelinek-Mercer更适合长查询
    • 两个模型都对平滑参数非常敏感

🐇Vector space(向量空间) vs BM25 vs LM

  • 数学模型:BM25和LM都基于概率模型,而向量空间是基于相似度,是几何代数
  • 长度归一化:向量空间是余弦归一;LM:概率本质上就是归一的;BM25:通过调节参数可以优化长度归一化
  • tf:都在三个模型中直接使用
  • idf:BM25和向量空间都直接使用;LM是将tf和cf融合,有效的近似idf
  • cf、df:LM用到了cf,而BM25和向量空间都只使用了df

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/341806.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

南京观海微电子---时序分析基本概念(二)——保持时间

1. 概念的理解 以上升沿锁存为例&#xff0c;保持时间&#xff08;Th&#xff09;是指在触发器的时钟信号上升沿到来以后&#xff0c;数据稳定不变的时间。如下图所示&#xff0c;一个数据要在上升沿被锁存&#xff0c;那么这个数据需要在时钟上升沿到来后的保持时间内保持稳定…

展会日记:ICCAD2023,Samtec连接器无处不在

【序言】 “作为重要的电子元器件&#xff0c;连接器在如今的数字与现实世界中&#xff0c;扮演了不可或缺的角色。Samtec作为全球知名的连接器厂商&#xff0c;在芯片到板、板到板、射频、光模块等领域都有着卓越表现~ 今年&#xff0c;我们更是将这种存在感在2023 ICCAD上&a…

Nginx 基础使用

目录结构 进入Nginx的主目录我们可以看到这些文件夹 client_body_temp conf fastcgi_temp html logs proxy_temp sbin scgi_temp uwsgi_temp其中这几个文件夹在刚安装后是没有的&#xff0c;主要用来存放运行过程中的临时文件 client_body_temp fastcgi_temp proxy_temp scg…

uniapp中打包Andiord app,在真机调试时地图以及定位功能可以正常使用,打包成app后失效问题(高德地图)

踩坑uniapp中打包Andiord app&#xff0c;在真机调试时地图以及定位功能可以正常使用&#xff0c;打包成app后失效问题_uniapp真机调试高德地图正常 打包apk高德地图就不加载-CSDN博客 问题&#xff1a; 目前两个项目&#xff0c;一个项目是从另一个项目里面分割出来的一整套…

华为云磁盘性能指标(参考)

MD[华为云磁盘性能指标(参考)] 云硬盘&#xff08;Elastic Volume Service, EVS&#xff09; 根据性能&#xff0c;磁盘可分为极速型SSD V2、极速型SSD、通用型SSD V2、超高IO、通用型SSD、高IO、普通IO。 性能指标(参考)&#xff0c;测速说明&#xff1a;操作系统-windows …

共襄Agent智能体盛举,实在智能2024生态伙伴大会杭州站圆满收官!

1月19日&#xff0c;以“实在Agent智能体”为主题的「2024实在智能生态伙伴大会&#xff08;杭州站&#xff09;」在杭州人工智能小镇隆重启幕&#xff01; 中国电信/联通/中海油等数十家央企子公司领导代表、天翼数科/华为/浪潮/统信/贝锐/vivo集团/新华三/中软国际/中投创展/…

华为AC+FIT AP组网配置

AC配置 vlan batch 100 to 101dhcp enableip pool apgateway-list 192.168.100.254 network 192.168.100.0 mask 255.255.255.0 interface Vlanif100ip address 192.168.100.254 255.255.255.0dhcp select globalinterface GigabitEthernet0/0/1port link-type trunkport trun…

Flutter 自定义AppBar实现滚动渐变

1、使用ListView实现上下滚动。 2、使用Stack&#xff1a;允许将其子部件放在彼此的顶部&#xff0c;第一个子部件将放置在底部。所以AppBar&#xff0c;写在ListView下面。 3、MediaQuery.removePadding&#xff1a;当使用ListView的时候发现&#xff0c;顶部有块默认的Padd…

【蓝桥杯冲冲冲】排队接水--贪心算法巩固 (≧∇≦)

蓝桥杯备赛 | 洛谷做题打卡day15 文章目录 蓝桥杯备赛 | 洛谷做题打卡day15排队接水题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 提示思路 题解代码我的一些话 排队接水 题目描述 有 n n n 个人在一个水龙头前排队接水&#xff0c;假如每个人接水的时间为 T i T_…

使用torch实现RNN

在实验室的项目遇到了困难&#xff0c;弄不明白LSTM的原理。到网上搜索&#xff0c;发现LSTM是RNN的变种&#xff0c;那就从RNN开始学吧。 带隐藏状态的RNN可以用下面两个公式来表示&#xff1a; 可以看出&#xff0c;一个RNN的参数有W_xh&#xff0c;W_hh&#xff0c;b_h&am…

Linux如何将文件或目录打成rpm包? -- fpm打包详解

&#x1f468;‍&#x1f393;博主简介 &#x1f3c5;云计算领域优质创作者   &#x1f3c5;华为云开发者社区专家博主   &#x1f3c5;阿里云开发者社区专家博主 &#x1f48a;交流社区&#xff1a;运维交流社区 欢迎大家的加入&#xff01; &#x1f40b; 希望大家多多支…

关于大模型学习中遇到的4

来源&#xff1a;网络 相关学习可查看文章&#xff1a;Transformer and Pretrain Language Models3-4​​​​​​​ 什么是MLP? MLP是多层感知器&#xff08;Multilayer Perceptron&#xff09;的缩写&#xff0c; 多层感知机&#xff08;MLP&#xff09;是一种人工神经网…

Tensorflow2.0笔记 - tensor的合并和分割

主要记录concat,stack,unstack和split相关操作的作用 import tensorflow as tf import numpy as nptf.__version__#concat对某个维度进行连接 #假设下面的tensor0和tensor1分别表示4个班级35名同学的8门成绩和两个班级35个同学8门成绩 tensor0 tf.ones([4,35,8]) tensor1 tf…

基于SpringBoot Vue医院门诊管理系统

大家好✌&#xff01;我是Dwzun。很高兴你能来阅读我&#xff0c;我会陆续更新Java后端、前端、数据库、项目案例等相关知识点总结&#xff0c;还为大家分享优质的实战项目&#xff0c;本人在Java项目开发领域有多年的经验&#xff0c;陆续会更新更多优质的Java实战项目&#x…

[zookeeper] SASL(Simple Authentication and Security Layer) 用户名密码认证配置

使用zookeeper zkCli.sh 连接 zookeeper服务时&#xff0c;默认裸连&#xff0c;晓得ip与端口之后即可连接zookeeper服务&#xff0c;本文使用SASL 用户名密码配置服务端与客户端&#xff0c;在zkCli连接前&#xff0c;服务端配置xxxjaas.conf保存用户名密码&#xff0c;客户端…

【无标题】vue自定义表单验证的时候报错TypeError: callback is not a function

今天遇到一个奇怪的bug 我在使用ant-design-vue组件库自定义表单验证的时候出现的 在ant-design-vue组件库里面定义的自定义校验规则是这样的validator 在网上找了很多资料里面不是说 1.检查自定义函数是否有问题 2.检查校检字段信息 可是我两个都看了并没有问题 但是还是一直…

C# 控制台进度条

最简单 namespace ProcessStu01 {internal class Program{static void Main(string[] args){for (int i 1; i < 100; i){Console.Write("\r{0,3}%",i);Thread.Sleep(50);}}} }第三方库 https://github.com/Mpdreamz/shellprogressbar using ShellProgressBar…

突发!边缘云领域或迎新玩家:ST同洲拟收购靠谱云,行业格局或将重塑

免责声明&#xff1a;本文所提供的信息及观点仅供边缘计算资讯讨论之用&#xff0c;不构成对任何人的投资建议。投资行为涉及风险&#xff0c;投资者应自行进行充分的市场调研和风险评估。入市投资需谨慎&#xff0c;切勿依赖本文内容作出任何投资决策。 边缘计算社区注意到上市…

【进口控制器替代】Intel Atom + Kintex-7 70T FPGA,4槽CompactRIO控制器

1.30 GHz双核CPU&#xff0c;2 GB DRAM&#xff0c;4 GB存储容量&#xff0c;-20 C - 55 C&#xff0c;Kintex-7 70T FPGA&#xff0c;4槽CompactRIO控制器 cRIO-9040是一款坚固耐用且可定制的高性能嵌入式控制器&#xff0c;搭载了Intel Atom双核处理&#xff0c;提供NI-DAQmx…

【LeetCode力扣】面试题 17.14. 最小K个数(top-k问题)

目录 1、题目介绍 2、解题思路 2.1、优先队列解法 2.2、top-k问题解法 1、题目介绍 原题链接&#xff1a;面试题 17.14. 最小K个数 - 力扣&#xff08;LeetCode&#xff09; 题目要求非常简短&#xff0c;也非常简单&#xff0c;就是求一组数中的k个最小数。 2、解题思路 …