NLP 笔记:LDA(训练篇)

1 前言:吉布斯采样

吉布斯采样的基本思想是,通过迭代的方式,逐个维度地更新所有变量的状态

1.1 举例 收拾东西

  • 假设我们现在有一个很乱的屋子,我们不知道东西应该放在哪里(绝对位置),但知道哪个和哪个应该比较近(相对位置)

我们每次选取一个物品,假设其他的位置都是正确的,那么这个应该放在哪个位置

比如:选取一个衣架,把他放到另一个衣架边上

衣服放到裤子边上

一步一步来,直到东西已经正确放置

2 LDA 的两个原则

一个文章中单词的主题越集中越好

同一个单词的主题越集中越好

那the这种词怎么办?这种不重要的词舍弃掉

3 LDA 目标

有了LDA的两个基本原则后,LDA的目标可以变为(颜色代表topic):

4 LDA 更新过程

首先随机给每个单词染色

对于第一个单词ball,假设其他单词颜色是正确的

首先看同一个文件里面,其他单词的颜色

然后看看同一个单词,在所有文件里面出现的颜色

他们的乘积就是对应的概率权重

但是,我们不希望出现绝对的零,我们对所有的权重加一个很小的值:

然后以乘积结果作为权重,采样,采到哪个,就染成什么颜色

以此类推,一个一个重新染色所有的单词

那怎么知道应该染成什么颜色呢?这个是人为做的

参考内容:

Training Latent Dirichlet Allocation: Gibbs Sampling (Part 2 of 2) (youtube.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/482233.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

汉字之美,拼音之韵

title: 汉字之美,拼音之韵 date: 2024/3/23 18:41:56 updated: 2024/3/23 18:41:56 tags: 汉字拼音文化语言美学传承中文 1. 汉字之美 汉字作为中文的书写形式,承载着丰富的文化内涵。每一个汉字都蕴含着历史、传统和智慧,是中华文明的瑰宝…

关于Java发邮件提醒写周报实现(一)环境搭建

背景 由于公司每周都要写周报,而日常工作很忙,所以很容易忘记这件事件,因此开发一个写周报提醒的机器人,进行特定时间提醒是时候写周报了。 有一个大前提,本技术实现,本着不开通任何收费服务的态度去考察使…

JetBrains CLion 2022 for Windows:C++开发者的强大助手,引领编程新风尚

在数字化浪潮席卷全球的今天,编程语言的多样性和复杂性日益凸显。而在众多编程语言中,C以其独特的优势和广泛的应用领域,成为众多开发者的首选。JetBrains CLion 2022,作为一款专为C开发者打造的集成开发环境(IDE&…

深度学习(二)安装tensorflow深度学习框架

0.前言 速度更新新的一期,快夸奖我。前情提要这是我在window10系统下完成的操作,并不是ubuntu,所以有相应的区别。 1.安装tensorflow和d2l 这里默认大家已经安装好了anconda或者miniconda并且以及创建了虚拟环境。 conda create -n huahuaji…

Cesium安装部署运行

目录 1.简介 2.Cesium项目下载 3.Cesium项目运行 4.cesium运行 1.简介 Cesium是国外一个基于JavaScript编写的使用WebGL的地图引擎。Cesium支持3D,2D,2.5D形式的地图展示,可以自行绘制图形,高亮区域,并提供良好的触摸支持,且支…

(一)基于IDEA的JAVA基础6

赋值运算符 int a10;是把10赋值给了变量a, 那这里有两组数值: int num11; int num22; 想把两个数值互关该怎么办呢, 理想状态我们直接num1num2;num2num1;看一下结果: 全变成了2&#xff0…

【计算机网络】常见面试题汇总

文章目录 1.计算机网络基础1.1网络分层模型/OSI七层模型是什么?1.2TCP/IP四层模型是什么?每一层的作用?1.2.1TCP四层模型?1.2.2为什么网络要分层? 1.2常见网络协议1.2.1应用层常见的协议1.2.2网络层常见的协议 2.HTTP2…

如何查看局域网内所有的ip和对应的mac地址

1、windows下查看 方法一、 按快捷键“winr”打开运行界面,输入“CMD”回车: 输入以下命令: for /L %i IN (1,1,254) DO ping -w 1 -n 1 192.168.0.%i 其中 192.168.0.%i 部分要使用要查询的网段,比如 192.168.1.%i 192.168.137.%i 172.16.2…

git 上传文件夹至远端仓库的方法

上传的远端git可以是gitlab、github、gitee、gitblit或者gitCode等等 以下以GitHub为例说明: 1、登录GitHub网站(账户/密码) 2、创建一个新的空白项目(或者已有的项目)hello-world 分支是master ,这里默认即…

【c++初阶】C++入门(下)

✅✅✅✅✅✅✅✅✅✅✅✅✅✅✅✅ ✨✨✨✨✨✨✨✨✨✨✨✨✨✨✨✨ 🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿&#x1…

Spark与flink计算引擎工作原理

Spark是大批量分布式计算引擎框架,scale语言开发的,核心技术是弹性分布式数据集(RDD)可以快速在内存中对数据集进行多次迭代,支持复杂的数据挖掘算法及图形计算算法,spark与Hadoop区别主要是spark多个作业之…

试题E(求阶乘)

解题思路: 写不出来,看的题解。要想凑个10,就必须要有一个2和5,但是明显在一个阶乘里,因子为2的数量一定多余5的数量,所以计算5的数量。 解题代码: import java.util.Scanner; ​ public clas…

题目:异或森林(蓝桥OJ 3400)

问题描述&#xff1a; 解题思路&#xff1a; 一个数也可以看作是一段区间&#xff0c;当该区间的异或和为完全平方数时则符合题意。 我们需要注意枚举的完全平方的上限。 异或前缀和减小时间复杂度。 题解&#xff1a; #include <bits/stdc.h> using namespace std; usi…

SpringBoot整合MyBatisPlus实现增删改查

✅作者简介:大家好,我是Leo,热爱Java后端开发者,一个想要与大家共同进步的男人😉😉🍎个人主页:Leo的博客 💞当前专栏: 循序渐进学SpringBoot ✨特色专栏: MySQL学习 🥭本文内容:SpringBoot整合MyBatisPlus实现增删改查 📚个人知识库: Leo知识库,欢迎大家…

Aztec的客户端证明

1. 引言 隐私保护 zk-rollup 的证明生成与通用 zk-rollup 的证明生成有很大不同。原因是给定交易中存在特定数据&#xff08;由私有函数处理&#xff09;&#xff0c;我们希望保持完全私有。在本文中&#xff0c;我们探讨了用于证明私有函数正确执行的客户端证明生成&#xff…

6.3 BP神经网络

在多层感知器被引入的同时&#xff0c;也引入了一个新的问题&#xff1a;由于隐藏层的预期输出并没有在训练样例中给出&#xff0c;隐藏层结点的误差无法像单层感知器那样直接计算得到。 为了解决这个问题&#xff0c;反向传播&#xff08;BP&#xff09;算法被引入&#xff0…

限时免费!Unity 资源商店威尔房间精品资源等你来领!

Unity 资源商店威尔房间精品资源分享 资源介绍资源特色免费领取 Unity 商店资源&#xff1a;Will’s Room Environment, Dormitory Room Environment 免费获取。 资源介绍 好消息来啦&#xff01;Unity 资源商店的威尔房间精品资源正在限时免费中&#xff01;这是一个非常受欢迎…

用 Appium 搭建自动化测试环境

基于Appium框架的自动化开发环境搭建 万事开头难&#xff0c;自动化开发环境的搭建会比较麻烦。以下详细讲解如何在mac os操作系统下&#xff0c;搭建基于Appium的自动化开发环境。 1、Android开发环境搭建&#xff08;JDK/SDK/AndroidStudio&#xff09;请自行百度,所需安装包…

同义词的作用

oracle从入门到总裁:​​​​​​https://blog.csdn.net/weixin_67859959/article/details/135209645 同义词 同义词本质上属于近义词的概念&#xff0c;它是表、索引、视图等模式对象的一个别名 通过为模式对象创建同义词&#xff0c;可以隐藏对象的实际名称和所有者信息&a…

懒人必备!轻松小窍门,MacBook如何删除app?ccleaner怎么卸载

MacBook凭借其优雅的设计、强大的性能以及macOS系统的高效率&#xff0c;成为了许多人的首选电脑。然而&#xff0c;与Windows系统不同&#xff0c;macOS在删除应用程序方面略显复杂&#xff0c;这让不少用户感到困惑。特别是当我们想要释放磁盘空间&#xff0c;或是彻底清除不…