词嵌入(Word Embedding)是一种将单词或短语映射到高维向量空间的技术,使其能够以数学方式表示单词之间的关系。词嵌入能够捕捉语义信息,使得相似的词在向量空间中具有相近的表示。
📌 常见词嵌入方法
-
基于矩阵分解的方法
- Latent Semantic Analysis (LSA)
- Latent Dirichlet Allocation (LDA)
- 非负矩阵分解 (NMF)
-
基于神经网络的方法
- Word2Vec(Google 提出)
- CBOW(Continuous Bag of Words):通过上下文预测目标词
- Skip-gram:通过目标词预测上下文
- GloVe(Stanford 提出)
- 结合全局共现矩阵与局部窗口信息,优化词向量质量
- FastText(Facebook 提出)
- 采用子词(Subword)表示,能更好处理未登录词(OOV, Out of Vocabulary)
- Word2Vec(Google 提出)
-
基于 Transformer 预训练模型的方法
- ELMo(Embeddings from Language Models)
- BERT(Bidirectional Encoder Representations from Transformers)
- GPT(Generative Pre-trained Transformer)
- T5(Text-To-Text Transfer Transformer)