大模型基础:Embedding 实战本地知识问答
Embedding 概述
知识在计算机内的表示是人工智能的核心问题。从数据库、互联网到大模型时代,知识的储存方式也发生了变化。在数据库中,知识以结构化的数据形式储存在数据库中,需要机器语言(如SQL)才能调用这些信息。互联网时代,人们调用搜索引擎获取互联网上的非结构化的知识。而对于大语言模型而言,知识以参数的形式储存在模型中,通过自然语言的 Prompt 问答的方式就可以直接调用这些知识。
语言是离散的符合,自然语言的表示学习,就是将人类的语言表示成更易于计算机理解的方式,尤其在深度学习兴起后,如何在网络的输入层更好的进行自然语言表示,成了值得关注的问题。在机器学习中,embedding 是指将高维度的数据(例如文字、图片、音频)映射到低维度空间的过程。Embedding 可以将文本数据映射成一个数值向量形式,而且语义相近的词,在向量空间上具有相似的位置,从而方便计算机进行处理和分析。比如用 Cosine 距离计算相似度;句子中多个词的 Embedding 相加得到句向量。
Embedding 起源于 Word Embedding,经过多年的发展,已取得长足进步。从横向发展来看,由原来单纯的 Word Embedding,发展成现在的Item Embedding、Entity Embedding、Graph Embedding、Position Embedding、Segment Embedding等