一、说明
tf-idf是个可以提取文章关键词的模型;他是基于词频,以及词的权重综合因素考虑的词价值刻度模型。一般地开发NLP将包含三个层次单元:最大数据单元是语料库、语料库中有若干文章、文章中有若干词语。这样从词频上说,就有词在文章的频率,词在预料库的频率,文章在预料库的频率等概念,合理用这些概念,提取词的真实价值,起到提取关键词的目的。
二、TF-IDF基本概念
2.1 预料库、文章、单词的关系
一般地开发NLP将包含三个层次单元:最大数据单元是语料库、语料库中有若干文章、文章中有若干词语。这里先对这个数据结构进行说明:
- 语料库:预料库由海量的文章组成,并且各领域的文章的分布不能太偏。
- 文章:每个文章都属于一个领域,不同领域的文章高频高频词汇是不同的。
- 词汇:每个文章都由词汇构成,每个词汇的出现频率可以用对应直方图表示。
2.2 什么是tf,什么是idf
假设文库中有两本书《金陵税负考》、《宇宙能量分析》词频高在文章中往往是停用词,“的”,“是”,“了”等,这些在文档中最常见但对结果毫无帮助、需要过滤掉的词,用TF可以统计到这些停用词并把它们过滤。当高频词过滤后就只需考虑剩下的有实际意义的词。
但这样又会遇到了另一个问题,我们可能发现"税收&