文章目录
- NLTK离线安装
- 1. 获取安装包
- 2. 放置nltk_data文件
- 3. Demo
- 4. 参考链接
关注公众号:『AI学习星球
』
算法学习
、4对1辅导
、论文辅导
或核心期刊
可以通过公众号
或CSDN
滴滴我
nltk
库是python
语言为自然语言
处理提供的一个功能强大,简单易用的函数库,是学习和进行自然语言处理工作的出色工具,这里加少一下nltk模块的安装和简单使用。
由于大多数小伙伴都无法通过
线上安装
,所以这里主要介绍如何离线导入
。
NLTK离线安装
1. 获取安装包
有两种
获取安装包的方式
- 直接在
学习群里
跟老师沟通提供安装包 - 需要在Github上下载
nltk_data-gh-pages.zip
文件,并将文件夹中的packages
文件夹重新命名为nltk_data
2. 放置nltk_data文件
将nltk_data
放置在以下任意一个路径下即可。
Win
- C:\\Users\\…\\
nltk_data
- C:\\
nltk_data
- D:\\
nltk_data
- E:\\
nltk_data
- D:\\Anaconda\\
nltk_data
- D:\\Anaconda\\lib\\
nltk_data
- C:\\Users\\…\\AppData\\Roaming\\
nltk_data
Mac
- /Users/guodaxiong/anaconda3/
nltk_data
3. Demo
下面就可以用nltk愉快的进行自然语言处理编程了。
- 首先测试分词和词性标注
>>> import nltk
>>> sentence = """At eight o'clock on Thursday morning
... Arthur didn't feel very good."""
>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['At', 'eight', "o'clock", 'on', 'Thursday', 'morning',
'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']
>>> tagged = nltk.pos_tag(tokens)
>>> tagged[0:6]
[('At', 'IN'), ('eight', 'CD'), ("o'clock", 'JJ'), ('on', 'IN'),
('Thursday', 'NNP'), ('morning', 'NN')]
- 命名实体识别
>>> entities = nltk.chunk.ne_chunk(tagged)
>>> entities
Tree('S', [('At', 'IN'), ('eight', 'CD'), ("o'clock", 'JJ'),
('on', 'IN'), ('Thursday', 'NNP'), ('morning', 'NN'),
Tree('PERSON', [('Arthur', 'NNP')]),
('did', 'VBD'), ("n't", 'RB'), ('feel', 'VB'),
('very', 'RB'), ('good', 'JJ'), ('.', '.')])
- 语法解析树
>>> from nltk.corpus import treebank
>>> t = treebank.parsed_sents('wsj_0001.mrg')[0]
>>> t.draw()
4. 参考链接
- Github:nltk/nltk_data
- 离线安装NLTK Data
- python nltk库的安装和简单使用
- nltk安装punkt包的MAC系统下离线安装方法
关注公众号:『AI学习星球
』
算法学习
、4对1辅导
、论文辅导
或核心期刊
可以通过公众号
或CSDN
滴滴我