目录
区别
hanlp 代码使用
pyhanlp 代码使用
在线体验:命名实体识别 | 在线演示
区别
- hanlp:是 githun 官方文档提供的使用方法,也就是在线的,调用 api 的方式去实现的,可以自己申请 token,接口分为 RESTful 轻量级,native 海量级
GitHub - hankcs/HanLP: 中文分词 词性标注 命名实体识别 依存句法分析 成分句法分析 语义依存分析 语义角色标注 指代消解 风格转换 语义相似度 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁转换 自然语言处理
- pyhanlp:为 hanlp 的一个封装,可以理解为离线的,不需要调 api
Hanlp、pyhanlp 的区别是什么? - #2 由 Viserion - 综合讨论 - HanLP中文社区
hanlp 代码使用
使用它的话,可能不能链科学上网,要不然连不上,我切断后就正常了,要是什么任务,点对应任务链接,有示例调用代码的:
pyhanlp 代码使用
from pyhanlp import *
# 分词
sentence = "我爱自然语言处理技术!"
s_hanlp = HanLP.segment(sentence)
for term in s_hanlp:
print(term.word, term.nature)
# 依存句法分析
s_dep = HanLP.parseDependency(sentence)
print(s_dep)
# 关键词提取
document = u'''
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。
它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,
所以它与语言学的研究有着密切的联系,但又有重要的区别。
自然语言处理并不是一般地研究自然语言,
而在于研制能有效地实现自然语言通信的计算机系统,
特别是其中的软件系统。因而它是计算机科学的一部分。
'''
doc_keyword = HanLP.extractKeyword(document, 3)
for word in doc_keyword:
print(word)
# 摘要抽取
doc_keysentence = HanLP.extractSummary(document, 3)
for key_sentence in doc_keysentence:
print(key_sentence)
# 感知机词法分析器
PerceptronLexicalAnalyzer = JClass('com.hankcs.hanlp.model.perceptron.PerceptronLexicalAnalyzer')
analyzer = PerceptronLexicalAnalyzer()
print(analyzer.analyze("上海华安工业(集团)公司董事长谭旭光和秘书胡花蕊来到美国纽约现代艺术博物馆参观"))
# 实体命名识别
NER = HanLP.newSegment().enableNameRecognize(True)
p_name = NER.seg('王国强、高峰、汪洋、张朝阳光着头、韩寒、小四')
print(p_name)
# 音译人名识别
sentence = '微软的比尔盖茨、Facebook的扎克伯格跟桑德博格、亚马逊的贝索斯、苹果的库克,这些硅谷的科技人'
person_ner = HanLP.newSegment().enableTranslatedNameRecognize(True)
p_name = person_ner.seg(sentence)
print(p_name)
# 短语提取
phraseList = HanLP.extractPhrase(document, 3)
print(phraseList)
# 拼音转换
s = '重载不是重任'
pinyinList = HanLP.convertToPinyinList(s)
for pinyin in pinyinList:
print(pinyin.getPinyinWithoutTone(),pinyin.getTone(), pinyin, pinyin.getPinyinWithToneMark())
# 声母韵母
for pinyin in pinyinList:
print(pinyin.getShengmu(), pinyin.getYunmu())
# 繁简转换
Jianti = HanLP.convertToSimplifiedChinese("我愛自然語言處理技術!")
Fanti = HanLP.convertToTraditionalChinese("我爱自然语言处理技术!")
print(Jianti)
print(Fanti)