前言
本文是我学习过程的总结。
(针对的是二级对于jieba库的考点)
jieba简介
用于把中文长句分割成中文词组。
jieba三模式
精确模式:把文本精确的切分开,不存在冗余单词
全模式:把文本中所有可能的词语都扫描出来,每个字都可能不止一次的与相邻的词组词
搜索引擎模式:在精确模式的基础上,对长词再次切分(有重复)
精确模式
lcut()
案例:
结果:
全模式
lcut(cut_all=True)
案例:
结果:
他有很多的重复。
搜索引擎模式
lcut_for_search(s)
案例:
结果:
增添新词
向词典中添加新词,以确保能够识别。(网络新词等)(例:浇给,鸡你太美)
add_word()