熊猫关键词工具旗下的中文分词工具(https://www.5guanjianci.com/tools/fenci/)上线以来获得了不少用户的认可。
会有很多朋友想知道当前主流的分词技术方案有哪些,本文将带您了解主流技术(Jieba, SnowNLP, PkuSeg, THULAC, HanLP)
各维度的对比。
Github:https://github.com/fxsjy/jieba
结巴分词是国内最广泛使用的分词技术,该项目可以完全满足中文分词的需要。
结巴分词有如下功能特点:
Github:https://github.com/isnowfy/snownlp
该项目功能齐全,有如下功能特点:
Github:https://github.com/lancopku/pkuseg-python
pkuseg 是基于论文[Luo et. al, 2019]的工具包。其简单易用,支持细分领域分词,有效提升了分词准确度。
Github:https://github.com/thunlp/THULAC-Python
THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。
THULAC具有如下几个特点:
Github:https://github.com/hankcs/pyhanlp
功能特点: