本文共 1033 字,大约阅读时间需要 3 分钟。
HanLP2.1支持包括简繁中英日俄法德在内的104种语言上的10种联合任务:分词(粗分、细分2个标准,强制、合并、校正3种)、词性标注(PKU、863、CTB、UD四套词性规范)、命名实体识别(PKU、MSRA、OntoNotes三套规范)、依存句法分析(SD、UD规范)、成分句法分析、语义依存分析(SemEval16、DM、PAS、PSD四套规范)、语义角色标注、词干提取、词法语法特征提取、抽象意义表示(AMR)。
HanLP提供RESTful和native两种API,分别面向轻量级和海量级两种场景。
在线演示资源、HanLP教学资源、HanLP GitHub等。
conda create -n hanlp python=3.7
pip install hanlp-2.1.0a36.tar.gz
pip install hanlp_restful
hanlp.pretrained.ALL
import hanlphanlp.load(hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH)hanlp.HanLP(['清华大学研究核能的教授有哪些'])
hanlp.HanLP(['清华大学研究核能的教授有哪些'], tasks='tok')hanlp.HanLP('清华大学研究核能的教授有哪些', tasks=['pos', 'dep'])hanlp.HanLP('清华大学研究核能的教授有哪些', tasks=['pos/863', 'dep']) hanlp.HanLP(['清华大学研究核能的教授有哪些']).pretty_print()
以下为多个工具的词性标注、依存句法分析、语义依存分析等能力对比:
| pos/tag | dep | sdp | |
|---|---|---|---|
| LTP | |||
| SpaCy | 基于扩展标注 | ||
| DDParser | |||
| HanLP | 、、DM、PAS、PSD | 、 | |
| Stanford CoreNLP | Penn Chinese Treebank Tag Set() | ||
| jieba | 兼容的标记法 | 不支持 | 不支持 |
转载地址:http://jflh.baihongyu.com/