重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
本文小编为大家详细介绍“pycorrector怎么安装使用”,内容详细,步骤清晰,细节处理妥当,希望这篇“pycorrector怎么安装使用”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。
站在用户的角度思考问题,与客户深入沟通,找到瓜州网站设计与瓜州网站推广的解决方案,凭借多年的经验,让设计与互联网技术结合,创造个性化、用户体验好的作品,建站类型包括:网站建设、成都网站建设、企业官网、英文网站、手机端网站、网站推广、空间域名、网站空间、企业邮箱。业务覆盖瓜州地区。
pycorrector 主要解决以下的中文输入场景。
谐音字词,如 配副眼睛-配副眼镜。
混淆音字词,如 流浪织女-牛郎织女。
字词顺序颠倒,如 伍迪艾伦-艾伦伍迪。
字词补全,如 爱有天意-假如爱有天意。
形似字错误,如 高梁-高粱。
中文拼音全拼,如 xingfu-幸福。
中文拼音缩写,如 sz-深圳。
语法错误,如 想象难以-难以想象。
可以使用 pip 安装。
pip install pycorrector
也可以下载源码后手动安装。
git clone https://github.com/shibing624/pycorrector.gitcd pycorrectorpython setup.py install
依赖库kenlm安装。
pip install https://github.com/kpu/kenlm/archive/master.zip
其他依赖库包安装。
pip install -r requirements.txt
1.文本纠错
import pycorrectorcorrected_sent, detail = pycorrector.correct('少先队员因该为老人让坐')print(corrected_sent, detail)
output:少先队员应该为老人让座 [[('因该', '应该', 4, 6)], [('坐', '座', 10, 11)]]
规则方法默认会从路径~/.pycorrector/datasets/zh_giga.no_cna_cmn.prune01244.klm加载kenlm语言模型文件,如果检测没有该文件,则程序会自动联网下载。当然也可以手动下载模型文件(2.8G)并放置于该位置。
2.错误检测
import pycorrectoridx_errors = pycorrector.detect('少先队员因该为老人让坐')print(idx_errors)
output:[['因该', 4, 6, 'word'], ['坐', 10, 11, 'char']]
返回类型是list, [error_word, begin_pos, end_pos, error_type],pos索引位置以0开始。
读到这里,这篇“pycorrector怎么安装使用”文章已经介绍完毕,想要掌握这篇文章的知识点还需要大家自己动手实践使用过才能领会,如果想了解更多相关内容的文章,欢迎关注创新互联行业资讯频道。