pycorrector:中文文本纠错工具
·
一、简介
开源地址:https://github.com/shibing624/pycorrector
pycorrector: 中文文本纠错工具。支持中文音似、形似、语法错误纠正,python3.8开发。重点解决其中的"音似、形字、语法、专名错误"等类型。
pycorrector实现了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、GPT等多种模型的文本纠错,评估各模型的效果。

二、使用
1、安装
pip install -U pycorrector
2、kenlm模型
(1)安装
https://github.com/shibing624/pycorrector/wiki/Install-kenlm
# 直接安装
pip install kenlm
(2)使用
3、MacBERT模型【推荐】
from pycorrector import MacBertCorrector
# 会自动下载模型
m = MacBertCorrector("shibing624/macbert4csc-base-chinese")
print(m.correct_batch(['今天新情很好', '你找到你最喜欢的工作,我也很高心。']))
三、踩坑
1、ERROR: Failed to build installable wheels for some pyproject.toml based projects (kenlm)
踩坑:windows安装报错:是 kenlm 没有 C++ 编译环境 导致的,Windows/Linux/Mac 都会遇到
2、OSError: [WinError 1114] 动态链接库(DLL)初始化例程失败。 Error loading “E:\codes\pythoncodes\test.venv\Lib\site-packages\torch\lib\c10.dll” or one of its dependencies.
网上有的说torch版本不对,有的说得管理员权限。
有点恶心,到时候真用到了再解决吧。。
3、ModuleNotFoundError: No module named ‘torch’
# 如果运行kenlm模型时提示:ModuleNotFoundError: No module named 'torch',需要额外安装torch
pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple
更多推荐

所有评论(0)