一、简介

开源地址:https://github.com/shibing624/pycorrector

pycorrector: 中文文本纠错工具。支持中文音似、形似、语法错误纠正,python3.8开发。重点解决其中的"音似、形字、语法、专名错误"等类型。

pycorrector实现了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、GPT等多种模型的文本纠错,评估各模型的效果。

在这里插入图片描述

二、使用

1、安装

pip install -U pycorrector

2、kenlm模型

(1)安装

https://github.com/shibing624/pycorrector/wiki/Install-kenlm

# 直接安装
pip install kenlm

(2)使用

3、MacBERT模型【推荐】

from pycorrector import MacBertCorrector
# 会自动下载模型
m = MacBertCorrector("shibing624/macbert4csc-base-chinese")
print(m.correct_batch(['今天新情很好', '你找到你最喜欢的工作,我也很高心。']))

三、踩坑

1、ERROR: Failed to build installable wheels for some pyproject.toml based projects (kenlm)

踩坑:windows安装报错:是 kenlm 没有 C++ 编译环境 导致的,Windows/Linux/Mac 都会遇到

2、OSError: [WinError 1114] 动态链接库(DLL)初始化例程失败。 Error loading “E:\codes\pythoncodes\test.venv\Lib\site-packages\torch\lib\c10.dll” or one of its dependencies.

网上有的说torch版本不对,有的说得管理员权限。

有点恶心,到时候真用到了再解决吧。。

3、ModuleNotFoundError: No module named ‘torch’

# 如果运行kenlm模型时提示:ModuleNotFoundError: No module named 'torch',需要额外安装torch 
pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐