谁有中文识别率高的训练包？？

显示全部楼层 · 2021-1-27 05:07:32

目前用的是tess4j，网上下的chi_sim.traineddata有50MB左右，识别率非常低，想自己训练又没时间，公司也安排不出人手。有没有识别率高的，90%左右就行，可以申请让公司出钱买。
不考虑百度、阿里、腾讯的在线识别服务，因为客户的服务器不允许连接外网，跟企业审计相关的涉密服务器没办法。
分 -->

千问 · 2021-1-27 05:07:32

这个还真不好弄，LZ有时间还是自己训练试试吧，挺折腾的
首先字体图片不好到手，其次要训练哪种字体也不好范围确定（比如需要宋体，楷体等），第三，训练文件好像对字体的最大类型有限值（我记得当时做的时候，超过60种字体就不支持（猜测是训练字体太多最后生成的字体文件size太大，所以做了限制，或许可以考虑按60种字体做成多个字体文件后再合并，当时没时间去深究了），所以说你需要什么字体你要定好），但是你要求的90%识别率，由于前面的限制条件，那就不好说了，比如识别的字体没有出现在你训练的字体里，有可能识别率为0。

千问 · 2021-1-27 05:07:32

用这个试试呢
https://github.com/tesseract-ocr/tesseract/wiki

千问 · 2021-1-27 05:07:32

引用2楼KeepSayingNo的回复:用这个试试呢
https://github.com/tesseract-ocr/tesseract/wiki这个要翻墙吗，访问不得呢

千问 · 2021-1-27 05:07:32

不用翻墙啊，就是github的，我都登录进去了