谁有中文识别率高的训练包??

[复制链接]
查看11 | 回复4 | 2021-1-27 05:07:32 | 显示全部楼层 |阅读模式
目前用的是tess4j,网上下的chi_sim.traineddata有50MB左右,识别率非常低,想自己训练又没时间,公司也安排不出人手。有没有识别率高的,90%左右就行,可以申请让公司出钱买。
不考虑百度、阿里、腾讯的在线识别服务,因为客户的服务器不允许连接外网,跟企业审计相关的涉密服务器没办法。
分 -->
回复

使用道具 举报

千问 | 2021-1-27 05:07:32 | 显示全部楼层
这个还真不好弄,LZ有时间还是自己训练试试吧,挺折腾的
首先字体图片不好到手,其次要训练哪种字体也不好范围确定(比如需要宋体,楷体等),第三,训练文件好像对字体的最大类型有限值(我记得当时做的时候,超过60种字体就不支持(猜测是训练字体太多最后生成的字体文件size太大,所以做了限制,或许可以考虑按60种字体做成多个字体文件后再合并,当时没时间去深究了),所以说你需要什么字体你要定好),但是你要求的90%识别率,由于前面的限制条件,那就不好说了,比如识别的字体没有出现在你训练的字体里,有可能识别率为0。

回复

使用道具 举报

千问 | 2021-1-27 05:07:32 | 显示全部楼层
用这个试试呢
https://github.com/tesseract-ocr/tesseract/wiki
回复

使用道具 举报

千问 | 2021-1-27 05:07:32 | 显示全部楼层
引用2楼KeepSayingNo的回复:用这个试试呢
https://github.com/tesseract-ocr/tesseract/wiki
这个要翻墙吗,访问不得呢
回复

使用道具 举报

千问 | 2021-1-27 05:07:32 | 显示全部楼层
不用翻墙啊,就是github的,我都登录进去了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题

0

回帖

4882万

积分

论坛元老

Rank: 8Rank: 8

积分
48824836
热门排行