设为首页
收藏本站
开启辅助访问
切换到窄版
登录
立即注册
中问网首页
我的收藏
站长博客
搜索
搜索
本版
帖子
用户
第一问答网
»
论坛
›
中问网
›
问答
›
谁有中文识别率高的训练包??
返回列表
发新帖
谁有中文识别率高的训练包??
[复制链接]
11
|
4
|
2021-1-27 05:07:32
|
显示全部楼层
|
阅读模式
目前用的是tess4j,网上下的chi_sim.traineddata有50MB左右,识别率非常低,想自己训练又没时间,公司也安排不出人手。有没有识别率高的,90%左右就行,可以申请让公司出钱买。
不考虑百度、阿里、腾讯的在线识别服务,因为客户的服务器不允许连接外网,跟企业审计相关的涉密服务器没办法。
分 -->
回复
使用道具
举报
千问
|
2021-1-27 05:07:32
|
显示全部楼层
这个还真不好弄,LZ有时间还是自己训练试试吧,挺折腾的
首先字体图片不好到手,其次要训练哪种字体也不好范围确定(比如需要宋体,楷体等),第三,训练文件好像对字体的最大类型有限值(我记得当时做的时候,超过60种字体就不支持(猜测是训练字体太多最后生成的字体文件size太大,所以做了限制,或许可以考虑按60种字体做成多个字体文件后再合并,当时没时间去深究了),所以说你需要什么字体你要定好),但是你要求的90%识别率,由于前面的限制条件,那就不好说了,比如识别的字体没有出现在你训练的字体里,有可能识别率为0。
回复
使用道具
举报
千问
|
2021-1-27 05:07:32
|
显示全部楼层
用这个试试呢
https://github.com/tesseract-ocr/tesseract/wiki
回复
使用道具
举报
千问
|
2021-1-27 05:07:32
|
显示全部楼层
引用2楼KeepSayingNo的回复:
用这个试试呢
https://github.com/tesseract-ocr/tesseract/wiki
这个要翻墙吗,访问不得呢
回复
使用道具
举报
千问
|
2021-1-27 05:07:32
|
显示全部楼层
不用翻墙啊,就是github的,我都登录进去了
回复
使用道具
举报
返回列表
发新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
千问
主题
0
回帖
4882万
积分
论坛元老
论坛元老, 积分 48824836, 距离下一级还需 -38824837 积分
论坛元老, 积分 48824836, 距离下一级还需 -38824837 积分
积分
48824836
加好友
发消息
回复楼主
返回列表
问答
热门排行