数据批量分析提取,有点迷茫,求指点迷津

[复制链接]
查看11 | 回复2 | 2021-1-27 05:20:36 | 显示全部楼层 |阅读模式
苦逼的数据工作,在里面沉陷,
试着做了一个小小的雏形工具:
1、导入杂乱信息的文档
2、把线头理出来
3、批量提取:
企业机关事业单位
地址
联系方式
。。。。。。
以后我们还可以延伸到提取标准,规范的名称,编号等。
但是,做着做着,就不知道怎么往下走了,
各位都是圈子的高手,所以希望能高手提点一下:
1.我们这类识别器还可以朝哪些方向发展
2.哪些地方可以用的到
3.如果我们想朝大数据靠拢,还应该增加哪些功能?
我们自己公司本身不是专业做这方面的,
大家都是圈子的里的人,所以希望各大高人能给与一些提点
分 -->
回复

使用道具 举报

千问 | 2021-1-27 05:20:36 | 显示全部楼层
这个玩意其实是可以比较一下java的东西
hadop+mapreduce
其实把你的要求就是mapreduce,
引用1.通俗理解MapReduce
MapReduce的处理过程分为两个步骤:map和reduce。每个阶段的输入输出都是key-value的形式,key和value的类型可以自行指定。map阶段对切分好的数据进行并行处理,处理结果传输给reduce,由reduce函数完成最后的汇总。

你要做的事情,就是把文件map成key-value,发布出去,然后用reduce汇总。
而map的过程,简单点做就是模式匹配,可以用anglr4这类东西完。如果复杂点就算语义分析,可以用微软的语义分析库,也可以直接找百度的语义分析库(这种算人工智能,需要自己去百度训练提取模型)
回复

使用道具 举报

千问 | 2021-1-27 05:20:36 | 显示全部楼层


感谢高手指点,在这方面我们确实太缺乏经验了。不知道高手能不能加个QQ,以后遇到难题希望能得到你的指教。小妹QQ是2488433945。拜谢!!!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题

0

回帖

4882万

积分

论坛元老

Rank: 8Rank: 8

积分
48824836
热门排行