大神们看过来:本应用是否可以采用Hadoop/MapReduce技术路线?如何做数据挖掘?

[复制链接]
查看11 | 回复2 | 2021-1-27 05:42:42 | 显示全部楼层 |阅读模式
本单位为100人以内的研究所,主要从事科学试验卫星任务管理。试验卫星会有试验任务,在每次试验任务时有很多的文档产生,比如试验计划、总结等。卫星每天在天上转圈,每天会下传日常运行数据,有试验任务时会下传试验数据和图像,卫星所有的下传数据(包括数据和图像)均保存在同一存储服务器上。
如上描述可见:数据包括两类,第一类为局域网产生的文档、图片等,分散于单位内数十台电脑上,大约有几万个文档,几百个G;第二类为卫星下传数据,包括数据和图像,以网络数据包的形式存在,使用时需要根据格式解包,集中在一台存储服务器上,海量,PB或TB量级,且每天在不断增长。
需求1:针对已做过的每一次卫星试验,输入检索词,能够将其相关的文档、数据、图片、图像等智能的检索出来。
需求2:能够对卫星试验数据做数据分析与挖掘。
问题:该应用和需求是否适合采用Hadoop/MapReduce技术路线?应该如何针对本应用作卫星数据的分析和挖掘?
分 -->
回复

使用道具 举报

千问 | 2021-1-27 05:42:42 | 显示全部楼层
pwwMapisupdate
Optimizethereadcache,readfileusingsmallrandombuffer.morethanonetimesincreasetheperformanceofdiskmap.
http://sourceforge.net/projects/pwwhashmap/files/stats/timeline
回复

使用道具 举报

千问 | 2021-1-27 05:42:42 | 显示全部楼层
需求1:根据你们的需求分析solr或es是不是能满足你们的需求
需求2:Hadoop/MapReduce是肯定可以使用的,但根据你们的数据特点是不是可以用hive,pig之类的,或者是spark(效率较高)。MapReduce开发成本是比较高的。
我们目前在使用MapReduce但考虑一部分功能转到spark了,主要是MapReduce跑一些算法太慢了。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题

0

回帖

4882万

积分

论坛元老

Rank: 8Rank: 8

积分
48824836
热门排行