与挖掘少量数据相比,挖掘海量数据的主要挑战是什么?

[复制链接]
查看11 | 回复3 | 2016-4-27 07:31:59 | 显示全部楼层 |阅读模式
下面是一些特定的挑战,它们引发了对数据挖掘的研究。可伸缩由于数据产生和收集技术的进步,数吉字节、数太字节甚至数拍字节的数据集越来越普遍。如果数据挖掘算法要处理这些海量数据集,则算法必须是可伸缩的(scalable)。许多数据挖掘算法使用特殊的搜索策略处理指数性搜索问题。可伸缩可能还需要实现新的数据结构,以有效的方式访问个别记录。例如,当要处理的数据不能放进内存时,可能需要非内存算法。使用抽样技术或开发并行和分布算法也可以提高可伸缩程度。高维性现在,常常遇到具有数以百计或数以千计属性的数据集,而不是数十年前常见的只具有少量属性的数据集。在生物信息学领域,微阵列技术的进步已经产生了涉及数千特征的基因表达数据。具有时间或空间分量的数据集也趋向...
回复

使用道具 举报

千问 | 2016-4-27 07:31:59 | 显示全部楼层
主要挑战是硬件运行速度,和运行效率与消耗功率的问题。...
回复

使用道具 举报

千问 | 2016-4-27 07:31:59 | 显示全部楼层
quality controlled data...
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题

0

回帖

4882万

积分

论坛元老

Rank: 8Rank: 8

积分
48824836
热门排行