大家好,问一下数据挖掘......

[复制链接]
查看11 | 回复4 | 2007-10-20 08:38:44 | 显示全部楼层 |阅读模式
觉得数据挖掘似乎很有意思, 了解了下.
不过觉得很困惑.
因为书里说的一些比如: "数据清理"说是没有好的工具, 通常需要自己编写程序去做; ETL过程有工具, 但不是很好.(好象是那个意思)
然后我查了查, 发现那些工具似乎都是windows平台的(SPSS?)...而且感觉和excel也有点关系.
所以, 我想知道的是, 大家确实在使用的东西是那种东西是类似用access做窗体, 还是比较底层某些部分需要自己编程序/脚本, 然后某些部分是很可视化那种?
以及数据挖掘在linux上又如何表现?
回复

使用道具 举报

千问 | 2007-10-20 08:38:44 | 显示全部楼层
工具提供的数据清理功能相对比较简单是通用的那种
比如说用最适合值来填充空缺值
最适合值可以是平均值也可以是通过熵计算而得到的
还有离散化的方式,是等宽还是等高或者是根据熵来离散化
这种要要根据自己需要而特定的数据清理规则
肯定是要用自己编写规则了
对于书
我一直觉得书上的内容相对与产品都有些老了
原理性的东西还可以,对于应用性的
现在的bi/dw领域变化是很快的
回复

使用道具 举报

千问 | 2007-10-20 08:38:44 | 显示全部楼层
最初由 yarco 发布
[B]觉得数据挖掘似乎很有意思, 了解了下.
不过觉得很困惑.
因为书里说的一些比如: "数据清理"说是没有好的工具, 通常需要自己编写程序去做; ETL过程有工具, 但不是很好.(好象是那个意思)
然后我查了查, 发现那些工具似乎都是windows平台的(SPSS?)...而且感觉和excel也有点关系.
所以, 我想知道的是, 大家确实在使用的东西是那种东西是类似用access做窗体, 还是比较底层某些部分需要自己编程序/脚本, 然后某些部分是很可视化那种?
以及数据挖掘在linux上又如何表现? [/B]


不明白你在说什么,如果你在企业做过数据挖掘的实践或者了解crisp-dm的话,应该知道数据准备这个步骤需要ETL过程的,ETL就包括你所说的"数据清洗"。ETL工具很多,目前的ETL基本是一种3GL、4GL、5GL的综合体,即可以写脚本,也可以可视化设计。
至于平台,很多ETL工具是跨平台的,比如Oracle、SAS等等,跟Excel没有任何关系,Excel文档可以作为一种数据源。
数据挖掘跟平台没有关系,有很多支持linux的数据挖掘工具。
回复

使用道具 举报

千问 | 2007-10-20 08:38:44 | 显示全部楼层
哦, 明白了.
那么也就是说现在的数据挖掘就是那种利用已有工具去实现目标的过程.
我以为是编写c/c++程序或脚本什么的呢.
那就没意思多了...
回复

使用道具 举报

千问 | 2007-10-20 08:38:44 | 显示全部楼层
偶从clean开始,一直到最后全是自己coding,没用过tools,真是郁闷
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题

0

回帖

4882万

积分

论坛元老

Rank: 8Rank: 8

积分
48824836
热门排行