最初由 yarco 发布
[B]觉得数据挖掘似乎很有意思, 了解了下.
不过觉得很困惑.
因为书里说的一些比如: "数据清理"说是没有好的工具, 通常需要自己编写程序去做; ETL过程有工具, 但不是很好.(好象是那个意思)
然后我查了查, 发现那些工具似乎都是windows平台的(SPSS?)...而且感觉和excel也有点关系.
所以, 我想知道的是, 大家确实在使用的东西是那种东西是类似用access做窗体, 还是比较底层某些部分需要自己编程序/脚本, 然后某些部分是很可视化那种?
以及数据挖掘在linux上又如何表现? [/B]
不明白你在说什么,如果你在企业做过数据挖掘的实践或者了解crisp-dm的话,应该知道数据准备这个步骤需要ETL过程的,ETL就包括你所说的"数据清洗"。ETL工具很多,目前的ETL基本是一种3GL、4GL、5GL的综合体,即可以写脚本,也可以可视化设计。
至于平台,很多ETL工具是跨平台的,比如Oracle、SAS等等,跟Excel没有任何关系,Excel文档可以作为一种数据源。
数据挖掘跟平台没有关系,有很多支持linux的数据挖掘工具。
|