求助ETL的具体应用——公司客户信息资料的数据清洗

[复制链接]
查看11 | 回复8 | 2012-1-4 11:53:54 | 显示全部楼层 |阅读模式
坛子里尊敬的大虾、斑竹们:
  求助一下,公司最近捣鼓了9万的未经任何处理的客户信息资料。9万多条如下图的那种信息。源数据都是以excel表形式保存。手头上想先拿一小点出来,比如几千条做做实验,看看有没有可行的ETL。
  主要问题就是客户信息资料里的地址质量非常差。想要先把地址信息理顺,同时既不干扰客户公司名称,也能和客户公司名称的资料对应起来。
   原图如下:

  这些地址信息其实由:国家+省+城市+城市行政区+街道+街道号+具体地点(大厦等)+楼号+楼层+室号最多10个位数的信息组成,公司目前需求把{城市行政区+街道+街道号+具体地点(大厦等)+楼号+楼层+室号}地区出来,分到数据库中的不同数据段位。
  大体意思如下图:

  我想问一下,有什么解决方案没?比如说什么类似于powercenter+mysql这种软件组合和使用教程之类?就像LAMP这种方式去解决各自的问题。
  用到的功能要求有:
  数据格式化统一、数据提取、数据转移。最好有带工作流之类的。还能和CRM结合起来的。因为这些数据最终处理完了,是要导入CRM里的。
  另外,本人在这个领域纯属小白,请大家不要说太专业的术语....像php、mysql我还知道是啥东东,您要是提正则表达式或者sql语句编程,我就得先去晕一会了...
留下QQ:54376932手机:15827550909
本人目前在武汉市区,有好心的人能当面点拨我下的那最好。
多谢看帖和顶帖的各位大大!
[ 本帖最后由 kmars 于 2009-5-6 14:35 编辑 ]
回复

使用道具 举报

千问 | 2012-1-4 11:53:54 | 显示全部楼层
以前貌似接触过这么一个数据清洗的工具
回复

使用道具 举报

千问 | 2012-1-4 11:53:54 | 显示全部楼层
ETL的实现有多种方法,常用的有三种,第一种是借助ETL工具如Oracle的OWB、SQL server 2000的DTS、SQL Server2005的SSIS服务、informatic等实现,第二种是SQL方式实现,第三种是ETL工具和SQL相结合。前两种方法各有优缺点,借助工具可以快速的建立起ETL工程,屏蔽复杂的编码任务,提高速度,降低难度,但是欠缺灵活性。SQL的方法优点是灵活,提高ETL运行效率,但是编码复杂,对技术要求比较高。第三种是综合了前面二种的优点,极大的提高ETL的开发速度和效率。
回复

使用道具 举报

千问 | 2012-1-4 11:53:54 | 显示全部楼层
shi1621
能讲下是什么工具么?
还有
informatic powercenter我也尝试从oralce官网上下过那个1.2G的,可惜没下下来。也研究过它的使用手册,貌似用起来也很复杂....
回复

使用道具 举报

千问 | 2012-1-4 11:53:54 | 显示全部楼层
楼主,这个不是工具的问题,这个是方法问题, 没有确定具体的方法分析,什么工具都没有用
btw:中文分析本来就是麻烦,你要先确定规则,如果其中有的内容人都不能折分出来,那机器就更不可能了
回复

使用道具 举报

千问 | 2012-1-4 11:53:54 | 显示全部楼层
我咋觉得这个不应该直接etl呢,是不是通过程序比如java或者其他语言先对数据进行过处理再etl吧,再说etl也没必要去用复杂的商用工具,学习成本高,直接整个kettle就差不多解决了。
回复

使用道具 举报

千问 | 2012-1-4 11:53:54 | 显示全部楼层
多谢piliskys、vikiv
我先去尝试下kettle
回复

使用道具 举报

千问 | 2012-1-4 11:53:54 | 显示全部楼层
我觉得可以通过数据导入后使用SQL语句进行处理,不会很复杂。我用SQL2005做了测试,很容易达到你要的效果!
回复

使用道具 举报

千问 | 2012-1-4 11:53:54 | 显示全部楼层
原帖由 asan20080212 于 2009-5-7 17:16 发表
我觉得可以通过数据导入后使用SQL语句进行处理,不会很复杂。我用SQL2005做了测试,很容易达到你要的效果!

发出来学习学习
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题

0

回帖

4882万

积分

论坛元老

Rank: 8Rank: 8

积分
48824836
热门排行