基于weka做文本分类,将训练集转成arff格式后,待分类的测试集怎么转化成跟训练集属性一致的arff格式?

[复制链接]
查看11 | 回复2 | 2011-6-13 08:09:50 | 显示全部楼层 |阅读模式
回复

使用道具 举报

千问 | 2011-6-13 08:09:50 | 显示全部楼层
在进行StringToWordVector转化时训练集和测试集一起转换这样就能保证属性一样然后用ultraedit打开arff文件删除测试集部分的data另存一份用于测试剩下的用于训练
我就是这样做的









<h4class=\"ask\">追问


我也用过这样的办法,但每次对文本分类,都进行这样的转换和操作很浪费时间啊
回复

使用道具 举报

千问 | 2011-6-13 08:09:50 | 显示全部楼层
转化都是按照Weka的用法使用TextDirectoryLoader进行转换得到初始的arff文件,再利用StringToWordVector再得到了最后的arff文件。训练集这样转化得到最后的arff文件,然后我希望载入新的测试集来进行分类测试,但是用StringToWordVector转化后,就无法保证@attribute是一致的了,因为它都是按单词去生成每个属性的,导致分类的时候attribute是不吻合的。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题

0

回帖

4882万

积分

论坛元老

Rank: 8Rank: 8

积分
48824836
热门排行