我刚开始接触Apache Mahout,正在处理一个分类问题。
问题描述:存在一个文本文件中的数据集,我需要根据给定的时间范围从文件中提取部分或全部数据。
时间范围:每条记录都有一个交易日期。
因此,时间范围将通过逻辑(系统日期 – 交易日期)计算得出。
因此,输出将根据所需数据是上个月/上周/特定天数而有所不同。
如何使用Apache Mahout实现这种过滤?
回答:
我还没有正确地使用Hadoop。但我觉得这个视频应该会有所帮助:http://www.youtube.com/watch?v=KwW7bQRykHI&feature=player_embedded
在过滤之后,您可以将结果用于Mahout(用于解决分类问题)