通过分析亚马逊弹性 M apRe duce( EMR)平台构架, 针对信息情报机构内部数据处理的迫切需求, 提出通 过开源技术 Xen和 H adoop平台构建基于云计算的动态可伸缩的海量数据处理平台并给出实施方案、 海量文本数 据处理案例和开源 EMR平台的优势分析。实施方案主要分为三部分: 搭建动态虚拟的云计算环境、 安装制作 H adoop虚拟服务器模板、 配置运行 C l oudera和 C l oudera Desktop。通过开源 EMR架构的应用, 可以有效解决服务 器蔓延问题,
We ka 己 经逐渐成为一个国际知名的数据挖掘平台,其免费开源、算 法丰富、架构相对规范、兼容性好,因此吸引1越来越多的研究者参入其 中。随着数据挖掘技术在海量信息处理中卓越的表现,数据挖掘系统的设 计也会越来越有价值,但由于商业数据挖掘系统设计和代码的保密性,开 源的Weka是一个不可多得的选择,就像Linux正在吸引更多的用户和内 核研究者一样,Weka在数据挖掘界也将可能势不可挡。