1.数据采集2.数据存储3.数据处理4.数据展现(可视化,报表和监控)其中,数据采集是所有数据系统必不可少的,随着大数据越来越被重视,数据采集的挑战也变的尤为突出。这其中包括:1.数据源多种多样2.数据量大,变化快3.如何保证数据采集的可靠性的性能4.如何避免重复数据5.如何保证数据的质量我们今天就来看看当前可用的一些数据采集的产品,重点关注一些它们是如何做到高可靠,高性能和高扩展。Flume是Apache旗下,开源,高可靠,高扩展,容易管理,支持客户扩展的数据采集系统。Flume使用JRuby