目前为止,已经讨论了机器学习和批处理模式的数据挖掘。现在审视持续处理流数据,实时检测其中的事实和模式,好像从湖泊来到了河流。先研究一下不断改变的动态环境带来的挑战,在列出流处理应用的先决条件(如,与Twitter的TCPSockets)之后,结合Spark,KafkaandFlume把数据放入一个低延迟,高吞吐量,可缩放的处理流水线。要点如下:按照惯例,先看一下最初的数据密集型应用架构,指明我们所感兴趣的SparkStreaming模块的所处位置.下图着重指明了整体架构中的SparkStream