Utilize this practical and easy-to-follow guide to modernize traditional enterprise data warehouse and business intelligence environments with next-generation big data technologies. Next-Generation Big Data takes a holistic approach, covering the mo
在SPARK SUMMIT 2017上,Pat Patterson ,Community Champion,metadaddy分享了题为《Building Data Pipelines with Spark and StreamSets》,就数据偏移,数据流收集,spark集成等方面的内容做了深入的分析。
什么是StreamSets数据收集器?
StreamSets Data Collector是企业级的,开源的,连续的大数据摄取基础架构。 它具有先进且易于使用的用户界面,使数据科学家,开发人员和数据基础架构团队可以轻松地在创建复杂摄取场景所需的短时间内创建数据管道。 开箱即用的StreamSets Data Collector可以读写大量端点,包括S3,JDBC,Hadoop,Kafka,Cassandra等。 除了大量的预建阶段之外,您还可以使用Python,Javascr ipt和Java