Datalake,我第一次接触这个概念,是在2014年IBM组织的数据治理交流论坛上。当时只是认为“数据湖”就是一个概念,没什么新意,“不就是把不同结构的数据实现统一存储,Hadoop不就是干这个活的吗?本质上还是换汤不换药、新瓶装老酒,又一个新概念”!后来发现,主流的大数据和云计算公司都在推这个叫“数据湖”的技术。于是,我特意上网百度了一下,“数据湖”的概念原来早在2011年被首次提出,维基百科对它给出了如下的定义:数据湖(DataLake)是一个以原始格式存储数据的存储库或系统,它按原样存储