数据仓库
介绍
在这个项目中,一家名为Sparkify的新兴公司正在成长,仅通过迁移到云中就可以满足其数据库需求。数据工程团队的任务是建立ETL管道,该管道从S3中的JSON日志中提取信息,并从其应用程序中提取JSON元数据,并将其持久化到托管在AWS Redshift上的PostgresSQL DB。
架构图
有一个事实表(歌曲播放)和四个维度表(歌曲,用户,艺术家和时间)
在Redshift上实现数据库的步骤
在sql_queries.py中为每个表写出CREATE / DROP SQL语句