数据仓库项目数据清洗
文件结构说明
数据-源数据和生成数据文件
source.xlsx-初始文件
films.xlsx-ExtractMovies.py运行后生成的电影文件
CleanedMovies.xlsx-CleanData.py运行后生成的清理后的电影文件
Step1Result.xlsx-DisposeDuplicates.py运行后生成的第一阶段清洗结果
imdbTest.xlsx-imdb爬取结果
MergedData.xlsx-JoinImdb.py运行结果
FinalMovie