推荐系统中经常需要处理类似user_id, item_id, rating这样的数据,其实就是数学里面的稀疏矩阵,scipy中提供了sparse模块来解决这个问题,但scipy.sparse有很多问题不太合用:
1、不能很好的同时支持data[i, …]、data[…, j]、data[i, j]快速切片;
2、由于数据保存在内存中,不能很好的支持海量数据处理。
要支持data[i, …]、data[…, j]的快速切片,需要i或者j的数据集中存储;同时,为了保存海量的数据,也需要把数据的一部分