最近遇到一个需求,需要将hive中16亿行数据存储到redis中。数据存储采用hash结构,将16亿行数据根据key离散到32万个hash中。
由于每一行的key是16个字节,数据为1个字节,一开始在预估存储空间为:16亿*(16+1) = 26 G 左右。于是部署了16个分片,每个分片10G的集群。但是实际数据推上集群后,发现占用了140G空间,这大大超出了之前的预估。
感到很疑惑,于是查找相关资料。发现https://stackoverflow.com/questions/10004565/