混合数据分布是指数据分布的不同区域具有不同的特殊分布。例如销售额和地区两个属性之间,在销售额比较低的数值区间中,两者呈现近似相互独立的数据分布;而在销售额比较高的数值区间,二者呈现近似函数依赖的数据分布。现有检测数据相关性的研究专注于给出一个总体的二维相关性的度量,而无法检测出子区域的特殊相关性。在统计分析时,这类具有特殊相关性的子区域有更丰富的统计意义,值得引起重视。研究并提出了存在这类混合数据分布的情况下,检测数据相关性的新方法 HY-COCA。该方法在熵相关系数的基础上,缩小了子区域的搜索