执行GROUP BY子句的最一般的方法:先扫描整个表,然后创建一个新的临时表,表中每个组的所有行应为连续的,最后使用该临时表来找到组并应用聚集函数(如果有聚集函数)。在某些情况中,MySQL通过访问索引就可以得到结果,而不用创建临时表。此类查询的 EXPLAIN 输出显示 Extra列的值为 Using index for group-by。
一。 松散索引扫描
1.满足条件
查询针对一个表。
GROUP BY 使用索引的最左前缀。
只可以使用MIN()和MAX()聚集函数,并且它们均指
MySQL通常使用GROUPBY(本质上是排序动作)完成DISTINCT操作,如果DISTINCT操作和ORDERBY操作组合使用,通常会用到临时表.这样会影响性能. 在一些情况下,MySQL可以使用索引优化DISTINCT操作,但需要活学活用.本文涉及一个不能利用索引完成DISTINCT操作的实例.
实例1 使用索引优化DISTINCT操作
create table m11 (a int, b int, c int, d int, primary key(a)) engine=INNOD
group by 优化
set hive.map.aggr = true; //是否在 Map 端进行聚合,默认为 True ;该设置会消耗更多的内存。
set hive.groupby.mapaggr.checkinterval = 100000000; //在 Map 端进行聚合操作的条目数目
set hive.groupby.skewindata = true; //解决数据倾斜的万能钥匙
当map阶段运行不了的时候,可以设置 set hive.map.aggr = false;
说明