hive解決數據傾斜應知應會(2020-03-10)

解決數據傾斜問題

join

小表join大表使用mapjoin

大表join大表使用skewinjoin

null值多的情況使用將key拼接隨機數打散

類型不一致jion轉化為一致數據類型進行join

如果小表join大表,超過了小表定義的默認配置,但不是特別大的情況,也可以通過mapjoin的注解,強制使用mapjoin達到優(yōu)化的

group by

group by 傾斜使用skewgroup

如果group by的字段粒度太大可以先,內層嵌套更細粒度的group by

也可以拼接隨機數來進行多次group by解決

還可以開啟map端聚合,也就mapreduce中的combiner操作,來解決數據傾斜

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內容