Hive 热门数据分析面试题解析

Hive 热门数据分析面试题解析

Hive 热门数据分析面试题解析

作者 |数据管道

责编 | 徐威龙

封图|CSDN 下载于视觉中国

SQL中有一类函数叫聚合函数,比如count、sum、avg、min、max等,这些函数的可以将多行数据按照规整聚集为一行,一般聚集前d 4 . ` O的数据行要大于聚集后的数据行。而有时候我们不仅想要聚集前的数据,又想要聚集后的数据,这时候便引入了窗口函数。

下面通过几道TMD面试题介绍一下如何使用窗口函数。涉及知识点有用于排序的窗口函数、用于用户` z 9 y l A分组查询的窗口函数、用于偏移分析的窗口函数,每种会通过一道面试题背景题解答。

正文

1、某顶尖外卖平台数据分析面试题。现有交易数据表U S ( n a q C G ruser_goods_table如下:

  • user_name 用户名

  • goods_kind 用户订购的的外卖品类

现在老板想知道每个用户购买的外卖品类偏好分布,并取出每个用户购买最多的外卖品类是哪个。

输出要求如下:

  • user_name 用户名{ 1 h T e d O k

  • goods_kind 该用户购买的最多外卖品类

思路,利用窗口函数 row_number求得每个用户各自购买8 C ] v ; a g ! X品类数量排行分布,并取出排行第一的品类即该用户购买最多的外卖品类。

参考题解:

selectb.user_name,b.goods_kindfrom
(selectM 4 F ! =
user_name,
gs q C *oods_kind,
row_number()over(partitionbyuser_name
orderbycount(goods_kind)desc)asrank
f2 k c Nromuser_goods_table)bwhereb.rank=1

2、某顶尖支付平台数据分析面试题。现有交易数据表user_sales_tO p ; u Fable如下:

  • user_name 用户名

  • pay_amount 用户支付额度

现在老板想知道支付金额在前20%A l j 9 5 2 n的用户。

输出要求如下:

  • user_name 用户名(前10%p K M ; g 9 L的用户)

思路,利用窗口函数 ntile将每个用户* b S U # 2 K和对应的支P T E ( 4付金额分成5组(这样每组3 K $ A + @就有1/5),取分组排名第一的用N #户组即前支付金额在前20%的用户。(注意这里是求前20%的用户而不是求支付排在前28 r e0的用户)

参考题解:

selectb.user_namefrom
(select
user_name,
ntile(5)over(orderbysum(pay_amount)desc)aslevel
fromuseG ] G m o w xr_sales_tablegroupbyuser_name)b
whereb.level=1

3、某顶尖小视频平台数据分析面试题。现有用户登陆表user_login_table如下:

  • user_name 用户名

  • date 用户登陆时间

现在老板想知道连续7天都登陆平台的重要用! h ~ Z e , 9户。

输出要求如下:

  • user_name 用户名(连续7天都登陆的用户数)

思路,首先利用偏移窗口函数lead求得每个用户在每个登陆时间向后偏移7行的登陆时间,再计算每个用& L j ? y &户在每个登陆时间滞后7天的登陆时间,如果每个用户向后偏移7行的登m C B h l Q陆时间正好等于滞后7天的时间,说明该用户连续登陆了7天。

参考题G $ ` # + y O I解:

selectby o A ~ d @ a.user_name
(selectuser_name,
date,lead(date,7)
ovq T v G 8er(partitionbyuser_nameorderbydatedesc)asdate_7
fromus; G l V ^ ner_login_table)b
whereb.dateisnotnull
anddate_sub(cast(b.dateasdate,7))=cast(b.date_7asdF c Xate)

Hive 热门数据分析面试题解析

总结

本文分别从3家数据分析u ^ , N Z ` f L面试题了解了窗口函数的实际应用场景,当然假设是大家都已知道窗口函数的语法,窗口函数的使用也确实可以衡量作为数据分析师对SQL能力的掌握程度,当然不管是学习何种用法都要结合实际应用背景思考为何需要这种分析函数。

Hive 热门数据分析面试题解析

Hive 热门数据分析面试题解析

推荐阅读:百万人学AI:CSDN重磅共建人工智能技术新生态突破性能极限——阿里云神龙最新( Z ! 8ASPLOS论文解读漫画:如何给女朋友解释什么是熔断?
疫情期间天天对你“开枪”的额温枪& + H S z s m ^,你知道它的工作原理吗i . : 8 P Q { & ^?| 原力计划
如何更新你的机z = A o器学习模型?手把手带你设计一个可k & D n A n C 4 x持续的预测模型!
区块链数据分析,让你看清交易对手
真香,朕在看了!