一文读懂lambda表达式

热点 159 0

作者:youngyan,腾讯PCG数据工程工程师

| 导语 Presto是我们在离线分析中经常用到的查询SQL引擎,我们经常用它来替换Hive和Spark引擎执行SQL,以解决查询速度慢的问题;然而Presto还有一个有用但大家接触不多的特点就是支持lambda表达式,lambda表达式可以实现常规的自定义逻辑。本文通过实际案例,介绍lambda表达式是什么,如何写lambda表达式实现自定义逻辑,以及哪些函数支持用lamba表达式做入参,希望能帮助到同学们,在实际工作中起到事半功倍的效果。

一文读懂lambda表达式

一、前言

Presto是Facebook研发的一种分布式SQL查询引擎,旨在查询分布在一个或多个异构数据源上的大型数据集,解决了Hive查询速度慢和异构数据源等问题,具有以下等特点:

纯内存计算,速度快,提供交互式的查询体验;通过不同的连接器(connector)插件支持读取异构数据源,进行联邦查询;基于SQL语言,上手成本低,支持丰富的函数(如reduce函数和lambda表达式)。

公司内部的数据平台也大都支持了Presto引擎,如PCG内部的欧拉、灯塔等,我们在日常的分析中也常使用到Presto引擎来加速查询。另外,灯塔引擎支持了Presto直连查询TDW表后,我们使用这种方式轻松地配置数据看板,省去了之前需要接出到查询引擎(如Impala)的工作和成本。

前面提到了Presto支持lambda表达式,它其实是一种匿名函数,使用lambda表达式可以使得代码简单高效,提高开发效率。因为是编程中的概念,数据分析人员可能接触不多,本文将从lambda表达式是什么,如何写表达式实现自定义逻辑,以及Presto引擎的哪些函数支持lambda入参几个方面,为大家详细讲解lamda表达式的概念和应用,希望有助于数据分析人员之后常用此技能。

二、什么是lambda表达式

lambda表达式是一种匿名函数,其实就是把一段代码赋给了一个变量,最直观的作用就是使得代码变得异常简洁,我们以常用的编程语言Java和Python分别举一个例子:


不采用lambda

采用lambda

Java

Runnable runnable1=new Runnable(){ @Override public void run(){ System.out.println("Running without lambda"); }};

Runnable runnable2=()->System.out.println("Running from lambda");


Python


def comp(x): return x["age"]li=[{"age":2,"name":"def"},{"age":,"name":"abc"}]li=sorted(li, key=comp)

li=[{"age":,"name":"def"},{"age":1,"name":"abc"}] li=sorted(li, key=lambda x:x["age"])


可以看出lambda表达式提供了以下的功能:

可以把函数看作是方法参数,或者代码看作是数据;可以在不属于任何类的情况下创建函数;lambda表达式可以像对象一样传递并按需执行。三、如何写Presto的lambda表达式

可能因为Presto引擎是Java语言开发的,Presto的lambda表达式和Java的比较像,都是使用 -> 符号,我们看下官方给出的几个lambda表达式示例都分别实现了什么功能:

x -> x + 1 --参数加1(x, y) -> x + y --两参数相加x -> regexp_like(x, 'a+') --判断入参是否包含1~n个ax -> x[1] / x[2] --数组下标1的元素除以下标2的元素x -> IF(x > 0, x, -x) --求绝对值x -> COALESCE(x, 0) --空值赋默认值0x -> CAST(x AS JSON) --强转类型x -> x + TRY(1 / 0) --通过返回null处理某种错误,如除以0

我们来看一个我在欧拉-数据洞察上实际写过的SQL逻辑,功能是判断是否有项目的在时间区间内变成了【已过会】,或者开始时间之前的最新状态是【已过会】:

到这我们基本知道lamdba表达式怎么写了。上面这段判断逻辑相对复杂,在其他引擎下可能需要自定义函数,通过lambda表达式可以实现常规的自定义函数,省去了其他引擎需要IDE开发自定义函数代码、打包上传、注册函数等步骤,下面来看下Presto哪些函数支持lambda表达式作为入参来实现简单高效的函数定义。

四、Presto支持lambda表达式的函数

整体归类下来,Presto有三种类型函数支持lambda表达式,分别是map类函数、聚合类函数、array类函数,我们分别进行介绍并给出示例。

本文中的示例在欧拉的数据洞察和DataTalk中运行成功,其他数据平台未进行验证。

1. map类函数map_filter(map(K, V), function(K, V, boolean)) -> map(K, V)#

该函数接收map和lambda表达式为参数,lambda表达式的入参是map的key列表和value列表,返回值是布尔类型。该函数通过lambda表达式的逻辑可以过滤map中的某些键值对,例如想筛选map的键大于10且值为不为空的键值对:

SELECT map_filter(MAP(ARRAY[10, 20, 30], ARRAY['a', NULL, 'c']), (k, v) -> k > 10 AND v IS NOT NULL); 结果:{30=c} map_zip_with(map(K, V1), map(K, V2), function(K, V1, V2, V3)) -> map(K, V3)#

该函数接收2个map和1个lambda表达式为参数,lambda表达式的入参是map的key以及2个map对应key的值,返回值是处理过的值。该函数可以使用lambda表达式将两个map合并打包成新的map,例如想合并两个词频统计的map,相同key的值进行相加:

SELECT map_zip_with(MAP(ARRAY['hadoop', 'flink'], ARRAY[1, 2]), MAP(ARRAY['hadoop', 'spark'], ARRAY[6, 9]) ,(k, v1, v2) -> nvl(v1,0) + nvl(v2,0));结果:{hadoop=7, flink=2, spark=9} transform_keys(map(K1, V), function(K1, V, K2)) -> map(K2, V)

该函数接收map和lambda表达式为参数,lambda表达式的入参是map的key和value,返回值是处理过的key。该函数可以使用lambda表达式将map的key进行转换,生成新的map,例如把key映射成枚举值:

SELECT transform_keys(MAP(ARRAY [1, 2, 3], ARRAY [34, 87, 2]), (k, v) -> case k when 1 then '初始化' when 2 then '进行中' when 3 then '已结束' end); 结果:{初始化=34, 进行中=87, 已结束=2} transform_values(map(K, V1), function(K, V1, V2)) -> map(K, V2)#

该函数与上面的transform_values类似,是将map的value进行转换,生成新的map,不再举例。

split_to_map(string, entryDelimiter, keyValueDelimiter, function(K, V1, V2, R)) → map<varchar, varchar>

本来这个函数是字符串函数,因结果是map,我也将其归到map类里。该函数与Hive中的str_to_map方法功能一样,通过指定分隔符将字符串转换成map。不同的是,该函数可以指定lambda表达式来自定义处理key相同的情况,例如我们想在key相同是保留大者就可以这样写:

SELECT(split_to_map('a:1;b:2;a:3', ';', ':', (k, v1, v2) -> greatest(v1,v2))); 结果:{a=3, b=2}2. aggregate(聚合)类函数reduce_agg(inputValue T, initialState S, inputFunction(S, T, S), combineFunction(S, S, S)) → S

该函数是reduce函数,会将所有输入值合并成单值。inputFunction是一个lambda表达式,它会获取输入值以及初始状态initialState以及当前状态,并返回一个新的状态。comblineFunction会把两个状态合并成新状态。我们用这个函数实现sum和min函数大家就知道怎么用了。

SUM:SELECT id, reduce_agg(value, 0, (a, b) -> a + b, (a, b) -> a + b)FROM ( VALUES (1, 2), (1, 3), (1, 4), (2, 20), (2, 30), (2, 40)) AS t(id, value)GROUP BY id;结果:(1, 9)(2, 90)

MIN:SELECT id, reduce_agg(value, 999999, (a, b) -> least(a, b), (a, b) -> least(a, b))FROM ( VALUES (1, 2), (1, 3), (1, 4), (2, 20), (2, 30), (2, 40)) AS t(id, value)GROUP BY id;结果:(1, 2)(2, 20)3. array类函数all_match(array(T), function(T, boolean)) → boolean#

该函数是判断是否数组的所有元素均满足某条件,此处lambda表达式需返回boolean类型。例如我们想判断数组元素是否都大于0且小于100的:

SELECT all_match(ARRAY [-1, 1, 2, 3], x -> x > 0 and x < 100)结果:falseany_match(array(T), function(T, boolean)) → boolean#

该函数用于数组里有任一元素满足条件即为true,与all_match函数用法一致,不再举例。

non_match(array(T), function(T, boolean)) → boolean#

该函数用于数组里没有一个元素满足条件即为true,与all_match函数用法一致,不再举例。

array_sort(array(T), function(T, T, int)) -> array(T)#

该函数是数组排序函数,lambda表达式为比较器,返回-1、0、1代表前者小于、等于、大于后者。例如我们想按字符串的长度排序:

SELECT array_sort(ARRAY ['a', 'abcd', 'abc'], (x, y) -> IF(length(x) < length(y), -1, IF(length(x) = length(y), 0, 1)));结果:['a', 'abc', 'abcd']filter(array(T), function(T, boolean)) -> array(T)#

该函数是数组过滤函数,lambda表达式返回boolean类型,false表示元素被过滤掉。


find_first(array(E), function(T, boolean)) → E

该函数可按数组下标从最小开始查找,返回满足lambda表达式条件的第一个元素,不过这个函数公司Presto好像不支持。例如想查找数组中排序数组第一个大于0的元素:

SELECT find_first(ARRAY [-8,-3,1,7,9], x -> x > 0)结果:1reduce(array(T), initialState S, inputFunction(S, T, S), outputFunction(S, R)) → R

和前面介绍到的reduce_agg函数不一样的是,reduce_agg函数是行记录的聚合,reduce函数是数组的聚合。使用上类似,例如拼接数组元素到10个字符长度就不再拼接:

SELECT reduce(ARRAY ['a','bb','ccc','dddd','eeeee','ffffff'], '' , (s, x) -> if(length(s)>10, s, concat(s, x)), s -> s);结果:abbcccddddtransform(array(T), function(T, U)) -> array(U)

该函数是map-reduce中的map含义,可将数组通过lambda表达式的逻辑转换成另外一个数组。例如我们想把数字转换成字符串,不够5位的左侧补零:

SELECT transform(ARRAY [1, 15, 222], x -> lpad(cast(x as varchar), 5, '0'))结果:['00001', '00015', '00222']zip_with(array(T), array(U), function(T, U, R)) -> array(R)#

前面介绍的map_zip_with函数是打包两个map,这个函数是打包两个数组。例如我们想对一个数组的每个元素乘以对应的系数:

SELECT zip_with(ARRAY[2, 3, 5], ARRAY[0.5, 1.2, 0.1], (x, y) -> x * y);结果:[1.0, 3.6, 0.5]五、总结

本文介绍了lambda表达式是什么、Presto引擎中的写法,以及哪些高阶函数支持lambda表达式,希望可以帮助到数据分析人员在即席查询或者灯塔看板配置等场景下使用一些Presto的高阶函数,用lambda表达式书写常规的自定义逻辑,省去了其他引擎自定义函数复杂的操作步骤,从而提升工作效率。

标签: lambda表达式

抱歉,评论功能暂时关闭!