Java赶上SPL:架构优点和开发效率,一个不放过

2022年05月15日 阅读数:12
这篇文章主要向大家介绍Java赶上SPL:架构优点和开发效率,一个不放过,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。
摘要:若是咱们在Java中也提供有一套完整的结构化数据处理和计算类库,那这个问题就能获得解决:即享受到架构的优点,又不致于下降开发效率。

本文分享自华为云社区《Java结构化处理SPL》,做者:石臻臻的杂货铺。git

现代Java应用架构愈来愈强调数据存储和处理分离,以得到更好的可维护性、可扩展性以及可移植性,好比火热的微服务就是一种典型。这种架构一般要求业务逻辑要在Java程序中实现,而不是像传统应用架构中放在数据库中。github

应用中的业务逻辑大都会涉及结构化数据处理。数据库(SQL)中对这类任务有较丰富的支持,能够相对简易地实现业务逻辑。但Java却一直缺少这类基础支持,致使用Java实现业务逻辑很是繁琐低效。结果,虽然架构上有各类优点,但开发效率却反而大幅降低了。数据库

若是咱们在Java中也提供有一套完整的结构化数据处理和计算类库,那这个问题就能获得解决:即享受到架构的优点,又不致于下降开发效率。数组

须要什么样的能力?

Java下理想的结构化数据处理类库应当具有哪些特征呢?咱们能够从SQL来总结:数据结构

1 集合运算能力

结构化数据常常是批量(以集合形式)出现的,为了方便地计算这类数据,有必要提供足够的集合运算能力。架构

若是没有集合运算类库,只有数组(至关于集合)这种基础数据类型,咱们要对集合成员作个简单地求和也须要写四五行循环语句才能完成,过滤、分组聚合等运算则要写出数百行代码了。函数

SQL提供有较丰富的集合运算,如 SUM/COUNT 等聚合运算,WHERE 用于过滤、GROUP 用于分组,也支持针对集合的交、并、差等基本运算。这样写出来的代码就会短小不少。微服务

2 Lambda语法

有了集合运算能力是否就够了呢?假如咱们为 Java 开发一批的集合运算类库,是否就能够达到 SQL 的效果呢?性能

没有这么简单!学习

以过滤运算为例。过滤一般须要一个条件,把知足条件的集合成员保留。在 SQL 中这个条件是以一个表达式形式出现的,好比写 WHERE x>0,就表示保留那些使得 x>0 计算结果为真的成员。这个表达式 x>0 并非在执行这个语句以前先计算好的,而是在遍历时针对每一个集合成员计算的。本质上,这个表达式本质上是一个函数,是一个以当前集合成员为参数的函数。对于 WHERE 运算而言,至关于把一个用表达式定义的函数用做了 WHERE 的参数。

这种写法有一个术语叫作 Lambda 语法,或者叫函数式语言。

若是没有 Lambda 语法,咱们就要常常临时定义函数,代码会很是繁琐,还容易发生名字冲突。

SQL中大量使用了 Lambda 语法,不在于必须过滤、分组运算中,在计算列等没必要须的场景也可使用,大大简化了代码。

3 在 Lambda 语法中直接引用字段

结构化数据并不是简单的单值,而是带有字段的记录。

咱们发现,SQL 的表达式参数中引用记录字段时,大多数状况能够直接使用字段名称而没必要指明字段所属的记录,只有在多个同名字段时才须要冠以表名(或别名)以区分。

新版本的 Java 虽然也开始支持 Lambda 语法了,但只能把当前记录做为参数传入这个用 Lambda 语法定义的函数,而后再写计算式时就总要带上这个记录。好比用单价和数量计算金额时,若是用于表示当前成员的参数名为 x,则须要写成“x. 单价 *x. 数量”这种啰嗦的形式。而在 SQL 中能够更为直观地写成 " 单价 * 数量”。

4 动态数据结构

SQL还能很好地支持动态数据结构。

结构化数据计算中,返回值常常也是有结构的数据,而结果数据结构和运算相关,没办法在代码编写以前就先准备好。因此须要支持动态的数据结构能力。

SQL中任何一个 SELECT 语句都会产生一个新的数据结构,在代码中能够随意添加删除字段,而没必要事先定义结构(类)。Java 这类语言则不行,在代码编译阶段就要把用到的结构(类)都定义好,原则上不能在执行过程当中动态产生新的结构。

5 解释型语言

从前面几条的分析,咱们已经能够获得结论:Java 自己并不适合用做结构化数据处理的语言。它的 Lambda 机制不支持特征 3,并且做为编译型语言,也不能实现特征 4。

其实,前面说到的 Lambda 语法也不太适合采用编译型语言来实现。编译器不能肯定这个写到参数位置的表达式是应该当场计算出表达式的值再传递,仍是把整个表达式编译成一个函数传递,须要再设计更多的语法符号加以区分。而解释型语言则没有这个问题,做为参数的表达式是先计算仍是遍历集合成员时再计算,能够由函数自己来决定。

SQL确实是解释型语言。

引入 SPL

Stream是Java8以官方身份推出的结构化数据处理类库,但并不符合上述的要求。它没有专业的结构化数据类型,缺少不少重要的结构化数据计算函数,不是解释型语言,不支持动态数据类型,Lambda语法的接口复杂。

Kotlin属于Java生态系统的一部分,它在Stream的基础上进行了小幅改进,也提供告终构化数据计算类型,但由于结构化数据计算函数不足,不是解释型语言,不支持动态数据类型,Lambda语法的接口复杂,仍然不是理想的结构化数据计算类库。

Scala提供了较丰富的结构化数据计算函数,但编译型语言的特色,也使它不能成为理想的结构化数据计算类库。

那么,Java生态下还有什么能够用呢?

集算器SPL。

SPL是由Java解释执行的程序语言,具有丰富的结构化数据计算类库、简单的Lambda语法和方便易用的动态数据结构,是Java理想的结构化处理类库。

丰富的集合运算函数

SPL提供了专业的结构化数据类型,即序表。和SQL的数据表同样,序表是批量记录组成的集合,具备结构化数据类型的通常功能,下面举例说明。

解析源数据并生成序表:

Orders=T("d:/Orders.csv")

按列名从原序表生成新的序表:

Orders.new(OrderID, Amount, OrderDate)

计算列:

Orders.new(OrderID, Amount, year(OrderDate))

字段更名:

Orders.new(OrderID:ID, SellerId, year(OrderDate):y)

按序号使用字段:

Orders.groups(year(_5),_2; sum(_4))

序表更名(左关联)

join@1(Orders:o,SellerId ; Employees:e,EId).groups(e.Dept; sum(o.Amount))

序表支持全部的结构化计算函数,计算结果也一样是序表,而不是Map之类的数据类型。好比对分组汇总的结果,继续进行结构化数据处理:

Orders.groups(year(OrderDate):y; sum(Amount):m).new(y:OrderYear, m*0.2:discount)

在序表的基础上,SPL提供了丰富的结构化数据计算函数,好比过滤、排序、分组、去重、更名、计算列、关联、子查询、集合计算、有序计算等。这些函数具备强大的计算能力,无须硬编码辅助,就能独立完成计算:

组合查询:

Orders.select(Amount>1000 && Amount<=3000 && like(Client,"*bro*"))

排序:

Orders.sort(-Client,Amount)

分组汇总:

Orders.groups(year(OrderDate),Client; sum(Amount))

内关联:

join(Orders:o,SellerId ; Employees:e,EId).groups(e.Dept; sum(o.Amount))

简洁的Lambda语法

SPL支持简单的Lambda语法,无须定义函数名和函数体,能够直接用表达式看成函数的参数,好比过滤:

Orders.select(Amount>1000)

修改业务逻辑时,也不用重构函数,只须简单修改表达式:

Orders.select(Amount>1000 && Amount<2000)

SPL是解释型语言,使用参数表达式时没必要明肯定义参数类型,使Lambda接口更简单。好比计算平方和,想在sum的过程当中算平方,能够直观写做:

Orders.sum(Amount*Amount)

和SQL相似,SPL语法也支持在单表计算时直接使用字段名:

Orders.sort(-Client, Amount)

动态数据结构

SPL是解释型语言,自然支持动态数据结构,能够根据计算结果结构动态生成新序表。特别适合计算列、分组汇总、关联这类计算,好比直接对分组汇总的结果再计算:

Orders.groups(Client;sum(Amount):amt).select(amt>1000 && like(Client,"*S*"))

或直接对关联计算的结果再计算:

join(Orders:o,SellerId ; Employees:e,Eid).groups(e.Dept; sum(o.Amount))

较复杂的计算一般都要拆成多个步骤,每一个中间结果的数据结构几乎都不一样。SPL支持动态数据结构,没必要先定义这些中间结果的结构。好比,根据某年的客户回款记录表,计算每月的回款额都在前10名的客户:

Sales2021.group(month(sellDate)).(~.groups(Client;sum(Amount):sumValue)).(~.sort(-sumValue)) .(~.select(#<=10)).(~.(Client)).isect()

直接执行SQL

SPL中还实现了SQL的解释器,能够直接执行SQL,从基本的WHERE、GROUP到JOIN、甚至WITH都能支持:

$select * from d:/Orders.csv where (OrderDate<date('2020-01-01') and Amount<=100)or (OrderDate>=date('2020-12-31') and Amount>100)
$select year(OrderDate),Client ,sum(Amount),count(1) from d:/Orders.csv
group by year(OrderDate),Client
having sum(Amount)<=100
$select o.OrderId,o.Client,e.Name e.Dept from d:/Orders.csv o
join d:/Employees.csv e on o.SellerId=e.Eid
$with t as (select Client ,sum(amount) s from d:/Orders.csv group by Client)
select t.Client, t.s, ct.Name, ct.address from t
left join ClientTable ct on t.Client=ct.Client

更多语言优点

做为专业的结构化数据处理语言,SPL不只覆盖了SQL的全部计算能力,在语言方面,还有更强大的优点:

离散性及其支挂下的更完全的集合化

集合化是SQL的基本特性,即支持数据以集合的形式参与运算。但SQL的离散性很很差,全部集合成员必须做为一个总体参于运算,不能游离在集合以外。而Java等高级语言则支持很好的离散性,数组成员能够单独运算。

可是,更完全的集合化须要离散性来支持,集合成员能够游离在集合以外,并与其它数据随意构成新的集合参与运算 。

SPL兼具了SQL的集合化和Java的离散性,从而能够实现更完全的集合化。

好比,SPL中很容易表达“集合的集合”,适合分组后计算。好比,找到各科成绩均在前10名的学生:

SPL序表的字段能够存储记录或记录集合,这样能够用对象引用的方式,直观地表达关联关系,即便关系再多,也能直观地表达。好比,根据员工表找到女经理下属的男员工:

Employees.select(性别:"男",部门.经理.性别:"女")

有序计算是离散性和集合化的典型结合产物,成员的次序在集合中才有意义,这要求集合化,有序计算时又要将每一个成员与相邻成员区分开,会强调离散性。SPL兼具集合化和离散性,自然支持有序计算。

具体来讲,SPL能够按绝对位置引用成员,好比,取第3条订单能够写成Orders(3),取第一、三、5条记录能够写成Orders([1,3,5])。

SPL也能够按相对位置引用成员,好比,计算每条记录相对于上一条记录的金额增加率:Orders.derive(amount/amount[-1]-1)

SPL还能够用#表明当前记录的序号,好比把员工按序号分红两组,奇数序号一组,偶数序号一组:Employees.group(#%2==1)

更方便的函数语法

大量功能强大的结构化数据计算函数,这原本是一件好事,但这会让类似功能的函数不容易区分。无形中提升了学习难度。

SPL提供了特有的函数选项语法,功能类似的函数能够共用一个函数名,只用函数选项区分差异。好比select函数的基本功能是过滤,若是只过滤出符合条件的第1条记录,只须使用选项@1:

Orders.select@1(Amount>1000)

数据量较大时,用并行计算提升性能,只须改成选项@m:

Orders.select@m(Amount>1000)

对排序过的数据,用二分法进行快速过滤,可用@b:

Orders.select@b(Amount>1000)

函数选项还能够组合搭配,好比:

Orders.select@1b(Amount>1000)

结构化运算函数的参数经常很复杂,好比SQL就须要用各类关键字把一条语句的参数分隔成多个组,但这会动用不少关键字,也使语句结构不统一。

SPL支持层次参数,经过分号、逗号、冒号自高而低将参数分为三层,用通用的方式简化复杂参数的表达:

join(Orders:o,SellerId ; Employees:e,EId)

扩展的Lambda语法

普通的Lambda语法不只要指明表达式(即函数形式的参数),还必须完整地定义表达式自己的参数,不然在数学形式上不够严密,这就让Lambda语法很繁琐。好比用循环函数select过滤集合A,只保留值为偶数的成员,通常形式是:

A.select(f(x):{x%2==0} )

这里的表达式是x%2==0,表达式的参数是f(x)里的x,x表明集合A里的成员,即循环变量。

SPL用固定符号~表明循环变量,当参数是循环变量时就无须再定义参数了。在SPL中,上面的Lambda语法能够简写做:A.select(~ %2==0)

普通Lambda语法必须定义表达式用到的每个参数,除了循环变量外,经常使用的参数还有循环计数,若是把循环计数也定义到Lambda中,代码就更繁琐了。

SPL用固定符号#表明循环计数变量。好比,用函数select过滤集合A,只保留序号是偶数的成员,SPL能够写做:A.select(# %2==0)

相对位置常常出如今难度较大的计算中,并且相对位置自己就很难计算,当要使用相对位置时,参数的写法将很是繁琐。

SPL用固定形式[序号]表明相对位置

无缝集成、低耦合、热切换

做为用Java解释的脚本语言,SPL提供了JDBC驱动,能够无缝集成进Java应用程中。

简单语句能够像SQL同样直接执行:

…
Class.forName("com.esproc.jdbc.InternalDriver");
Connection conn =DriverManager.getConnection("jdbc:esproc:local://");
PrepareStatement st = conn.prepareStatement("=T(\"D:/Orders.txt\").select(Amount>1000 && Amount<=3000 && like(Client,\"*S*\"))");
ResultSet result=st.execute();
...

复杂计算能够存成脚本文件,以存储过程方式调用

…
Class.forName("com.esproc.jdbc.InternalDriver");
Connection conn =DriverManager.getConnection("jdbc:esproc:local://");
Statement st = connection.();
CallableStatement st = conn.prepareCall("{call splscript1(?, ?)}");
st.setObject(1, 3000);
st.setObject(2, 5000); 
ResultSet result=st.execute();
...

将脚本外置于Java程序,一方面能够下降代码耦合性,另外一方面利用解释执行的特色还能够支持热切换,业务逻辑变更时只要修改脚本便可当即生效,不像使用Java时经常要重启整个应用。这种机制特别适合编写微服务架构中的业务处理逻辑。

SPL资料

 

点击关注,第一时间了解华为云新鲜技术~