Storm近年的发展

2021年09月15日 阅读数:2
这篇文章主要向大家介绍Storm近年的发展,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

storm做为第一款大数据领域的流式计算引擎,在2013年推出以后风头一时无二。后续虽然有spark streaming也做为流式计算的引擎,但storm依然在流式计算的江湖占有稳定的地位。直到2017年,flink做为流式计算引擎异军突起,几年间,风云突变,流计算言必谈flink。java

诚然,flink对比storm和spark streaming都有不少优点,但做为早期storm的使用者,一直也很想了解storm这些年的发展。redis

经过梳理storm本身的发版说明,发现storm仍是作了不少的事情,好比,支持sql,好比,支持状态,再好比,storm居然将开发语言从clojure改成了java,可见storm壮士断腕的决心有多大。sql

但,一旦新的趋势已经成型,则无力回天。目前storm仍是能在一些细分领域有本身的一席之地,但流式计算的头把交椅,则只能妄自垂怜了。缓存

 

storm推出的第一个稳定版本是0.8版,下面从0.9版本看看storm都新增了哪些新的功能。1.0.0、1.1.0和2.0.0版本是几个有重大功能的版本,不过整体上storm的发展已经很缓了,特别是相对flink而言。安全

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------网络

0.9机器学习

Storm将传输层变得可插拔,改变了原先只有zero mq的局面,能够设置为netty。由于zero mqnative library,容易有兼容性问题,而netty做为java开发的,而且性能是zero mq2倍(在2013年的时候)。分布式

 

0.9.2oop

改进了netty的使用,更好的利用线程、CPU和网络资源,以提升更好的性能。性能

改善了UI,提供了REST接口,图形化的DAG图。

整合的Kafka Spout

 

0.9.3

改进的kafka connector,同时支持hdfs integrationhbase Integration

经过shaded,解决了用户包和storm包的依赖冲突,好比thriftnettyguavahttpClientzkcurator

 

0.9.40.9.50.9.6都是bugfix版本。

 

0.10.0

安全和多租户,支持kerberosaclssl,以及与hadoop生态其余组件的安全整合,用户的认证和资源隔离。

使用Flux声明topology,相比以往须要以代码描述dag,目前能够单独在文本中描述dag

流式写入hivehive 0.13版本支持流式写入,storm本身实现了一个bolt来流式写入hive

下游整合,支持redis,支持jdbc

 

1.0.02016

改进的性能,这个版本的storm比以前的版本要快16倍,延迟减小了60%,即便考虑不一样的用户场景和外部服务依赖,对大多数用户场景而言也提供了相比以前3倍的性能

心跳机制,引入pacemaker来实现serverworker之间的心跳,而不是以前经过zk来进行,当集群规模较大时,zk每每会成为瓶颈。

分布式缓存,支持经过supervisorhdfs来提供数据分发,用户不用重启做业来更新数据,只须要在命令行操做便可。

Nimbus HA,终于支持HA了,经过运行多个nimbus进程和选举来实现HA

原生窗口,支持滑动窗口和翻滚窗口,基于事件个数或者时间。

状态支持,支持自动的checkpoint,状态能够被保存在内存或者redis中。

背压监测,以前为了控制spout的速度,只能设置topology.max.spout.pending,目前经过监测taskbuffer size,能够动态的控制spout的发射速度。

资源感知调度,经过插件化的storm的调度插件,目前能够支持对内存和cpu的单独设置。

元组抽样和调试,以前用户只能本身去显式的增长调试信息,等到上线时再去掉调试信息,如今storm内嵌了抽样调试功能,只需在UI上就能够操做,元组会被UI显示并保存到磁盘。

动态worker profiling,支持在ui上操做workerheap dumpjstack outpuJProfile recording,相应的文件会被保存并能够下载。

 

1.0.11.0.21.0.31.0.41.0.51.0.6都是bugfix版本,无重大功能。

 

1.1.020173

流式SQL,经过calcitestorm终于支持了sql,在命令行中利用storm sql操做。

Kafka整合,支持kafka 0.10及之后版本。

PMML支持,经过支持predictive model markup language来支持用训练机器学习中的模型。

其余整合,支持druidopenTsdbaws kinesis,以及hdfs spout

Topology提交,以前只支持uber包提交,如今能够经过-jar来指定依赖提交。

 

1.1.11.1.21.1.3,都是bugfix版本,无重大功能。

 

1.2.020182

新的metric汇报,storm提供reporter汇报metricgangliagraphitejmxcsv以及console

 

1.2.11.2.21.2.3,都是bugfix版本,无重大功能。

 

2.0.020195

Java进行重构,storm以前是用clojure写成的,clojure语言成为不少人参加storm社区的障碍,从这里以后,欢迎更多的人参与社区的代码贡献。

更高的性能,经过重构更精简的线程模型、极快的消息传递模型以及轻量级的背压模型,它旨在突破吞吐量、延迟和能耗的界限,同时保持向后兼容性。Apache Storm 2.0 是第一个打破 1 微秒延迟障碍的流媒体引擎。

JVM要求,摈弃了以前的java7,从storm 2.0开始,要求使用java8的环境。

 

2.1.0201910

2.2.020206