Apache Beam 传大数据杂谈

2023-12-02 15:44•java•阅读 2398

1月10日，Apache软件基金会宣布，Apache Beam成功孵化，成为该基金会的一个新的顶级项目，基于Apache V2许可证开源。

2003年，谷歌发布了著名的大数据三篇论文，史称三驾马车：Google FS、MapReduce、BigTable。虽然谷歌没有公布这三个产品的源码，但是她这三个产品的详细设计论文开启了全球的大数据时代！从Doug Cutting大神根据谷歌的论文实现出Hadoop+MapReduce的雏形，到Hadoop生态圈各种衍生产品的蓬勃发展，再到后来的Spark、流式计算等等，所有的一切都要归功于、源自这三篇论文。

可惜谷歌虽然开启了这个伟大的时代，却始终仅仅满足于偶尔发表一两篇论文以强调自己在理论和工程上的领导地位，从来没有亲身参与进来，尤其是没有为开源生态做出什么贡献，因而一直没有从大数据市场获得什么实在的好处。

痛定思痛，谷歌开始走开源之路，将自己的标准推广给社区。从众所周知的Kubernetes，到2016年2月谷歌高调宣布将Apache Beam（原名Google DataFlow）贡献给Apache基金会孵化，再到最近大热的Tensorflow等等，动作不断。Apache Beam被认为是继MapReduce，GFS和BigQuery等之后，谷歌在大数据处理领域对开源社区的又一个非常大的贡献。

也就是说，在大数据处理的世界里，谷歌一直在内部闭源，开发并使用着BigTable、Spanner、Millwheel等让大家久闻大名而又无缘一见的产品，开源世界演进出了Hadoop、Spark、Apache Flink等产品，现在他们终于殊途同归，走到一起来了。

上一篇 »Java单线程文件下载，支持断点续传功能
下一篇 »php+mysql将大数据sql文件导入数据库

Apache Beam 传 大数据杂谈

相关推荐

Java——Java的两大数据类型

PHP 网站大数据大流量与高并发 笔记

java后台大数据量下的分批入库

css 杂谈：阴影效果

JavaScript XMLHttpRequest 同源限制及CORS杂谈

JavaScript杂谈 ，三 作用域与this

PHP解决网站大数据大流量与高并发 PHP解决网站大数据大流量与高并发

java8 Stream大数据量List分批处理切割方式

Apache Beam 传大数据杂谈

PHP 网站大数据大流量与高并发笔记

JavaScript杂谈，三作用域与this