apache flink :回顾2015,展望2016 -pg电子游戏网站

1顶
0踩

apache flink :回顾2015,展望2016

2016-02-16 15:56 by 副主编 mengyidan1988 评论(0) 有5916人浏览
回顾2015,总体而言flink在功能方面已经从一个引擎发展成为最完整的开源流处理框架之一。与此同时,flink社区也从一个相对较小,并且地理上集中的团队,成长为一个真正的全球性的大型社区,并在apache软件基金会成为最大的大数据社区之一。接下来看看一些有趣的统计数据,其中就包括flink每周最繁忙的时间是星期一,肯定出乎很多人所料:)

社区发展

首先,我们从flink的github库中看一些简单的统计。在2015年,flink社区规模扩大了一倍,人数从大约75名贡献者超过150名。从2015年2月至2015年12月,其github库的复制数量超过了三倍,从160增长至544,而其star数目的增长也接近3倍,从289增至813。



尽管flink创建于德国柏林,然而现在其社区遍布全球,拥有来自北美,欧洲以及亚洲的许多贡献者。在著名线下交友网站meetup.com上做一个简单的关于提及flink作为重点领域的组织的搜索,搜索结果表明全世界有16个这样的组织:



2015 flink 推进会

毫无疑问,对于flink而言,2015年的最重要的事件之一就是10月份在柏林举办的flink 推进会,这是apache flink的首次会议。来自谷歌,mongodb,布依格斯电信,nflabs,euranova,redhat,ibm,华为,intel,爱立信,capital one,zalando,amadeus,the otto group和researchgate的250多名的参会者(大约一半总部位于德国以外),参加了超过33的技术会谈。如果你想了解这些技术会议的内容,可以通过flink forward网站查看相关幻灯片和视频。



有趣的是,在 2016年 emea hadoop峰会已提交的议题和摘要中, 提及flink的高达17个议题:



趣味统计:开发人员(提交者)何时提交代码?

为了更深入的了解发生在flink社区的事情,让我们在这个项目的 git 日志上做一些分析:-) ,最简单的做法是在 git 库中统计2015年提交的总数目。运行如下代码:
git log --pretty=oneline --after=1/1/2015  | wc -l

2015年flink git库总共产生2203次提交。为了更深入地探究提交者的行为,我们将使用一个称为gitstats的开源工具进行分析,这将会带来一些有趣的统计结果。你可以通过以下四个简单的步骤来创建并更多了解:

1.从 project homepage..下载gitstats,举个例子:在os x上使用自带软件,键入:
brew install --head homebrew/head-only/gitstats

2.克隆apache flink git库:
git clone git@github.com:apache/flink.git

3.利用gitstats产生统计数据:
gitstats flink/ flink-stats/

4.在你常用的浏览器中(例如:chrome)查看统计页面:
chrome flink-stats/index.html

首先,我们可以观察到从apache项目孵化开始,flink的源代码行数一直平稳增长,在2015年,其代码库几乎翻了一番,源代码行数从500,000增至900,000。



当flink的开发者提交代码时,可以发现一个有趣的现象,到目前为止,代码都是集中在周一下午进行提交。



功能时间图

下面是一个(非详尽)的时间顺序图,用于显示在2015年,flink以及flink生态系统新增了哪些主要功能:



2016年发展蓝图

flink社区已经开始讨论今后flink的发展蓝图,下面列举一些主要内容:

流式作业运行时伸缩:流式作业需要不间断运行,并且需要对一个不断变化的环境作出反应。运行时伸缩意味着为了支持特定的服务等级协议,从而动态地增加和减少作业的并行度,或者对输入的吞吐量变化作出反应。

针对静态数据集和数据流的sql查询:用户以flink 表 api 为基础,可以通过编写sql语句查询静态数据集,以及针对数据流进行查询从而连续产生新的结果。

有托管内存支持的流运算:目前,流运算像用户自定义状态和窗口都是由jvm堆对象支持。将这些内容移至flink托管内存会增加溢出到磁盘的能力,垃圾回收效率的能力,从而可以更好地控制内存的使用。

检测时间事件模式库:在流处理中经常要检测一个时间戳的事件流模式。flink通过事件时间,对此进行了支持,利用库的形式可以实现很多诸如此类的操作。

对apache mesos以及动态资源yarn的支持:同时支持mesos 以及 yarn,包括动态分配和资源释放,从而获得更多资源弹性(包括批处理和流式处理)。

安全性:对taskmanagers 和 jobmanager之间的信息交换以及workers之间的数据交换连接,都进行加密。

更加丰富的流式连接、更多的运行时度量以及连续数据流api增强:支持更多的源和汇(例如,amazon kinesis,cassandra,flume,等等),给用户提供更多的度量指标,并提供持续改进的数据流api。

如果你对这些功能感兴趣,强烈建议去查看下当前的草案,并加入 flink 邮件列表讨论。

原文:
译者:郭亚和,从事大数据(spart/storm/hadoop/hbase)相关运维、分析等工作。
  • 大小: 70.7 kb
  • 大小: 59.6 kb
  • 大小: 113 kb
  • 大小: 103.7 kb
  • 大小: 102.2 kb
  • 大小: 74.1 kb
  • 大小: 74.1 kb
1
0
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 6月29日,apache flink meetup 北京站圆满落幕,apache flink 1.9 版本是自 flink 1.0 之后变化最大的版本,社区对 flink 进行大量重构并且加入了很多新 feature。此次 meetup 重点解读 flink 1.9 版本新特性。 ▼ ...

  • 简介:bilibili 万亿级传输分发架构的落地,以及 ai 领域如何基于 flink 打造一套完善的预处理实时 pipeline。 本文由 bilibili 大数据实时平台负责人郑志升分享,本次分享核心讲解万亿级传输分发架构的落地,以及 ...

  • 2019 年即将落下帷幕,这一年对于 apache flink 来说是非常精彩的一年,里程碑式的一年。随着这一年在邮件列表发送了超过 1 万封邮件,jira 中超过 4 千个 tickets,以及 github 上超过 3 千个 pr,apache flink ...

  • 2019 年即将落下帷幕,这一年对于 apache flink 来说是非常精彩的一年,里程碑式的一年。随着这一年在邮件列表发送了超过 1 万封邮件,jira 中超过 4 千个 ticke...

  • 作者 | 蔡芳芳 采访嘉宾 | 王峰(莫问) 维基百科的“apache flink”词条下,有这么一句描述:“flink 并不提供自己的数据存储系统,但为 amazon ...

  • 摘要:本文由 bilibili 大数据实时平台负责人郑志升分享,本次分享核心讲解万亿级传输分发架构的落地,以及 ai 领域如何基于 flink 打造一套完善的预处理实时 pipeline。...

  • 9 月 21 日下午,2019 年度最后一场 meetup 在帝都圆满落幕,来自阿里巴巴、小米、贝壳找房的资深专家们现场分享了小米的 flink 应用实践、贝壳找房的实时...

  • 阿里云开源大数据表存储团队负责人、阿里巴巴高级技术专家,apache flink pmc,paimon ppmc 李劲松(之信)在 apache paimon meetup 的分享。

  • 作者 | 蔡芳芳 采访嘉宾 | 王峰(莫问) 维基百科的“apache flink”词条下,有这么一句描述:“flink 并不提供自己的数据存储系统,但为 amazon kin...

  • vb语言vb光盘管理系统设计(源代码 系统)本资源系百度网盘分享地址

  • h型脚架疲劳测试机sw16可编辑_零件图_机械工程图_机械三维3d建模图打包下载.zip

  • 笔记.zip

  • python库是一组预先编写的代码模块,旨在帮助开发者实现特定的编程任务,无需从零开始编写代码。这些库可以包括各种功能,如数学运算、文件操作、数据分析和网络编程等。python社区提供了大量的第三方库,如numpy、pandas和requests,极大地丰富了python的应用领域,从数据科学到web开发。python库的丰富性是python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径,而且为经验丰富的开发者提供了强大的工具,以高效率、高质量地完成复杂任务。例如,matplotlib和seaborn库在数据可视化领域内非常受欢迎,它们提供了广泛的工具和技术,可以创建高度定制化的图表和图形,帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。

  • python库是一组预先编写的代码模块,旨在帮助开发者实现特定的编程任务,无需从零开始编写代码。这些库可以包括各种功能,如数学运算、文件操作、数据分析和网络编程等。python社区提供了大量的第三方库,如numpy、pandas和requests,极大地丰富了python的应用领域,从数据科学到web开发。python库的丰富性是python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径,而且为经验丰富的开发者提供了强大的工具,以高效率、高质量地完成复杂任务。例如,matplotlib和seaborn库在数据可视化领域内非常受欢迎,它们提供了广泛的工具和技术,可以创建高度定制化的图表和图形,帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。

  • python库是一组预先编写的代码模块,旨在帮助开发者实现特定的编程任务,无需从零开始编写代码。这些库可以包括各种功能,如数学运算、文件操作、数据分析和网络编程等。python社区提供了大量的第三方库,如numpy、pandas和requests,极大地丰富了python的应用领域,从数据科学到web开发。python库的丰富性是python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径,而且为经验丰富的开发者提供了强大的工具,以高效率、高质量地完成复杂任务。例如,matplotlib和seaborn库在数据可视化领域内非常受欢迎,它们提供了广泛的工具和技术,可以创建高度定制化的图表和图形,帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。

  • 金属材料杂质自动检测设备sw17可编辑_零件图_机械工程图_机械三维3d建模图打包下载.zip

  • python库是一组预先编写的代码模块,旨在帮助开发者实现特定的编程任务,无需从零开始编写代码。这些库可以包括各种功能,如数学运算、文件操作、数据分析和网络编程等。python社区提供了大量的第三方库,如numpy、pandas和requests,极大地丰富了python的应用领域,从数据科学到web开发。python库的丰富性是python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径,而且为经验丰富的开发者提供了强大的工具,以高效率、高质量地完成复杂任务。例如,matplotlib和seaborn库在数据可视化领域内非常受欢迎,它们提供了广泛的工具和技术,可以创建高度定制化的图表和图形,帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。

  • python库是一组预先编写的代码模块,旨在帮助开发者实现特定的编程任务,无需从零开始编写代码。这些库可以包括各种功能,如数学运算、文件操作、数据分析和网络编程等。python社区提供了大量的第三方库,如numpy、pandas和requests,极大地丰富了python的应用领域,从数据科学到web开发。python库的丰富性是python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径,而且为经验丰富的开发者提供了强大的工具,以高效率、高质量地完成复杂任务。例如,matplotlib和seaborn库在数据可视化领域内非常受欢迎,它们提供了广泛的工具和技术,可以创建高度定制化的图表和图形,帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。

  • python库是一组预先编写的代码模块,旨在帮助开发者实现特定的编程任务,无需从零开始编写代码。这些库可以包括各种功能,如数学运算、文件操作、数据分析和网络编程等。python社区提供了大量的第三方库,如numpy、pandas和requests,极大地丰富了python的应用领域,从数据科学到web开发。python库的丰富性是python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径,而且为经验丰富的开发者提供了强大的工具,以高效率、高质量地完成复杂任务。例如,matplotlib和seaborn库在数据可视化领域内非常受欢迎,它们提供了广泛的工具和技术,可以创建高度定制化的图表和图形,帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。

global site tag (gtag.js) - google analytics
网站地图