apache六大尚未广为人知的大数据项目 -九游会j9官网ag登录入口

3顶
1踩

引用
原文地址:
作者:sam dean
译者:吴洁

世界各地无数的组织,他们使用的数据现在日益庞大而复杂,使用传统的数据处理程序已无法再进行优化分析及获得洞察。而这正是的新一代的大数据应用程序要解决的问题。近期apache软件基金会(asf)又将一批有趣的开源大数据项目毕业为的apache顶级项目。这意味着,这些项目将能够得到积极的发展和社区的大力支持。

大多数人都听过的apache spark,一个针对streaming, sql,机器学习和图形处理的内置模块的大数据处理架构。 ibm和其他公司正在投入数十亿美金开发资金到spark项目,nasa和seti institute正在利用spark的机器学习能力,合作分析tb数量级的外太空无线信号数据,寻找外星智能生命存在的形式。

然而,其他几个最近被apache擢升为顶级的大数据项目也值得您额外关注。事实上,他们中的一些所构建和发展的生态系统,很可能将对spark发起挑战。结合本周举行的“apachecon北美峰会”(apachecon north america conference)和“apache大数据峰会”(apache: big data events),本文将归纳那些你应该知道的apache的大数据项目。

下面是六个正在冉冉兴起的项目:

kylin
apache近日宣布其kylin项目,一个始于ebay的开源大数据项目在ebay已经毕业为顶级项目。kylin是一个开源的分布式分析引擎,旨在提供在apache hadoop之上sql接口的多维分析引擎(olap),可支持超大数据集。它已广泛在ebay和其他一些组织中被采用。

“apache kylin的孵化之旅已经证明apache软件基金会(asf)开源治理的价值,以及围绕项目建设开源社区和生态系统的强大力量。”apache kylin副总裁luke han(韩卿)说: “我们的开源社区是世界上最大的本土开发者参与的社区,完全依照the apache way的社区运作方式。”

作为一个领先的基于hadoop的olap九游会j9官网ag登录入口的解决方案,apache kylin填补了大数据与人使用之间的空白,他补充说道:“使分析人员,最终用户,开发者和数据爱好者能够在大规模数据集上进行亚秒级延迟的交互式分析。基于这些能力,apache kylin将商业智能(bi)带回apache hadoop以释放出大数据的价值。”

lens
apache近日宣布,apache lens,一个开源的大数据和分析工具,也已经从apache孵化器毕业成为一个顶级项目(tlp)。根据公告:“apache lens是一个统一的分析平台,以统一视图形式为分析查询提供了优化的执行环境。apache lens旨在通过提供一个跨多个数据存储的单一视图来横向打通数据分析中遇到的异构单元。”

“通过在数据之上提供一个在线的分析处理(olap)模型,lens无缝地集成hadoop和传统数据仓库,提供统一的外部接口。它同时提供系统中查询历史、统计和查询的生命周期管理。”

“在asf中孵化apache lens是一段神奇的经历” apache lens的副总裁amareshwari sriramadasu说:“apache lens从最终用户角度出发,为大数据分析解决了一个难题,它使得业务用户、分析师、开发者和其他用户,可以轻松的进行复杂的数据分析,而不需要了解底层的数据架构。”

ignite
asf还宣布apache ingite成为了一个顶级项目,一个通过开源方式建立的内存数据网络。apache ignite是一个高性能的整合的分布式的内存数据网络,实现在大规模数组上进行实时的计算和交互。apache社区成员认为“可能比传统的硬盘或闪存技术要快几个数量级。它的设计使现有的以及各种新的应用可以轻松的部署在一个价格适宜的行业标准的大规模并行架构的硬件上。”

brooklyn
asf宣布apache brooklyn已成为一个tlp(顶级项目)。“这标志着该项目的社区和产品在asf优异的流程和原则下治理有方。”brooklyn是用于整合跨多个数据中心的应用程序的蓝图和管理平台,并适用于各种云端软件。

brooklyn 宣称:“随着现代应用程序正在由更多个部件组成,微服务架构又逐渐兴起,部署以及已部署应用的演化越来越成为一个难题。apache brooklyn的蓝图提供了一个清晰简洁的方式,在部署到公共云或私有基础设施之前,来规范应用,及它的组件、配置和组件之间的关联性。这种建立在自主计算理论的基础上的策略管理,会不断地评估运行应用程序,修改以保持它的运行健康和指标优化,例如成本和响应能力。”

brooklyn已经在一些知名企业中应用。云服务商canopy和virtustream已在brooklyn上提供产品。ibm也已经大规模的使用brooklyn,以将大量工作从aws迁移到ibm softlayer之上。

apex
今年4月,apache软件基金会将apex项目提升至顶级项目。它被称为“应用在apache hadoop生态系统的大规模,高吞吐量,低延时,能容错的,统一的大数据流和批量处理平台。” apex与apache hadoop资源管理平台yarn,一起作用于hadoop工作集群。

tajo
最后,apache tajo,一个领先的apache hadoop之上的开源数据仓库系统,成为另一个你需要了解的大数据项目。apache宣称tajo提供了针对hadoop、第三方数据库以及商用bi工具的快速抓取能力。

显然,尽管apache spark吸引了大量的眼球,但它不是唯一需要你关注的来自apache的大数据工具。今年接下去,apache也许会将更多引人注目的大数据项目升级为顶级项目,这些项目必将由此获得更好的开发资源和更多的受益。(责编/仲浩)
3
1
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 原文地址:on the rise: six unsung apache big data projects 作者:sam dean 译者:吴洁 世界各地无数的组织,他们使用的数据现在...近期apache软件基金会(asf)又将一批有趣的开源大数据项目毕业为的apach...

  • 主流的大数据处理框架包括以下三类五种:1、仅批处理框架:apache hadoop2、仅流处理框架:apache storm、apache samza3、混合框架:apache spark、apache flink

  • 在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影响的数据科学家(data scientists)。他(她)们...

  • 在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影响的数据科学家(data scientists)。他(她)们...

  • 她是twitter上大数据社区的粉最多的大v之一,被信息周刊(information week)评为twitter上的十位最有影响力的it领导者之一(“10 it leaders to follow on twitter”)。 data scientists in action 实践中的大师 ...

  • 离线平台小组目前为广州互娱的大数据离线计算提供了接近 eb 级别的大数据存储集群服务,以及 hive/spark/presto/doris/clickhouse 等计算框架的开发与业务支持。 一、背景 随着公司游戏业务的高速发展,越来越多的...

  • (1)、flume:flume最早是cloudera提供的日志收集系统,目前是apache下的一个孵化项目,是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,flume支持在日志系统中定制各类数据发送方,用于收集...

  • 修改后be compaction score监控 3.3 集群扩缩容经验分享 3.2.1 背景描述 扩缩容操作简单一直是 doris 广为人知的优势之一。随着业务的不断迁入,网易互娱内部的 doris 集群经常会遇到扩容的需求,也遇到了一些问题...

  • runtime runtime这一层可以理解为容器的整个运行环境,是云原生中最核心的部分,它包括了计算、存储、网络三大块: container runtime:docker是最广为人知的容器运行环境,但生产环境下也有一些其他的容器环境在...

  • runtime runtime这一层可以理解为容器的整个运行环境,是云原生中最核心的部分,它包括了计算、存储、网络三大块: container runtime:docker是最广为人知的容器运行环境,但生产环境下也有一些其他的容器环境在...

  • 特别是不少从事售前、客户代表的工作者,无论什么项目都要和大数据扯上关系,生怕表现得不专业。现在网上也有很多文章都有介绍大数据的前世今生,介绍大数据在各行各业的应用,但还是让不少人不得其奥秘。我写这篇...

  • 摘要: 大数据的未来就像在沙子里淘金 阿里云e-mapreduce动态 e-mapreduce团队 正在研发1.3.2版本及1.4版本,主要包括: master ha功能用户执行计划及集群运行状态自定义报警集群整体运行情况的仪表盘...

  • 王益博士,称得上机器学习领域的资深从业者,本人之前有幸拜读过王益博士的...可惜的是,这篇原始博文已经删除了,现在能找到的是原始的六篇讲稿素材:a new era;infrequent itemset mining;application driven;im

  • 最终编译的结果为$hive_home/packaging/target/apache-hive-0.13.1-bin.tar.gz 通过如下命令查看最终编译完成整个目录大小,可以看到大小为353.6m 左右 $du -s /app/complied/hive-0.13.1-src 【注】 ...

  • vb语言vb光盘管理系统设计(源代码 系统)本资源系百度网盘分享地址

  • h型脚架疲劳测试机sw16可编辑_零件图_机械工程图_机械三维3d建模图打包下载.zip

  • 笔记.zip

  • python库是一组预先编写的代码模块,旨在帮助开发者实现特定的编程任务,无需从零开始编写代码。这些库可以包括各种功能,如数学运算、文件操作、数据分析和网络编程等。python社区提供了大量的第三方库,如numpy、pandas和requests,极大地丰富了python的应用领域,从数据科学到web开发。python库的丰富性是python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径,而且为经验丰富的开发者提供了强大的工具,以高效率、高质量地完成复杂任务。例如,matplotlib和seaborn库在数据可视化领域内非常受欢迎,它们提供了广泛的工具和技术,可以创建高度定制化的图表和图形,帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。

  • python库是一组预先编写的代码模块,旨在帮助开发者实现特定的编程任务,无需从零开始编写代码。这些库可以包括各种功能,如数学运算、文件操作、数据分析和网络编程等。python社区提供了大量的第三方库,如numpy、pandas和requests,极大地丰富了python的应用领域,从数据科学到web开发。python库的丰富性是python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径,而且为经验丰富的开发者提供了强大的工具,以高效率、高质量地完成复杂任务。例如,matplotlib和seaborn库在数据可视化领域内非常受欢迎,它们提供了广泛的工具和技术,可以创建高度定制化的图表和图形,帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。

  • python库是一组预先编写的代码模块,旨在帮助开发者实现特定的编程任务,无需从零开始编写代码。这些库可以包括各种功能,如数学运算、文件操作、数据分析和网络编程等。python社区提供了大量的第三方库,如numpy、pandas和requests,极大地丰富了python的应用领域,从数据科学到web开发。python库的丰富性是python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径,而且为经验丰富的开发者提供了强大的工具,以高效率、高质量地完成复杂任务。例如,matplotlib和seaborn库在数据可视化领域内非常受欢迎,它们提供了广泛的工具和技术,可以创建高度定制化的图表和图形,帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。

global site tag (gtag.js) - google analytics
网站地图