欢迎来到飞鸟慕鱼博客,开始您的技术之旅!
当前位置: 首页知识笔记正文

分布式流式计算

终极管理员 知识笔记 106阅读

什么是流式计算?

什么是流式计算? 在日常生活中,我们通常会先把数据存储在一张表中,然后再进行加工、分析,这里就涉及到一个时效性的问题。 如果我们处理以年、月为单位的级别的数据,那么多数据的实时性要求并不高;但如果我们处理的是以天、小时,甚至分钟为单位的数据,那么对数据的时效性要求就比较高。

流式计算平台有哪些?

第一类,商业级流式计算平台(IBM InfoSphere Streams、IBM StreamBase等); 第三类,公司为支持自身业务开发的流式计算框架。 Strom:Twitter 开发的第一代流处理系统。 Heron:Twitter 开发的第二代流处理系统。 Spark streaming:是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。 Flink:是一个针对流数据和批数据的分布式处理引擎。

流式计算和批量计算有什么区别?

其中,流式计算和批量计算是两种主要的大数据计算模式,分别适用于不同的大数据应用场景。 流数据(或数据流)是指在时间分布和数量上无限的一系列动态数据集合体,数据的价值随着时间的流逝而降低,因此必须实时计算给出秒级响应。 流式计算,顾名思义,就是对数据流进行处理,是实时计算。 批量计算则统一收集数据,存储到数据库中,然后对数据进行批量处理的数据计算方式。 主要体现在以下几个方面: 1、数据时效性不同:流式计算实时、低延迟, 批量计算非实时、高延迟。 2、数据特征不同:流式计算的数据一般是动态的、没有边界的,而批处理的数据一般则是静态数据。

分布式计算项目有哪些?

最近的分布式计算项目已经被用于使用世界各地成千上万位志愿者的计算机的闲置计算能力,通过 因特网 ,可以分析来自外太空的电讯号,寻找隐蔽的黑洞,并探索可能存在的外星 智慧生命 ;可以寻找超过1000万位数字的 梅森 质数;也可以寻找并发现对抗艾滋病病毒的更为有效的药物。 这些项目都很庞大,需要惊人的计算量,仅仅由单个的电脑或是个人在一个能让人接受的时间内计算完成是绝不可能的。
声明:无特别说明,转载请标明本文来源!