Quantcast
Channel: Paas实现 – PayMoon贝明实验室
Browsing all 10 articles
Browse latest View live

[翻译][Spark In Action][Spark 实战 ]1.1.2 MapReduce 缺点

1.1.2 MapReduce 缺点 虽然Hadoop是当今大数据革命的基础,并且被积极使用和维护,但它仍然有它的缺点,他们主要关于它的Map-Reduce组件。 MapReduce作业结果需要存储在HDFS中,才能被其他作业使用。 由于这个原因,MapReduce本身就不适合迭代算法。 此外,[......][yol出品] 全文阅读 >>

View Article



[翻译][Spark In Action][Spark 实战 ]1.1.3 Spark 带来了什么

1.1.3 Spark 带来了什么 Spark的核心概念是一个内存中执行模型,它能够在内存中缓存作业数据,而不是像MapReduce一样每次从磁盘读取数据。这可以将作业的执行速度提高到100倍,与Map-Reduce中的相同作业相比,它对迭代算法(如机器学习,图形算法和需要重新使用数据[......][yol出品] 全文阅读 >>

View Article

[翻译][Spark In Action 中文版][Spark 实战 ]1.2 Spark 组件

1.2 Spark 组件 Spark由多个专用组件组成。 这些是Spark Core,Spark SQL,Spark Streaming,Spark GraphX和Spark MLlib,如图1.2所示。 这些组件使Spark成为一个功能齐全的统一平台:它可以用于以前必须使用几个不同框架[......][yol出品] 全文阅读 >>

View Article

[翻译][Spark In Action 中文版][Spark 实战 ]1.3 Spark 程序流

1.3 Spark 程序流 让我们看看一个典型的Spark程序是什么样子。 假设一个300 MB的日志文件存储在一个三节点HDFS集群中。 HDFS自动将文件拆分为128 MB部分(Hadoop术语中的块),并将每个部分放在集群的单独节点上(见图1.3)。 让我们假设Spark在YAR[......][yol出品] 全文阅读 >>

View Article

[翻译][Spark In Action 中文版][Spark 实战 ]1.4 Spark 生态

1.4 Spark 生态 我们已经提到了Hadoop生态系统,包括接口,分析,集群管理和基础设施工具。 一些最重要的如图1.6所示。 图1.6不是完整的7你可能会说我们没有添加一个工具,但是一个完整的工具列表将很难适应这一节。 但我们认为,这个列表代表了Hadoop生态系统中最突出的[......][yol出品] 全文阅读 >>

View Article


[翻译][Spark In Action 中文版][Spark 实战 ]1.5 启动spark-in-action的虚拟机

1.5 启动spark-in-action的虚拟机 为了方便您设置Spark学习环境,我们准备了一个虚拟机(VM),您将在本书中使用它。 它将允许您运行所有的例子从书中没有惊喜,由于不同版本的Java,Spark或您的操作系统。 例如,在Windows上运行Spark示例时可能会遇到问[......][yol出品] 全文阅读 >>

View Article

[翻译][Spark In Action 中文版][Spark 实战 ]1.6 总结

1.6 总结 ■  Apache Spark是一种令人兴奋的新技术,它迅速取代Hadoop的MapReduce作为首选大数据处理平台。 ■  Spark程序的速度可以比MapReduce快100倍。 ■  Spark支持Java,Scala,Python和R语言。 ■  使用Sp[......][yol出品] 全文阅读 >>

View Article

[翻译][百篇大数据文献 53][Spark]Fast and Interactive Analytics over Hadoop Data with...

使用Spark快速和交互式分析Hadoop数据 本文http://www.paymoon.com:8001/index.php/2016/12/28/fast-and-interactive-analytics-over-hadoop-data-with-spark 如果转载请联[......][yol出品] 全文阅读 >>

View Article


Spark Standalone架构设计要点分析

Apache Spark是一个开源的通用集群计算系统,它提供了High-level编程API,支持Scala、Java和Python三种编程语言。Spark内核使用Scala语言编写,通过基于Scala的函数式编程特性,在不同的计算层面进行抽象,代码设计非常优秀。 RDD抽象 RDD(Resil[......][yol出品] 全文阅读 >>

View Article


CentOS 6.5下NFS安装配置记录

一、环境介绍 NFS服务器:CentOS6.5 192.168.0.10 NFS客户端:CentOS6.5 192.168.0.11 二、服务器端安装配置 1、先用rpm -qa命令查看所需安装包(nfs-utils、rpcbind)是否已经安装: [crayon-5a37[......][yol出品] 全文阅读 >>

View Article
Browsing all 10 articles
Browse latest View live


Latest Images