Apache Spark是一個開源集群運算框架,相對于Hadoop的MapReduce會在運行完工作后將中介數據存放到磁盤中,Spark使用了存儲器內運算技術,能在數據尚未寫入硬盤時即在存儲器內分析運算。
Apache Spark 是一個開源集群運算框架,最初是由加州大學柏克萊分校 AMPLab 所開發。相對于 Hadoop 的 MapReduce 會在運行完工作后將中介數據存放到磁盤中,Spark 使用了存儲器內運算技術,能在數據尚未寫入硬盤時即在存儲器內分析運算。
Spark 在存儲器內運行程序的運算速度能做到比 Hadoop MapReduce 的運算速度快上 100 倍,即便是運行程序于硬盤時,Spark 也能快上 10 倍速度。Spark 允許用戶將數據加載至集群存儲器,并多次對其進行查詢,非常適合用于機器學習算法。
使用 Spark 需要搭配集群管理員和分布式存儲系統。Spark 支持獨立模式(本地 Spark 集群)、Hadoop YARN 或 Apache Mesos 的集群管理。在分布式存儲方面,Spark 可以和 Alluxio, HDFS、 Cassandra 、OpenStack Swift 和 Amazon S3 等接口搭載。 Spark 也支持偽分布式(pseudo-distributed)本地模式,不過通常只用于開發或測試時以本機文件系統取代分布式存儲系統。在這樣的情況下,Spark 僅在一臺機器上使用每個 CPU 核心運行程序。
在 2014 年有超過 465 位貢獻家投入 Spark 開發,讓其成為 Apache 軟件基金會以及大數據眾多開源項目中最為活躍的項目。
Spark 在 2009 年由 Matei Zaharia 在加州大學柏克萊分校 AMPLab 開創,2010 年透過 BSD 許可協議開源發布。2013 年,該項目被捐贈給 Apache 軟件基金會并切換許可協議至 Apache2.0。2014 年 2 月,Spark 成為 Apache 的頂級項目。2014 年 11 月,Databricks 團隊使用 Spark 刷新數據排序世界記錄。
Spark 項目包含下列幾項:
Spark 核心是整個項目的基礎,提供了分布式任務調度,調度和基本的 I/O 功能。而其基礎的程序抽象則稱為彈性分布式數據集(RDDs),是一個可以并行操作、有容錯機制的數據***。 RDDs 可以透過引用外部存儲系統的數據集創建(例如:共享文件系統、HDFS、HBase 或其他 Hadoop 數據格式的數據源)?;蛘呤峭高^在現有 RDDs 的轉換而創建(比如:map、filter、reduce、join 等等)。
RDD 抽象化是經由一個以 Scala,?Java,?Python 的語言集成 API 所呈現,簡化了編程復雜性,應用程序操縱 RDDs 的方法類似于操縱本地端的數據***。
Spark SQL 在 Spark 核心上帶出一種名為 SchemaRDD 的數據抽象化概念,提供結構化和半結構化數據相關的支持。Spark SQL 提供了領域特定語言,可使用 Scala、Java 或 Python 來操縱 SchemaRDDs。它還支持使用使用命令行界面和 ODBC/JDBC 服務器操作 SQL 語言。在 Spark 1.3 版本,SchemaRDD 被重命名為 DataFrame。
Spark Streaming 充分利用 Spark 核心的快速調度能力來運行流分析。它截取小批量的數據并對之運行 RDD 轉換。這種設計使流分析可在同一個引擎內使用同一組為批量分析編寫而撰寫的應用程序代碼。
MLlib 是 Spark 上分布式機器學習框架。Spark 分布式存儲器式的架構比 Hadoop 磁盤式的 Apache Mahout 快上 10 倍,擴展性甚至比 Vowpal Wabbit 要好。MLlib 可使用許多常見的機器學習和統計算法,簡化大規模機器學習時間,其中包括:
GraphX 是 Spark 上的分布式圖形處理框架。它提供了一組 API,可用于表達圖表計算并可以模擬 Pregel 抽象化。GraphX 還對這種抽象化提供了優化運行。
GraphX 最初為加州大學柏克萊分校 AMPLab 和 Databricks 的研究項目,后來捐贈給 Spark 項目。
本文由 貴州做網站公司 整理發布,部分圖文來源于互聯網,如有侵權,請聯系我們刪除,謝謝!
網絡推廣與網站優化公司(網絡優化與推廣專家)作為數字營銷領域的核心服務提供方,其價值在于通過技術手段與策略規劃幫助企業提升線上曝光度、用戶轉化率及品牌影響力。這...
在當今數字化時代,公司網站已成為企業展示形象、傳遞信息和開展業務的重要平臺。然而,對于許多公司來說,網站建設的價格是一個關鍵考量因素。本文將圍繞“公司網站建設價...
在當今的數字化時代,企業網站已成為企業展示形象、吸引客戶和開展業務的重要平臺。然而,對于許多中小企業來說,高昂的網站建設費用可能會成為其發展的瓶頸。幸運的是,隨...
如何才能得到騰訊QQ公仔?你好!這是微信登錄的活動。您需要在手機上安裝微信應用程序,單擊我的,然后單擊登錄保存金幣。如果金幣夠了,你可以兌換或者畫QQ玩偶。大家還記得馬化騰的拍拍網嗎?大家都知道拍拍網是騰訊的購物網站。然而,即使有騰訊的堅強后盾,與同類淘寶網相比,其銷量也“慘不忍睹”。深圳哪有正版qq公仔買最好是南山或者是福田?不太清楚外面的商店在哪里能賣。我的QQ娃娃是騰訊公司和騰訊內部員工買的...
QQ怎么刪除聊天記錄?1.可以打開手機,你選一個聯系人,再點右上角聊天記錄設置。2.選擇聊天記錄,再點右上角的刪除掉。3.你選擇刪掉手機或刪出男街霸聊天記錄,然后點擊“判斷”。電腦扣扣如何刪除聊天記錄?徹底刪除電腦中的聊天記錄的具體看操作步驟萬分感謝:我們需要準備的材料有:電腦、。1、是需要我們先打開,直接點擊左下角“主菜單”按鈕。2、之后我們在該頁面中然后點擊打開“系統設置”按鈕。3、然后把我們...
baseball有多少成員?一個隊至少要有九個人。他們是投手、捕手、一壘手、二壘手、三壘手、游擊手、左外野手、中外野手和右外野手。韓國明星棒球隊是什么?有哪些棒球明星球員?名為Play Boys的韓國明星棒球隊由包括張東健、金承佑、黃政民、朱鎮模、池珍熙、孔炯一、宋哲仁、玄彬、鄭宇成和孔鋼在內的30多名藝術家組成。其中,張東健和鄭宇成為總經理,孔炯為隊長,金承佑為總裁。大家也約定十年不退隊。在棒球...