大數據是收集,組織,處理和收集大型數據集洞察所需的非傳統策略和技術的總稱。雖然處理超過單個計算機的計算能力或存儲的數據的問題并不新鮮,但近年來這種類型的計算的普遍性,規模和價值已經大大擴展。
大數據是收集,組織,處理和收集大型數據集洞察所需的非傳統策略和技術的總稱。雖然處理超過單個計算機的計算能力或存儲的數據的問題并不新鮮,但近年來這種類型的計算的普遍性,規模和價值已經大大擴展。
“大數據”的確切定義很難確定,因為項目,供應商,從業者和商業專業人士使用它的方式完全不同??紤]到這一點,一般來說,大數據是:
在此上下文中,“大數據集”表示數據集太大而無法使用傳統工具或在單個計算機上合理地處理或存儲。這意味著大數據集的共同規模不斷變化,并且可能因組織而異。
使用大數據的基本要求與使用任何大小的數據集的要求相同。然而,在設計解決方案時,大規模,攝取和處理的速度以及在過程的每個階段必須處理的數據的特征提出了重大的新挑戰。大多數大數據系統的目標是從大量異構數據中獲得使用傳統方法無法實現的洞察力和連接。
2001 年,Gartner 的 Doug Laney 首次提出了所謂的“大數據的三個 V”來描述使大數據與其他數據處理不同的一些特征:
處理的信息規模很大,有助于定義大數據系統。這些數據集可以比傳統數據集大幾個數量級,這需要在處理和存儲生命周期的每個階段進行更多思考。
通常,由于工作要求超出了單臺計算機的功能,因此這成為了從計算機組中匯集,分配和協調資源的挑戰。能夠將任務分解成更小部分的集群管理和算法變得越來越重要。
大數據與其他數據系統顯著不同的另一種方式是信息在系統中移動的速度。數據經常從多個來源流入系統,并且通常需要實時處理以獲得見解并更新當前對系統的理解。
這種對近乎即時反饋的關注促使許多大數據從業者遠離面向批處理的方法,更接近實時流媒體系統。數據不斷被添加,按摩,處理和分析,以便跟上新信息的涌入,并在最相關時及早發現有價值的信息。這些想法需要具有高可用組件的強大系統,以防止數據管道中的故障。
大數據問題通常是獨特的,因為處理的來源和它們的相對質量都很廣泛。
數據可以從內部系統(如應用程序和服務器日志),社交媒體源和其他外部 API,物理設備傳感器以及其他提供商處獲取。大數據旨在通過將所有信息整合到單個系統中來處理潛在有用的數據,而不管它來自何處。
媒體的格式和類型也可能有很大差異。圖像,視頻文件和錄音等富媒體與文本文件,結構化日志等一起被攝取。雖然更傳統的數據處理系統可能希望數據進入已標記,格式化和組織的管道,但大數據系統通常接受和存儲數據更接近其原始狀態。理想情況下,原始數據的任何轉換或更改都將在處理時在內存中進行。
不同的個人和組織建議擴大原有的三個 V,盡管這些提議傾向于描述挑戰而不是大數據的質量。一些常見的補充是:
那么在處理大數據系統時如何實際處理數據呢?雖然實施方法不同,但我們可以談論的策略和軟件有一些共性。雖然下面列出的步驟可能并非在所有情況下都適用,但它們被廣泛使用。
涉及大數據處理的一般活動類別是:
在詳細介紹這四個工作流程類別之前,我們將花點時間討論集群計算,這是大多數大數據解決方案采用的重要策略。建立計算集群通常是每個生命周期階段使用的技術的基礎。
由于大數據的質量,個人計算機通常不足以在大多數階段處理數據。為了更好地滿足大數據的高存儲和計算需求,計算機集群更適合。
大數據集群軟件結合了許多小型機器的資源,力求提供許多好處:
使用群集需要一個解決方案來管理群集成員資格,協調資源共享以及在各個節點上安排實際工作。集群成員資格和資源分配可以由 Hadoop 的 YARN(代表 Yet Another Resource Negotiator)或 Apache Mesos 等軟件處理。
組裝的計算集群通常充當其他軟件與處理數據接口的基礎。計算集群中涉及的機器通常也涉及分布式存儲系統的管理,我們將在討論數據持久性時討論這些問題。
數據攝取是獲取原始數據并將其添加到系統的過程。此操作的復雜性在很大程度上取決于數據源的格式和質量以及數據在處理之前與期望狀態的距離。
可以將數據添加到大數據系統的一種方法是專用攝取工具。Apache Sqoop 等技術可以從關系數據庫中獲取現有數據,并將其添加到大數據系統中。同樣,Apache Flume 和 Apache Chukwa 是旨在聚合和導入應用程序和服務器日志的項目。像 Apache Kafka 這樣的排隊系統也可以用作各種數據生成器和大數據系統之間的接口。像 Gobblin 這樣的攝取框架可以幫助在攝取管道的末尾聚合和規范化這些工具的輸出。
在攝取過程中,通常會進行一定程度的分析,分類和標記。此過程有時稱為 ETL,表示提取,轉換和加載。雖然該術語通常是指遺留數據倉庫過程,但是一些相同的概念適用于進入大數據系統的數據。典型的操作可能包括修改傳入數據以對其進行格式化,對數據進行分類和標記,過濾掉不需要的或不良的數據,或者可能驗證它是否符合某些要求。
考慮到這些功能,理想情況下,捕獲的數據應盡可能保持原始狀態,以便在管道上進一步提高靈活性。
攝取過程通常將數據交給管理存儲的組件,以便可以可靠地持久保存到磁盤。雖然這似乎是一個簡單的操作,但是傳入數據量,可用性要求和分布式計算層使得更復雜的存儲系統成為必需。
這通常意味著利用分布式文件系統進行原始數據存儲。像 Apache Hadoop 的 HDFS 文件系統這樣的解決方案允許在群集中的多個節點上寫入大量數據。這確保了計算資源可以訪問數據,可以將數據加載到集群的 RAM 中以進行內存操作,并且可以優雅地處理組件故障??梢允褂闷渌植际轿募到y代替 HDFS,包括 Ceph 和 GlusterFS。
還可以將數據導入其他分布式系統,以實現更加結構化的訪問。分布式數據庫,尤其是 NoSQL 數據庫,非常適合此角色,因為它們通常設計有相同的容錯考慮因素,并且可以處理異構數據。有許多不同類型的分布式數據庫可供選擇,具體取決于您希望如何組織和呈現數據。
一旦數據可用,系統就可以開始處理數據以顯示實際信息。計算層可能是系統中最多樣化的部分,因為需求和最佳方法可能會根據所需的洞察類型而有很大差異。數據通常由一個工具迭代地重復處理,或者通過使用許多工具來表示不同類型的見解。
批處理是一種計算大型數據集的方法。該過程包括將工作分成更小的部分,在單個機器上安排每個部件,根據中間結果重新調整數據,然后計算和組裝最終結果。這些步驟通常分別稱為分裂,映射,改組,縮減和組裝,或統稱為分布式地圖縮減算法。這是 Apache Hadoop 的 MapReduce 使用的策略。在處理需要大量計算的非常大的數據集時,批處理最有用。
雖然批處理非常適合某些類型的數據和計算,但其他工作負載需要更多的實時處理。實時處理要求立即處理和準備信息,并要求系統在新信息可用時作出反應。實現此目的的一種方式是流處理,其對由各個項組成的連續數據流進行操作。實時處理器的另一個共同特征是內存計算,它與集群內存中數據的表示一起使用,以避免必須寫回磁盤。
Apache Storm,Apache Flink 和 Apache Spark 提供了實現實時或近實時處理的不同方法。這些技術中的每一種都存在權衡,這可能會影響哪種方法最適合任何個別問題。通常,實時處理最適合分析正在快速更改或添加到系統的較小數據塊。
由于在大數據系統中處理的信息類型,隨著時間的推移識別數據的趨勢或變化通常比值本身更重要??梢暬瘮祿前l現趨勢和理解大量數據點的最有用方法之一。
實時處理經常用于可視化應用程序和服務器度量標準。數據經常變化,指標中的大量增量通常表明對系統或組織的健康狀況產生重大影響。在這些情況下,像 Prometheus 這樣的項目可用于將數據流作為時間序列數據庫處理并可視化該信息。
一種流行的數據可視化方法是使用 Elastic Stack,以前稱為 ELK 堆棧。由用于數據收集的 Logstash,用于索引數據的 Elasticsearch 和用于可視化的 Kibana 組成,Elastic 堆??梢耘c大數據系統一起使用,以便與計算結果或原始指標進行可視化交互。使用 Apache Solr 進行索引并使用名為 Banana 的 Kibana fork?進行可視化,可以實現類似的堆棧。由這些創建的堆棧稱為 Silk。
通常用于交互式數據科學工作的另一種可視化技術是數據“筆記本”。這些項目允許以有助于共享,呈現或協作的格式進行數據的交互式探索和可視化。這種可視化界面的流行示例是 Jupyter Notebook 和 Apache Zeppelin。
雖然我們在整個指南中嘗試定義概念,但有時在一個地方提供專業術語是有幫助的:
大數據是一個廣泛,快速發展的主題。雖然它并不適合所有類型的計算,但許多組織正在轉向某些類型的工作負載的大數據,并使用它來補充現有的分析和業務工具。大數據系統非常適合于表現難以檢測的模式,并提供對通過傳統方法無法找到的行為的洞察力。通過正確實施處理大數據的系統,組織可以從已有的數據中獲得令人難以置信的價值。
本文由 貴州做網站公司 整理發布,部分圖文來源于互聯網,如有侵權,請聯系我們刪除,謝謝!
網絡推廣與網站優化公司(網絡優化與推廣專家)作為數字營銷領域的核心服務提供方,其價值在于通過技術手段與策略規劃幫助企業提升線上曝光度、用戶轉化率及品牌影響力。這...
在當今數字化時代,公司網站已成為企業展示形象、傳遞信息和開展業務的重要平臺。然而,對于許多公司來說,網站建設的價格是一個關鍵考量因素。本文將圍繞“公司網站建設價...
在當今的數字化時代,企業網站已成為企業展示形象、吸引客戶和開展業務的重要平臺。然而,對于許多中小企業來說,高昂的網站建設費用可能會成為其發展的瓶頸。幸運的是,隨...
北京國家會議中心在什么地方?公交路線:地鐵4號線大興線地鐵2號線地鐵8號線,全程約23.4公里。1.從公益西橋乘坐地鐵4號線大興線,經過6站到達宣武門站。2.乘坐地鐵2號線,經過7站,到達鼓樓街站。3.乘坐地鐵8號線,經過4站,到達奧林匹克公園站(E出口)。4.步行約440米至國家會議中心。北京國家會議中心在什么地方?我想參加CP05伴侶節…但是不知道國家會議中心在哪里?地鐵可以直達嗎?我住的地方...
babyq的功能是什么?Baby q是國內人工智能公司圖靈機器人的產品。在其官方網站上,該公司稱自己為“中國最智能的機器人大腦”。在與Q寶寶聊天的過程中,可以結合聊天前后的語境,回答問題,理解語境的語義。babyQ怎么關閉?首先,打開手機上的QQ,然后點擊下面的聯系板找到babyq2,點擊名片右上角的更多,然后關閉“接收babyq消息推送”滑塊。這樣,babyq智能合作伙伴將不會收到消息請按照以下...
世界上最惡心的食物有哪些?吱吱三聲,蘸醬時吱吱,最后放進嘴里。你的舌頭能感覺到它在嘴里微微蠕動。然后上下牙齒咬合,讓它在你嘴里爆炸。請自行修復腸胃全世界最坑爹的工作日薪五萬元,你為什么覺得自己適合?附上一張自己的照片,不是美女,真實的圖片作為證明!在現實生活中,女孩們很活躍,而且會笑。他們比其他人作弊稍微多一些。他們活躍在朋友圈,戰無不勝。這一次他們看到了官方的賬戶共享點。他們正在找一塊地。他們希...