欄目導航
聯系我們

成都海擎科技有限公司

電話:028-65065822

郵箱:cdhaiqing@163.com

聯系人:袁女士

地址:成都市高新區天府三街69號

聯系我們

從十大技術和十家機構一覽大數據

添加時間:2015-01-16 10:01:21 文章來源:本站 瀏覽次數:125 次

根據最新的思科全球云指數報告,預計到2017年年底,全球數據中心年均IP流量將達到7.7ZB。總體而言,數據中心IP流量在2012年到2017年之間將以25%的復合年均增長率(CAGR)增長。 現在增長的速度更快,而且組織需要依靠大量的數據集幫助它們運營、量化和發展業務。在過去幾年里,大型數據庫經歷了從GB到TB再到PB級的發展過程。 此外,數據也不再是存儲在一個地方,隨著這些數據的增長以及云計算的發展,這些數據實現了分布式存儲。 幾乎所有行業都在發展大數據和數據科學 科學:大型強子對撞機每秒大約進行6億次碰撞。因此,只有當傳感器流數據小于0.001%的時候才有效,從四個大型強子對撞機實驗中產生的數據意味著每年將產生25PB的數據(統計于2012年),此外備份還會產生大量數據,備份后的數據有可能達到200PB。

研究:美國航空航天局的氣候模擬中心(NCCS)在其超級計算機平臺上存儲了約32PB的氣候觀測和模擬數據。 私有/公共:亞馬遜每天處理的后端操作達數百萬,此外還有超過50萬個第3方賣家的查詢操作。亞馬遜的核心技術運行在基于Linux的數據庫系統上,截至2005年,亞馬遜擁有世界上三個最大的Linux數據庫,容量分別達到了7.8TB、18.5TB、24.7TB。 組織被迫尋找新的創造性方法來管理和控制如此龐大的數據,目的不只是為了整理數據,而是要分析和挖掘數據來進一步發展業務,因此,一些開源大數據技術值得考慮: Apache HBase:這個大數據管理平臺建立在谷歌強大的BigTable管理引擎基礎上。作為具有開源、Java編碼、分布式多個優勢的數據庫,Hbase最初被設計應用于Hadoop平臺,而這一強大的數據管理工具,也被Facebook采用,用于管理消息平臺的龐大數據。 Apache Storm:用于處理高速、大型數據流的分布式實時計算系統。

Storm為Apache Hadoop添加了可靠的實時數據處理功能,同時還增加了低延遲的儀表板、安全警報,改進了原有的操作方式,幫助企業更有效率地捕獲商業機會、發展新業務。

Apache Spark:該技術采用內存計算,從多迭代批量處理出發,允許將數據載入內存做反復查詢,此外還融合數據倉庫、流處理和圖計算等多種計算范式,Spark用Scala語言實現,構建在HDFS上,能與Hadoop很好的結合,而且運行速度比MapReduce快100倍。

Apache Hadoop:該技術迅速成為了大數據管理標準之一。當它被用來管理大型數據集時,對于復雜的分布式應用,Hadoop體現出了非常好的性能,平臺的靈活性使它可以運行在商用硬件系統,它還可以輕松地集成結構化、半結構化和甚至非結構化數據集。 Apache Drill:你有多大的數據集?其實無論你有多大的數據集,Drill都能輕松應對。通過支持HBase、Cassandra和MongoDB,Drill建立了交互式分析平臺,允許大規模數據吞吐,而且能很快得出結果。

Apache Sqoop:也許你的數據現在還被鎖定于舊系統中,Sqoop可以幫你解決這個問題。這一平臺采用并發連接,可以將數據從關系數據庫系統方便地轉移到Hadoop中,可以自定義數據類型以及元數據傳播的映射。事實上,你還可以將數據(如新的數據)導入到HDFS、Hive和Hbase中。

Apache Giraph:這是功能強大的圖形處理平臺,具有很好可擴展性和可用性。該技術已經被Facebook采用,Giraph可以運行在Hadoop環境中,可以將它直接部署到現有的Hadoop系統中。通過這種方式,你可以得到強大的分布式作圖能力,同時還能利用上現有的大數據處理引擎。 Cloudera Impala:Impala模型也可以部署在你現有的Hadoop群集上,監視所有的查詢。該技術和MapReduce一樣,具有強大的批處理能力,而且Impala對于實時的SQL查詢也有很好的效果,通過高效的SQL查詢,你可以很快的了解到大數據平臺上的數據。

Gephi:它可以用來對信息進行關聯和量化處理,通過為數據創建功能強大的可視化效果,你可以從數據中得到不一樣的洞察力。Gephi已經支持多個圖表類型,而且可以在具有上百萬個節點的大型網絡上運行。

Gephi具有活躍的用戶社區,Gephi還提供了大量的插件,可以和現有系統完美的集成到一起,它還可以對復雜的IT連接、分布式系統中各個節點、數據流等信息進行可視化分析。

MongoDB:這個堅實的平臺一直被很多組織推崇,它在大數據管理上有極好的性能。MongoDB最初是由DoubleClick公司的員工創建,現在該技術已經被廣泛的應用于大數據管理。

MongoDB是一個應用開源技術開發的NoSQL數據庫,可以用于在JSON這樣的平臺上存儲和處理數據。目前,紐約時報、Craigslist以及眾多企業都采用了MongoDB,幫助他們管理大型數據集。

(Couchbase服務器也作為一個參考)。 在我們這個DOD(data-on-demand)社會,每天都有大量的數據產生,并且大量的數據被收集在主要IT系統中。無論是社交媒體的照片還是國際商店交易信息,大量高質量、可量化的數據每天都在爆炸性增加,應對的唯一方法就是快速部署一個高效的管理方案。 切記,除了要對數據進行快速的分類和組織,IT管理人員必須具有挖掘信息并將其應用到業務中的能力。商業智能和數據量化背后的科學將繼續發展和擴大,企業取得競爭優勢的關鍵在于能否對它們的數據進行很好的管理。

上一篇: 這是第一篇
中国老妇女毛茸茸BBWBABES,地铁上两个人一前一后攻击,HD老熟女BBN,男女超爽视频免费播放