大數據的前世今生 |
|||
來源: | 發布時間:2015年05月19日|||
摘要:
|
|||
什么是大數據(big data)?它在百度百科上的概念是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。 這 個晦澀難懂的概念用一個例子就能說清,劉邦為什么能戰勝項羽?在歷史的角度上原因很多,但從今天的話題來看,因為劉邦掌握了“大數據”。劉邦的隊伍進入咸 陽后,蕭何將秦朝有關國家戶籍、地形、法令等圖書檔案一律收走。這些秦朝的律令圖書檔案就相當于大數據,使劉邦對天下的關塞險要、戶口多寡、強弱形勢、風 俗民情等了如指掌,從而制定了正確的方針政策和律令制度,找到了可靠的依據,對日后打敗項羽、西漢政權的建立和鞏固,起到了巨大的作用。這個故事看似不太 著邊際,卻一目了然的解釋了“大數據”的作用。 而在網絡時代的當下,大數據的數量規模、復雜程度早已不是人工可以掌握的, 這個數據量有多大?舉一個直觀的例子:每天互聯網上要發出2940億封郵件,200萬篇博客,1288個新應用可供下載,數據流量可以刻1.68億張 DVD光盤。如此數量巨大、結構復雜、類型眾多數據構成的數據集合,只有基于云計算的數據處理與應用模式下,通過數據的整合共享,交叉復用,才能形成智力 資源和知識服務能力。 講到這里,很多概念性的名詞蹦出,比如“云計算、云平臺”,恐怕有很多人不明白其含義,以及大數據的產生的背景和演變的過程,大數據應用的知識和常識以對社會發展產生的革命性變化等。對此我們專訪了中金數據系統有限公司云計算研發部副總監關懿新。 什么是大數據 “大數據并非新鮮事物,它早就存在,以前在軟件行業,叫數據挖掘,企業通過報表、分析、圖表、走向趨勢、生產量分析其中的關系,發掘出能反映的問題,數據挖掘更多體現在傳統的軟件應用里面,只不過大家不太注意?!标P懿新說道。 其實大數據并非一個確切的概念。最初這個概念是指需要處理的信息量過大,已經超出了一般電腦在處理數據時所能使用的內存量,因此工程師們必須改進處理數據的工具,這導致了新的處理技術的誕生。 “大 數據的發掘能夠被廣泛應用也是因為技術的進步,使得海量的計算資源可以被計算。最早因為谷歌搜索引擎的崛起,建立一套不對外的海量數據處理平臺 MapReduce,后來開源的軟件仿照它的理論做了Hadoop平臺。國內最早的巨型機,比如銀河機、天河機也是非常昂貴?!标P懿新進一步說到,隨著互 聯網的發展,這些技術使得人們可以處理的數據大大增加。而且這些數據不再需要用傳統的數據庫表格來整齊地排列,一些可以消除僵化的層次機構和一致性的技術 出現,互聯網公司可以收集大量更有價值的數據。 2011年5月,麥肯錫全球研究院發布了名為《大數據:創新、競爭和生產力的 下一個前沿》的研究報告,報告中指出大數據將成為企業的核心資產,對大數據的分析將成為競爭的關鍵,并會引發新一輪生產力的增長與創新,對海量數據的有效 利用將成為企業在競爭中取勝的最有利武器。麥肯錫還預測通過對大數據的合理使用可以使零售業的經營利潤提高60%以上。 麥肯錫的報告發出后,大數據的概念迅速得到了IT界的熱捧。 隨著平臺逐步的成熟,當這些數據進入商用,互聯網公司順利成章地 成為了最新處理技術的領頭羊,他們甚至超過了很多有幾十年經驗的線下公司,成為新技術的領銜使用者。這僅僅是一個開始,當大數據時代進入了我們的生活,在 各行各業遍地開花的時候,正式開啟了重大的時代轉型。到今天“大數據”的概念已經在業界內外和大眾媒體上沸沸揚揚地廣為傳播,并不斷涌現出這個方向上的努 力與創新。 云計算與云平臺 云計算的概念最早出現在2006年,在當年8月舉行的搜索引擎戰略大會上,谷歌CEO施密特在回答主持人提問的時候,第一次使用了“云”(cloud)這個詞來描述他的服務器。 其 實這樣的想法由來已久。早在1995年,為了對抗快速崛起的微軟,甲骨文(Oracle)公司的CEO拉里?埃里森就推出了一款名為“網絡計算機”的設 備,當時售價500美元,不需要安裝微軟的操作系統就可以使用。埃里森揶揄道:“個人電腦(PC)是一種可笑的設備。”他設想這樣一臺設備,可以像插入插 座獲得電力一樣,即插就能獲得數據。但是,這款設備生不逢時,很快就退出了市場,因為當時的網絡傳輸速度極慢,產生的數據也沒有那么大,在自家的電腦上就 可以輕松完成。但是,埃里森的這個想法卻深深地影響了硅谷,奠定了現在云計算的雛形。 近幾年云計算作為一個時髦的名詞,在商界、學術界甚至政府界都拼命的在各自的產品、技術、報告和文件中與之關聯。一時間,云存儲、云手機、云電腦等概念甚囂塵上,但始終有種云里霧里的感覺。 “云 計算是把大量的數據資源架構在互聯網上,或者說是云端,一個你看不到,但是能夠給你提供服務、能夠調動大量的計算機資源給你提供服務的地方。比如說你需要 這種服務,需要十臺計算機或者一百臺計算機,但你不需要把計算機都買過來,云計算是可以提供大規模的計算機,遠程地為你提供服務?!标P懿新解釋道。 云計算能夠提供可彈性的計算資源在商業上為客戶進行服務。中金曾經為某三維動畫制作公司做3D效果的渲染,因為這家公司做完這部片子就不再需要這個服務,所以不打算購買計算機但可以租用了中金的計算機的服務。 “客戶根據需要多長時間、多少臺機器來付費就可以了。這樣的服務在互聯網企業剛起步的時候,需要的資源比較少,可以租少量的服務器,隨著業務的快速擴張,可以從云端租用大量的服務器來支撐他們的業務?!标P懿新說:“這樣比自己購買計算機省下了一大筆錢和精力。” 云 平臺是海量計算機管理的平臺,它是虛擬的平臺,且靈活可變,在中金數據系統有限公司采訪時,記者看到了機房里一臺臺服務器,云平臺的概念是用一個軟件把這 一百臺服務器管理起來,需要計算的時候就在上面產生一臺虛擬機器,而這臺機器所用的CPU是下面一百臺物理機提供的。因為一臺物理機可以根據它的能力產生 若干臺虛擬的計算機,所以客戶可以根據需求來定制這臺虛擬計算機來提供服務,服務完成之后這臺虛擬計算機就自動消掉了。 云平 臺分為幾個層次,IAAS基礎層是虛擬機一層,負責動態管理物理資源,PAAS平臺層提供更基礎的軟件層,一般面向開發商,提供報表、數據分析、數據庫的 服務。SAAS是軟件層,直接提供軟件服務,為客戶直接從手機端、PC端提供服務,客戶直接從軟件上看到結果。比如輿情服務、信息推薦等。 大數據與云計算 大 數據催生了云計算,反過來,云計算又進一步激發了人們對大數據的認識。從表面上看,大數據和云計算是兩個完全不同的概念,從技術上看,大數據與云計算的關 系就像一對完美搭檔,二者存在很多的交集,相互依賴。大數據必然無法用單臺的計算機進行處理,必須采用分布式計算架構。它的特色在于對海量數據的挖掘,但 它必須依托云計算的分布式處理。 大數據的出現,為云計算提供了釋放能量的空間,也指明了云計算真正有價值的方向。大數據對云 環境有著很高的依賴,云計算不僅大大提高了企業處理大數據的計算能力,而且不需要投入和管理過多的硬件設備,按照需要進行付費,有效地優化現有的資源。從 這一層意義上來說,云計算為大數據提供了保管的場所和暢通的訪問渠道。大數據作為企業的核心資產,對其進行有效的盤活,發掘出其在商業決策中的巨大價值是 云計算的內在靈魂和必然的升級方向。 “互聯網公司通過云計算為企業提供服務,近些年在全國建立了很多數據中心,當時提倡的概 念是集約化建設。通過建設集中的數據中心之后,很多單位只需要租用數據中心的服務。”關懿新打了個比方:“簡單說,原來各個單位都在建小機房,后來集中成 一個大機房,提供動態的資源分配為各個單位服務。” 逐漸這個概念得到推廣,政府把原來只是在IT界的“云計算”推廣得更大、 更遠,開始建設云計算中心?!按蠹s從2010年開始,云計算的計算能力升級,能夠把若干臺機器統一管理,進行大規模的運算,能對海量的數據進行運算。于是 互聯網公司把數據挖掘應用的更加廣泛。云計算中心分為幾種,一種是私有云,在政府或企業范圍內建作內部使用;一種是公有云,在互聯網企業界,比如微軟、谷 歌、阿里巴巴等,公眾可以訪問,但云計算的安全性、可用性以及成本等方面仍存在諸多的疑慮;另一種是混合云,就是把私有云和公有云混合在一起。”關懿新說 道:“當大數據和百姓的衣食住行息息相關時,是它推廣速度最快的時候。比如前一段出現的騰訊推出的嘀嘀打車、平安推出的網絡保險,就是基于大數據的分析和 挖掘,對數據進行分析,推算出用戶的需求,產生商業的應用來影響到每個人的生活。” “什么是大數據?”當我們再回頭思考時,這個問題看似簡單,卻也很難回答。仁者見仁,智者見智,有人說,大數據就像一個神奇的鉆石礦,當它的首要價值被發掘后仍能不斷給予。也有人說大數據像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而大部分隱藏在表面之下…… 大數據不僅是一個技術,未來或許將成為一個行業,依然讓人琢磨不透,這就是大數據的魅力。 |
|||
|