【導讀】隨著互聯(lián)網(wǎng)的普及化以及物聯(lián)網(wǎng)的快速發(fā)展,人們產(chǎn)生的數(shù)據(jù)也越來越多。早幾年前,馬云就突出了當前是“DT”時代的說法。但數(shù)據(jù)的多并不代表著就是好事,只有被利用起來的數(shù)據(jù)才是好事。有人將數(shù)據(jù)稱為是“新石油”,這個比喻是非常恰當?shù)?。因為石油本身沒有任何價值,它必須被提煉成汽油或塑料才有價值。同樣地,我們都被大量的數(shù)據(jù)淹沒了,但為了獲得真正的價值,這些數(shù)據(jù)必須被提煉成商業(yè)見解。
我們生活在一個越來越依賴數(shù)據(jù)的社會,信息正變得和金錢一樣。例如,許多消費者使用谷歌、Facebook、亞馬遜、微軟和蘋果等互聯(lián)網(wǎng)巨頭提供的免費服務。作為服務的回報,這些公司可以追蹤他們的在線行為,并進行商業(yè)化變現(xiàn)。
當前,這種交易的最大的問題之一就是開放性,人們的個人信息(有時是無意的)會泄露給為他們提供網(wǎng)絡服務的企業(yè)。近期在大西洋兩岸的投票都表明,有些數(shù)據(jù)管理機構能夠利用大量的用戶數(shù)據(jù)(包括人口統(tǒng)計數(shù)據(jù)、消費者行為和互聯(lián)網(wǎng)中的活動),來對廣告、新聞報道和服務進行微觀定位,以完成特定的目的。
顯然,數(shù)據(jù)閘門現(xiàn)在正在向各種規(guī)模和類型的企業(yè)開放。通過及時的分析,能夠給企業(yè)帶來很多的競爭優(yōu)勢。雖然說目前大部分企業(yè)都把目光偏向到客戶行為上,但數(shù)據(jù)可以在產(chǎn)品或服務供應鏈的多個環(huán)節(jié)中獲得,而且有多種形式——傳統(tǒng)的(結構化的)、臨時的(非結構化的)、實時的、物聯(lián)網(wǎng)——或者是M2M(譯者注:M2M全稱Machine to Machine,是指數(shù)據(jù)從一臺終端傳送到另一臺終端,也就是機器與機器的對話)生成的,等等。
成功利用大數(shù)據(jù)的公司可以節(jié)約成本,并提高運營效率,從數(shù)據(jù)驅動的創(chuàng)新中獲得豐厚的回報。同時,大數(shù)據(jù)也可以幫助企業(yè)實現(xiàn)數(shù)字化轉型,讓它們能夠在面對任何顛覆性的創(chuàng)業(yè)公司時保持競爭力。
然而,有用的商業(yè)見解不會自動從各種各樣的信息中浮現(xiàn)出來。企業(yè)必須識別、組織和分析可操作的數(shù)據(jù),并將數(shù)據(jù)分析的結果與業(yè)務相關部分結合起來。這需要規(guī)劃、預算以及合適的工具和專業(yè)知識等支持。
數(shù)據(jù)量到底有多少?
人們會定期估算每年全球產(chǎn)生的數(shù)據(jù)量,以及以何種形式產(chǎn)生數(shù)據(jù)。早在2014年IDC和EMC發(fā)布的報告中,2013年的數(shù)據(jù)量有4.4 ZB,即4.4萬億GB,并預測2020年這一數(shù)字將增長至44 ZB,每兩年翻一番。根據(jù)IDC和Seagate的數(shù)據(jù),估計2025年的數(shù)據(jù)量為163 ZB,比2016年的16.1 ZB增加10倍。
IDC 和Seagate報告還預測,全球范圍內的大部分數(shù)據(jù)來源將從消費者轉向企業(yè),后者產(chǎn)生的數(shù)據(jù)在2025年將占到整體的60%。根據(jù)這份報告,推動這種轉變的趨勢包括:數(shù)據(jù)從作為商業(yè)背景到?jīng)Q策關鍵的轉變;嵌入式系統(tǒng)和物聯(lián)網(wǎng)的發(fā)展;改變現(xiàn)狀的認知/人工智能系統(tǒng)的發(fā)展;移動和實時數(shù)據(jù)的產(chǎn)生;以及安全正在逐漸成為一個關鍵的基礎等等。
所有這些數(shù)據(jù)都需要一個“家”,要么是永久的,要么是暫時的,這就解釋了Seagate這樣的存儲公司是怎么掙錢的。
在發(fā)布這份報告的聲明中,Seagate首席執(zhí)行官Steve Luczo表示:雖然我們可以從研究報告中看出大數(shù)據(jù)時代已經(jīng)到來,但數(shù)據(jù)的價值并不是‘已知的’,而是‘未知的’,我們嚴重低估了這一潛力。真正令人興奮的是分析‘新業(yè)務、新思維和新生態(tài)系統(tǒng),從機器人和機器到機器學習等行業(yè)’,以及它們帶給我們社會和經(jīng)濟的影響。數(shù)據(jù)能夠給今天和未來的企業(yè)家?guī)砭薮蟮膬r值,我們的全球商業(yè)領袖將在未來幾十年里探索這些機會。”
都有哪些數(shù)據(jù)?
當然,并不是所有數(shù)據(jù)都能夠用于分析。例如,在2025年的數(shù)據(jù)時代報告中,IDC估計到2025年,全球數(shù)據(jù)中大約20%的數(shù)據(jù)對我們的日常生活至關重要,其中10%的數(shù)據(jù)將會是“超級關鍵”的。
該報告指出:“超級關鍵數(shù)據(jù)的出現(xiàn),迫使企業(yè)必須開發(fā)和部署數(shù)據(jù)采集、分析和基礎設施;保證數(shù)據(jù)存儲的可靠性、可用性以及更安全的系統(tǒng);并進行新的業(yè)務實踐,甚至制定新的政策與規(guī)定,來減輕、轉移和削弱潛在的負債風險?!?/p>
人工智能和機器學習將越來越多地參與到大數(shù)據(jù)分析中,這進一步限制了可用的數(shù)據(jù)量。在報告中,IDC估計,到2025年底,全球數(shù)據(jù)中被標記的只有15%,所以才適合人工智能/機器學習分析。
大數(shù)據(jù)趨勢和預測
每年,各種技術領域的專家都會對當前的趨勢進行總結,并對未來12個月做出預測。大數(shù)據(jù)也不例外,我們整理了多個專家在2017年做出的預測,并對這些預測進行了分類。以下是一些分析結果:
數(shù)據(jù)主要來自:Acodez,Big Data Made Simple,Datafloq,Datameer,Enterra解決方案,Gartner,惠普,IBM,Infogix,MapR,甲骨文,Ovum,Pentaho,Quantzig,RTInsights,Sysmech,Tableau軟件對于大數(shù)據(jù)行業(yè)觀察者來說,2017年最有影響力的領域是人工智能、機器學習、自動化和認知系統(tǒng)。例如,分析公司Ovum認為,“機器學習是一個巨大的顛覆者”、“嵌入式機器學習的分析應用正成為常態(tài)”。
如果企業(yè)要避免被數(shù)據(jù)淹沒,提高自動化水平幾乎是不可避免的——或者,正如Enterra Systems所言:“隨著數(shù)據(jù)量的增加,人工智能將變得越來越重要。”
另外一個重要的話題是“數(shù)據(jù)驅動的商業(yè)決策”的出現(xiàn)。甲骨文簡潔地指出,“應用,而不僅僅是分析,推動了大數(shù)據(jù)的進程”,而Gartner預測“數(shù)據(jù)和分析將推動現(xiàn)代商業(yè)運營,而不僅僅是反映他們的業(yè)績”。
此外,在2017年的預測中被廣泛關注的還涉及信息、數(shù)據(jù)科學與數(shù)據(jù)工程、大數(shù)據(jù)擴散與治理以及基于云的分析與集成數(shù)據(jù)服務。
一些調查報告
自2012年以來,管理咨詢公司NewVantage Partners(NVP)一直在調查財富1000強企業(yè)的大數(shù)據(jù)部署情況,并于2017年4月發(fā)布了第五份報告(調查對象是這些公司的管理者)。
NVP的大數(shù)據(jù)調查顯示,80.7%的受訪者認為他們的大數(shù)據(jù)投資是成功的,有48.4%的受訪者表示“結果是可以測量的”。后者被細分為“極致成功”(顛覆性/創(chuàng)新/變革型,21%)和“非常成功”(進化型,27.4%)。
正在進行的各種大數(shù)據(jù)相關項目中,排名第一的是“通過運營來降低成本,提高效益”,占比72.6%。68.7%的受訪者認為這是一個“為創(chuàng)新和顛覆創(chuàng)造新的途徑”。
盡管有很多公司都啟動了相關項目,并取得了不小的成果。但根據(jù)NewVantage Partners的報告。在《財富》1000強的企業(yè)中,似乎仍難以建立數(shù)據(jù)驅動的企業(yè)文化:69.4%的公司已經(jīng)開始采取行動,但只有27.9%的公司表示有效果。
在為什么難以建立一個數(shù)據(jù)驅動的企業(yè)文化問題中,NVP的調查發(fā)現(xiàn),“組織協(xié)調不足”的比例在42.6%左右,排在“缺乏中層管理人員接受和理解”(41%)和“商業(yè)阻力或缺乏理解”(41%)之前。
上面的圖表顯示,難以建立一個數(shù)據(jù)驅動的企業(yè)文化的阻礙是業(yè)務部門,而不是IT部門。因為數(shù)據(jù)整理、技術理解和數(shù)據(jù)分析方法等問題基本上沒有多少應答者提及(小于30%)。
首席數(shù)據(jù)官(CDO),是企業(yè)具有數(shù)據(jù)驅動型的文化,或正在實現(xiàn)這一目標的關鍵指標。調查顯示,財富1000強的企業(yè)近年來在這方面取得了進步。
雖然說,擁有CDO的公司的數(shù)量已經(jīng)從2012年的12%提升到了2016年的60%。但是大多數(shù)(56%)受訪者認為他們目前的角色是“防御性”的——主要是對監(jiān)管和合規(guī)要求做出反應。
展望未來,受訪者認為CDO應該變得更具“攻擊性”——帶頭推動創(chuàng)新,打造數(shù)據(jù)文化,并將數(shù)據(jù)管理轉變?yōu)槠髽I(yè)資產(chǎn)。
這大概就是為什么大多數(shù)人(53.4%)認為,CDO應該向首席執(zhí)行官(35.6%)或首席運營官(17.8%)匯報,而不是首席信息官(15.6%)。
NVP的調查還詢問了受訪者,除了大數(shù)據(jù)之外,還有什么會在未來10年里對自己的企業(yè)產(chǎn)生影響。人工智能和機器學習的排名靠前,這一點也不奇怪——無論是單選還是多選。
從歐洲的角度來看,我們研究了荷蘭數(shù)據(jù)咨詢公司GoDataDriven的大數(shù)據(jù)調查,調查對象來自2016年荷蘭的大數(shù)據(jù)博覽會參會人員。共有315人,包括168名高管和147名經(jīng)理。
當被問及成功推進大數(shù)據(jù)為企業(yè)的主要驅動力有哪些因素時,71.4%的受訪者表示是“清晰的愿景”,其次是“管理層的支持”(51.2%)和“系統(tǒng)支持和流程支持”(40.1%)。
與上面的NewVantage調查一樣,當涉及到大數(shù)據(jù)戰(zhàn)略推進的阻礙時,“業(yè)務”因素似乎比“IT”問題更突出。
當然,這并不是說IT問題不重要。當被問及建立大型數(shù)據(jù)基礎設施的挑戰(zhàn)時,排名靠前的兩種回答涉及數(shù)據(jù)質量和數(shù)據(jù)可用性:
一旦有了足夠多的高質量數(shù)據(jù)時,在企業(yè)以數(shù)據(jù)為驅動力的流程建立好之后,受訪者將“大數(shù)據(jù)知識和數(shù)據(jù)科學的訓練”列為最大的挑戰(zhàn),占比47.4%。
與NewVantage Partners一樣,GoDataDriven也向受訪者詢問了人工智能的情況。盡管目前只有14.3%的人實際運用了深度學習和人工智能,但52%的人要么正在開發(fā),要么計劃在三年內運用深度學習和人工智能。
人工智能肯定是在公司的議程上,但顯然是在早期階段:在這一領域中,只有五分之一(21.5%)的受訪者表示沒有計劃。
專家怎么看?
為了解大數(shù)據(jù)的運行狀況,我們采訪了Sumit Nijhawan。他是提供數(shù)據(jù)治理解決方案企業(yè)Infogix的首席執(zhí)行官和總裁,他們對2017年數(shù)據(jù)趨勢進行了前瞻性分析,以下是采訪中的一些關鍵觀點。
“幾乎所有的客戶都有一個大數(shù)據(jù)計劃,許多項目都進行了大量的投資。但他們所取得的進步,他們從投資中獲得的價值,往往無法達到預期效果。”Nijhawan一開始就這樣說道。
他補充說:“我們正在與客戶合作的一些事情,我們認為是可以帶來變革的。主要是數(shù)據(jù)治理、數(shù)據(jù)準備、自助服務和更小的數(shù)據(jù)湖(譯者注:數(shù)據(jù)湖泊是包含下面兩個特征的信息系統(tǒng):a.可以保存大數(shù)據(jù)的并行系統(tǒng);b.能夠在數(shù)據(jù)不移動的情況下進行計算的系統(tǒng))部署的結合?!?/p>
?問:所以你會說,從大數(shù)據(jù)中獲取商業(yè)洞察的主要瓶頸是“發(fā)現(xiàn)公司所擁有的有價值數(shù)據(jù),并使其可供分析”?
“是的,大部分的關注點都是提供存儲環(huán)境——Hadoop,并讓每個人都能將任何數(shù)據(jù)轉儲到其中?!边@里要注意兩件事情:首先,向Hadoop存儲數(shù)據(jù)的目標是什么?其次,即使數(shù)據(jù)存在,但是無法管理,無法搜索,也無法挖掘,而且也沒有辦法使用數(shù)據(jù)去吸引消費者,來幫助企業(yè)獲得價值。它非常依賴于技術,仍然需要技術人員來處理它。這并不是從這些投資中獲取價值的最佳方式?!?/p>
?問:這是否意味著“業(yè)務”與科技之間存在脫節(jié)——組織需要培養(yǎng)“數(shù)據(jù)文化”,讓業(yè)務部門知道如何正確地分析數(shù)據(jù),并產(chǎn)生商業(yè)洞察力?
“我們當然需要以數(shù)據(jù)驅動的企業(yè)文化。這并不是IT人員不想分享的東西。只是他們有這些工具,他們覺得自己做得很好,但他們并不知道分析數(shù)據(jù)最終的目標是什么。這就是為什么需要業(yè)務驅動了,否則很難實現(xiàn)任何有意義的事情?!?/p>
?問:在許多組織中是否存在缺失的一環(huán)——首席數(shù)據(jù)官(CDO),誰能將業(yè)務部門連接到IT部門?
“這絕對是一個缺失的環(huán)節(jié),但我不會說這只是一個人的問題。剛剛提到的“數(shù)據(jù)文化”指的是人、流程和技術,以及數(shù)據(jù)本身。這實際上是一個關于端到端的流程:這是如何從數(shù)據(jù)中獲取所需數(shù)據(jù)的方式,也是如何處理數(shù)據(jù)的方式,更是如何交付數(shù)據(jù)的方式。這個端對端流程需要由業(yè)務負責人來發(fā)起,當然也可以是CDO。如今,首席數(shù)據(jù)官這個職位的問題在于,在許多企業(yè)中,它幾乎都是一種官僚主義的立場:該CDO據(jù)稱具有影響力,但最終卻成為了供應商用來推銷技術的人,而不是那些為了實現(xiàn)商業(yè)目標而在那里工作的人?!?/p>
?問:當你與客戶交談時,目前哪些數(shù)據(jù)相關的技能最火?一些分析人士發(fā)現(xiàn),企業(yè)對數(shù)據(jù)科學家的需求有所減弱。
“我認為需求正在減弱,但這并不是因為數(shù)據(jù)科學家的數(shù)量太多了。而是因為現(xiàn)有的數(shù)據(jù)科學家無法實現(xiàn)企業(yè)想要的價值。因此,問題就變成了:如果企業(yè)沒有獲得價值,那么招募更多的數(shù)據(jù)科學家有什么意義?為什么企業(yè)的運營人員、數(shù)據(jù)分析師不能更好的處理這些數(shù)據(jù)呢?
老實說,他們可以做到,因為數(shù)據(jù)科學家所解決的80%的問題都可以通過20%的算法來解決——而且這些算法都以易于使用的方式公開了,數(shù)據(jù)分析師和業(yè)務分析師可以將這些數(shù)據(jù)整合到運營和業(yè)務流程中。我認為這種情況正在發(fā)生,結果是對數(shù)據(jù)科學家的需求減少了。”
?問:我們經(jīng)常聽到“自助式”分析,讓更少的專家參與進來。你認為這個技術發(fā)展到什么程度了呢?
“我們對客戶的做法是,我們首先會看到他們的數(shù)據(jù)湖項目在什么地方,然后告訴他們:也許你不需要花幾個月和數(shù)百萬美元來使用這些整合的開源技術。我們將為你提供一個完全自助服務的端到端設備,設備中所有東西都集成了,你所要做的就是使用這些數(shù)據(jù)來進行決策。你可以解雇你的業(yè)務人員,數(shù)據(jù)科學家,無論誰。這在市場上獲得了很大的吸引力。
?問:每個人都在談論機器學習和人工智能,你認為它將會在大數(shù)據(jù)領域發(fā)揮作用嗎?
“它已經(jīng)存在了一段時間了,但是現(xiàn)在有很多關于它的新聞。就像我之前說過的那樣,80%的問題可以通過20%的機器學習算法解決,比如切分、推薦、分類、回歸和預測。我們關注的一個領域是大數(shù)據(jù)的質量,傳統(tǒng)的數(shù)據(jù)質量一直都是關于精確匹配規(guī)則和重復規(guī)則等方面?,F(xiàn)在數(shù)據(jù)量很高,人們向數(shù)據(jù)湖存儲更多的數(shù)據(jù),他們并不知道確切的規(guī)則是什么。相反,我們正在使用機器學習算法,比如切分和分類來尋找異常值。這就是機器學習已經(jīng)增加了很多價值的地方——但同樣的,你不需要非常成熟的數(shù)據(jù)科學家來做這件事?!?/p>
?問:最后,你是否認為,隨著自助工具的出現(xiàn)以及非專家、甚至“公民數(shù)據(jù)科學家”的參與,大數(shù)據(jù)領域正在進行民主化?
“我認為這是會發(fā)生的。這是對‘大數(shù)據(jù)’的投資能夠持續(xù)、價值實現(xiàn)的唯一方式——沒有其他選擇。在IT和供應商領域,有足夠多的人來推動這個問題,并找到能夠實現(xiàn)這一目標的方法,可能還有三到五年的時間。在這期間,人們可能不會過多談論“大數(shù)據(jù)”。相反,他們會談論以自助服務方式交付的大數(shù)據(jù)的分析結果?!?/p>
前景:
關于數(shù)據(jù)的各個方面還有很多,未來也會有更多的數(shù)據(jù),但如果要經(jīng)常把大數(shù)據(jù)轉化為有價值的商業(yè)見解,企業(yè)還有很多工作要做。數(shù)據(jù)驅動型企業(yè)文化的建立以及數(shù)據(jù)科學家和工程師的增多(無論是從外部招募還是在內部培訓),都將有助于推動這一過程,至少在短期內是如此。
正如天文學家Clifford Stoll所說:“數(shù)據(jù)不等于信息,信息不等于知識,知識不等于理解,理解不等于智慧?!?/p>
因此,數(shù)據(jù)科學家和工程師將需要從大量不同種類的數(shù)據(jù)中提取信息和知識,數(shù)據(jù)驅動的文化將確保提出正確的問題,從而讓理解——甚至是智慧——到達企業(yè)的相關部門。
展望未來,自動化水平越來越高——尤其是在數(shù)據(jù)準備領域,以及自助服務分析工具的普及,將使專家之外的運營人員輕松獲得從數(shù)據(jù)中得出的見解。
來源:數(shù)據(jù)觀