目前大數(shù)據(jù)成了現(xiàn)代化企業(yè)的代名詞,很多企業(yè)在推行大數(shù)據(jù)項目時往往把項目規(guī)模和范圍做得很大,但是事實卻是,很多大數(shù)據(jù)項目分析都會失敗。2016年,Gartner估算約六成的大數(shù)據(jù)項目都會失敗。一年后,Gartner分析師Nick Heudecker表示,這個數(shù)據(jù)“過于保守”,大數(shù)據(jù)項目失敗率應接近85%。直至現(xiàn)在他也是這樣認為的。
并不只有Gartner這樣認為。前微軟高管Bob Muglia告訴分析網(wǎng)站Datanami,“我找不到完全滿意的Hadoop客戶。實際上,成功應用Hadoop的客戶數(shù)量可能少于20個,甚至可能少于10個。考慮到其存在時間以及行業(yè)投入,這個結果很令人震驚。
熟悉大數(shù)據(jù)的人都知道,這個問題是真實且嚴重的,而不完全是技術問題。事實上,相對于本質原因,技術是失敗的次要原因。以下是大數(shù)據(jù)項目失敗的四個主要原因,以及可以成功的四種方式。
Heudecker表示,大數(shù)據(jù)失敗背后存在著一個重要的技術問題,那就是整合多個來源的孤立數(shù)據(jù),以實現(xiàn)企業(yè)所需的數(shù)據(jù)處理能力。建立與孤立傳統(tǒng)系統(tǒng)的連接并不容易。他說,整合成本是軟件成本的五到十倍。其中最大的問題是簡單集成:如何將多個數(shù)據(jù)源鏈接在一起?很多人選擇數(shù)據(jù)湖路線,認為這個方式很簡單,但事實并非如此。
孤立數(shù)據(jù)是問題的一部分??蛻舾嬖V他,當他們將數(shù)據(jù)從系統(tǒng)提取到像數(shù)據(jù)湖這樣的公共環(huán)境中后,卻無法弄清楚這些值的含義?!爱斈銓?shù)據(jù)輸入數(shù)據(jù)湖時,怎么知道數(shù)字3意味著什么?”Heudecker問道。
普華永道(PwC)高級研究員Alan Morrison表示:“由于是在孤島中工作,或者創(chuàng)建的數(shù)據(jù)湖只是數(shù)據(jù)沼澤,所以他們能完成的工作只是冰山一角?!薄八麄儾焕斫鈹?shù)據(jù)中的關系,這些關系需要挖掘或推斷,以便機器能夠充分解釋這些數(shù)據(jù)。另外,他們需要創(chuàng)建一個知識圖層,以便機器能夠解釋下面映射的所有實例數(shù)據(jù)。否則,數(shù)據(jù)湖只能是一個數(shù)據(jù)沼澤,”
大多數(shù)人以為企業(yè)在進行大數(shù)據(jù)項目時會有明確的目標,但實際并不是這樣的。很多公司通常是先啟動項目,然后才去想目標。
數(shù)據(jù)集成軟件公司Talend的產(chǎn)品營銷經(jīng)理Ray Christopher表示,“你必須認真審視這個問題。人們認為他們可以將結構化和非結構化數(shù)據(jù)連接起來,從而獲得所需的信息。然而這必須提前確定目標,你想要什么樣的信息?”
企業(yè)應用咨詢公司的首席分析師Joshua Greenbaum表示,困擾大數(shù)據(jù)和數(shù)據(jù)倉庫項目的部分原因是指導標準通常是大量數(shù)據(jù)的積累,而不是解決業(yè)務問題。
Greenbaum說,“如果將大量數(shù)據(jù)匯總在一起,就會得到數(shù)據(jù)轉儲,可以稱之為衛(wèi)生垃圾填埋場。這不是尋找解決方案的好方法。我一般建議客戶先決定需要優(yōu)先解決哪些業(yè)務問題,然后查看可用數(shù)據(jù)的質量,并在發(fā)現(xiàn)業(yè)務問題后解決數(shù)據(jù)問題?!?
為什么大多大數(shù)據(jù)項目都失敗了?對于初學者來說,大數(shù)據(jù)項目領導者都缺乏遠見。Morrison這樣認為。大多數(shù)企業(yè)只考慮數(shù)值數(shù)據(jù)或黑盒子NLP和識別引擎,并進行簡單的文本挖掘和其他類型的模式識別。
很多時候,公司認為他們?yōu)閿?shù)據(jù)倉庫建立的內(nèi)部技能將轉化為大數(shù)據(jù),而事實并非如此。 對于初學者來說,數(shù)據(jù)倉庫和大數(shù)據(jù)以完全相反的方式處理數(shù)據(jù):數(shù)據(jù)倉庫在寫入時執(zhí)行模式,這意味著數(shù)據(jù)在進入數(shù)據(jù)倉庫之前就會被處理和組織。
在大數(shù)據(jù)中,積累數(shù)據(jù)并應用讀取模式,數(shù)據(jù)在讀取時進行處理。因此,如果數(shù)據(jù)處理從一種方法轉向另一種方法,技能和工具應該也是如此。
“技能永遠是一個挑戰(zhàn)。如果我們30年后談論大數(shù)據(jù),仍然會面臨挑戰(zhàn)?!昂芏嗳硕家蕾嘓adoop。但Spark更好一些,因為棧更小也更容易訓練?!?
大數(shù)據(jù)項目經(jīng)常從舊的數(shù)據(jù)豎井中提取數(shù)據(jù),并試圖將它們與新的數(shù)據(jù)源(如傳感器、網(wǎng)絡流量或社交媒體)合并。這并不完全是企業(yè)的錯,企業(yè)在大數(shù)據(jù)分析出現(xiàn)之前就收集了這些數(shù)據(jù),但無論如何,這也是一個問題。
Greenbaum認為,企業(yè)缺少的最大技能是如何融合這兩個數(shù)據(jù)源,讓他們共同解決復雜問題。數(shù)據(jù)孤島可能成為大數(shù)據(jù)項目的障礙,因為它沒有任何標準。因此,當企業(yè)開始規(guī)劃時,發(fā)現(xiàn)這些系統(tǒng)尚未以任何方式實施,所以這些數(shù)據(jù)將被重復使用。
Talend的Christopher認為,對于不同的架構需要以不同的方式進行處理。技術技能和架構差異是無法將當前工具用于本地數(shù)據(jù)倉庫并將其與大數(shù)據(jù)項目集成的主要原因。因為這些技術處理新數(shù)據(jù)的成本太高。所以需要Hadoop和Spark等新的語言。
結合以上大數(shù)據(jù)問題分析,創(chuàng)軟科技團隊提供了以下大數(shù)據(jù)分析解決方案供參考
雖然是陳詞濫調(diào),但適用于大數(shù)據(jù)項目。成功的公司必然是有結果的公司,選擇一些小而可實現(xiàn)的新東西進行規(guī)劃和實現(xiàn)。
Morrison說:“他們需要首先考慮數(shù)據(jù),并以機器可讀的方式為企業(yè)建模,以便數(shù)據(jù)服務于該企業(yè)?!?
股東往往被排除在大數(shù)據(jù)項目之外 。Heudecker說,如果所有股東合作,他們可以克服許多障礙。加上技術人員共同努力,并與業(yè)務部門合作以提供可行的結果,這可能有所幫助。
Heudecker指出,在大數(shù)據(jù)方面取得成功的公司大量投資于必需的技能。他認為這是數(shù)據(jù)驅動型公司普遍認可的,如金融服務公司、優(yōu)步、Lyft和Netflix。公司的財富基于擁有可靠、可操作的數(shù)據(jù)。
Christopher認為,應該讓大數(shù)據(jù)項目成為一項團隊運動,所有人都幫助策劃和收集數(shù)據(jù)并處理它,提高數(shù)據(jù)的完整性。
人們似乎有一種心態(tài),即大數(shù)據(jù)項目需要非常大的動作。但就像你第一次學習任何東西一樣,成功的最好方法是從小到小,然后逐漸擴大。
“他們應該仔細定義他們在做什么,”Heudecker說,“應該選擇一個問題域并研究解決它,例如欺詐檢測、細分客戶,或者弄清楚千禧一代市場中推出的新產(chǎn)品?!?
Christopher說:“說到底,你必須問問自己想要什么,或者想要數(shù)字化的業(yè)務流程。不只是把技術扔到商業(yè)問題上,你必須預先定義它。數(shù)據(jù)湖是必要的,但如果數(shù)據(jù)湖不會被任何商業(yè)人士使用,你就不會想要收集數(shù)據(jù)。”
在很多情況下,這也意味著不要讓自己的公司過度膨脹。 Morrison表示,在他研究過的每一家公司中,只有幾百個關鍵概念和關系是整個企業(yè)賴以運作的。一旦你理解了這一點,你就會意識到,所有這些數(shù)以百萬計的差別只是那幾百件重要事情的微小變化。事實上,你會發(fā)現(xiàn)許多細微的變化根本不是變化。它們其實本質上是一樣的東西,雖然有不同的名字、不同的結構、不同的標簽。
雖然您可能希望使用收集并存儲在數(shù)據(jù)倉庫中的那些TB級數(shù)據(jù),但事實上您可能更好地服務于為大數(shù)據(jù)設計的存儲系統(tǒng)中新收集的數(shù)據(jù),并且設計為未經(jīng)過處理的數(shù)據(jù)。
要避免因為企業(yè)擁有一項基礎設施的許可證而只對現(xiàn)有的基礎設施感興趣。通常,新的復雜問題可能需要新的復雜解決方案。使用企業(yè)以往的就工具并不是正確做法,甚至有可能導致大數(shù)據(jù)項目失敗。
Morrison認為,企業(yè)應該停止故步自封。他還表示,企業(yè)不能再一味依賴供應商為他們解決復雜的系統(tǒng)問題?!皫资陙?,許多人似乎都認為任何大數(shù)據(jù)問題都是系統(tǒng)性問題。但當面對復雜的系統(tǒng)變化時,企業(yè)必須建立自己的解決方案。
創(chuàng)軟科技大數(shù)據(jù)分析團隊,在多年軟件定制開發(fā)基礎之上,結合企業(yè)數(shù)據(jù)特性進行分析,有效整合企業(yè)大數(shù)據(jù),可以有效的提高企業(yè)大數(shù)據(jù)項目的成功機率。