行業動态

數據湖惡化成了數據沼澤?你一(yī)定沒有注意這3點

2017/4/13 17:00:09

多年來,在Apache Hadoop等技術的支持下(xià),組織一(yī)直在尋求構建數據湖——企業範圍的數據管理平台,允許以原生(shēng)格式存儲所有數據。數據湖可通過提供給一(yī)個單一(yī)的數據存儲庫來打破信息孤島問題,整個組織都可以使用從業務分(fēn)析到數據挖掘的所有東西。原始和不受約束,數據湖被認爲是一(yī)個包羅萬象的大(dà)數據。

但是,商(shāng)業智能(BI)軟件專家,金字塔分(fēn)析公司的首席技術官Avi Perez說,他看到許多客戶的數據湖正在惡化爲數據沼澤——完全無法接近終端用戶的大(dà)量數據存儲庫。

“數據庫真的很貴。”Perez說,“數據湖從根本上解決了這個問題。數據湖以及所有大(dà)數據方案,都來自于市場壓力,其次,現實世界的數據生(shēng)成器會吐出大(dà)量的數據,你需要找到一(yī)個方法去(qù)存儲它們。”

但是,盡管許多世界上最好的公司都在他們的數據湖周圍建立了業務(谷歌就是一(yī)個很好的例子),但很多公司在收集了數據之後卻沒有任何清晰的辦法來獲取價值。

“他們更像是在收集灰塵。”Perez說,“也可以說在收集垃圾,一(yī)些最終都會被抛棄的垃圾。最後,你爲那些東西增加了預算,卻什麽都不做。”

這并不是說數據湖背後的想法是糟糕的。Perez确信,所有的公司最終都需要一(yī)個數據湖。但是如何創建一(yī)個數據湖,讓終端用戶真正從中(zhōng)受益,這是需要深思熟慮的。

爲了避免在自己的數據湖中(zhōng)溺水,Perez建議采用以下(xià)三條原則:


一(yī)、隻收集少量的數據,至少在一(yī)開(kāi)始的時候。


Perez表示,組織所犯的最大(dà)的錯誤之一(yī)就是收集太多的數據,而其中(zhōng)原因僅僅是他們有這個能力。很多時候,個人也是這樣。細想一(yī)下(xià),你手機裏存了成百上千張圖片,有都少是自己真正想保存的?很多人沒有删掉多餘的圖片,隻是因爲手機容量夠大(dà)。

“你的手機上有10億張照片,其中(zhōng)99%就可能是垃圾,而且在删除它們的時候還可能會有點兒舍不得。”他說,“用手機拍照很容易,基本上是免費的。你可能回想,‘有一(yī)天我(wǒ)會去(qù)清理它’,但隻要存儲容量仍然充足,就很少有人會這樣做。這就叫做收集了大(dà)量的信息,卻沒辦法有效使用它們。”

當你想要給某人看一(yī)張很有意思的照片時,就不可避免地需要往後翻閱很多張無關的照片。

Perez說,同樣的事情也發生(shēng)在數據湖上。在Hadoop中(zhōng)存儲數據并不昂貴,甚至常會被認爲是免費的。但是,大(dà)量累積的數據會讓你很難真正地訪問數據,來爲自己提供有價值的信息。

“我(wǒ)認爲,避免這種情況的方法實際上是把水龍頭給關掉。”Perez說,“基于這樣一(yī)種假設,僅僅是收集數據的成本很低,并不會讓使用數據變得更便宜。這可能真的很貴。所以,不要總想着無休止地收集信息。把它放(fàng)在一(yī)個數據集中(zhōng),制定一(yī)個具體(tǐ)的計劃,弄清楚自己該如何去(qù)挖掘它。”


二、 采用機器學習戰略



即使有了一(yī)個集中(zhōng)的數據集,從大(dà)規模的數據中(zhōng)獲得有價值見解也需要自動化。

“你需要一(yī)個自動化的系統來清洗數據。”Perez說,“人工(gōng)智能、機器學習、深度學習,無論你想使用哪一(yī)種,都會是一(yī)個非常神奇的解決辦法。我(wǒ)認爲,從你巨大(dà)的數據湖中(zhōng)獲取價值的最簡單的辦法就是,擁抱這一(yī)項新技術。”

Perez說,首先選擇一(yī)個數據集,然後通過一(yī)項機器學習技術來完成它。當然,新的技術意味着新的技能、人才需求,你可以對現有員(yuán)工(gōng)進行培訓,也可以聘請一(yī)些專業人士。

“機器學習是一(yī)門黑色藝術。”他說,“這并不容易做到,需要非常細分(fēn)的技能。”


三、 确定你想解決的商(shāng)業問題


所有的事情都應該是完整的:你需要從一(yī)個清晰的視角來開(kāi)始你想要解決的商(shāng)業問題。有了一(yī)個客觀的目标,相對會更容易把你需要收集的數據和最好的機器學習技術應用起來。

例如,Perez說,可以将自己想象成一(yī)個大(dà)賣場,你決定去(qù)了解什麽樣的顧客會進入你的商(shāng)店(diàn)。你可以捕捉顧客進入商(shāng)店(diàn)的圖片,然後使用一(yī)個複雜的神經網絡(CNN)——一(yī)種擅長于計算機視覺問題的深度學習神經網絡——來處理圖像。CNN可以通過一(yī)個人的形象确定是男性還是女性,是孩子還是成年人,是年輕人還是老年人等等。

“一(yī)旦你完成了所有工(gōng)作,就可以把它與一(yī)個商(shāng)業計劃聯系起來,并把它交給你的業務用戶。”Perez說,“這可以幫助你做出決策——‘我(wǒ)們需要更多地向男性市場推銷,因爲我(wǒ)們沒有足夠多的男性客戶’。你真的需要事先有一(yī)個明确的戰略,如果不這樣做,僅僅是對事物(wù)的收集就會對整個過程産生(shēng)巨大(dà)的負面影響。”

一(yī)旦你在頭腦中(zhōng)建立了一(yī)個業務計劃,通常就可以叠代該功能,從而爲業務提供更有針對性的解決方案。例如,一(yī)旦你确定是誰走進了你的商(shāng)店(diàn),你就可以用同樣的能力來确定誰會走過你的化妝品櫃台。


9627e717fa1f799145fb535d1be7d440.jpg



上一(yī)篇:物(wù)聯網時代,智能硬件将如何影響我(wǒ)們的生(shēng)活 下(xià)一(yī)篇:淺析數據中(zhōng)心成本與機房等級的關系