徐允平:大數(shù)據(jù)對我而言是發(fā)現(xiàn)未知未來
2015年12月03日 11:58 新浪財經(jīng)
上圖為臺灣財團法人資訊工業(yè)促進會大數(shù)據(jù)所技術(shù)總監(jiān)徐允平
新浪財經(jīng)訊 “2015中國高新技術(shù)論壇”于11月16-18日在深圳會展中心舉行。臺灣財團法人資訊工業(yè)促進會大數(shù)據(jù)所技術(shù)總監(jiān)徐允平出席并演講。
徐允平表示,大數(shù)據(jù)對我而言是發(fā)現(xiàn)未知未來,對于這一些資料有了掌握,你就可以準備好你去應(yīng)付未來、應(yīng)付將來的競爭,這個在好多個領(lǐng)域都可以用到,醫(yī)療照顧、零售、制造甚至政府單位,個人都可以用得到。
以下為演講實錄:
徐允平:大家好!我是來自臺灣的資訊工業(yè)促進會,剛才主持軟他也來自臺灣,他還了解我們一點,我稍微介紹一下臺灣的資訊工業(yè)促進會,它主要的經(jīng)費來自臺灣政府。做的是科技方面特別是IT工業(yè)的研究,主要目的是為了促進資訊工業(yè)研究,我們做的主要是技術(shù)方面的研發(fā),但是跟工業(yè)界特別就是IT工業(yè)界走的比較近。
所以我今天的題目是與大數(shù)據(jù)比較直接相關(guān),因為我是來自資訊工業(yè)會的大數(shù)據(jù)所。我覺得相信與在在座的諸位來賓都差不多,我認為我們都是一個非常幸運,當然我們也是會有一些差距。但是像我個人經(jīng)歷過的這些電腦工業(yè),我覺得是還蠻完整的,從我大學(xué)時代所使用的電腦大概很多人沒有經(jīng)驗過,到我出國念書那時候大家最流行的帶一臺PC,那個時候PC已經(jīng)很流行,而且對電腦、工程方面已經(jīng)是非常重要的一個工具。
當然后來更重要的就是互聯(lián)網(wǎng),到現(xiàn)在的大數(shù)據(jù),這一波接著一波來勢洶洶,對于我們的生活的改變也是越來越大,我想用這個來做一個起頭。
大數(shù)據(jù)風(fēng)暴的形成,就是這幾個因素,這是我個人的看法。它好像一個很完整的perfect storm,它來自于數(shù)據(jù)的爆發(fā),它來自機器學(xué)習(xí),技術(shù)的一種利用,這些技術(shù)早已研究多年,再來商品化的運行,也就是說(英文)軟體開源,還有一個橫向拓展的技術(shù),我后面再做一些詳細的介紹,我覺得這些因素造成了大數(shù)據(jù)風(fēng)暴的形成。
我們先從data開始說,這張圖叫Data Never Sleeps,它從收集到的資料從2011到2013到到2015,這上面幾個特別驚人的數(shù)字我特別講出來,一個是U to(音),在中國也有類似的優(yōu)酷,Ato上傳的影片和上傳的照片,Facebook分享或者點贊的活動,在這幾年來是呈幾何程度的成長,這非常的驚人,Uto以每分鐘上傳了多少小時的硬盤,2011年是48小時,2013年是72小時,2015是三百小時,這個成長非常驚人,大家會注意到這邊所收集到的資料,它當然是internet所產(chǎn)生的資料,因為這幾個特別具成長都是相關(guān)的,這也是一個趨勢。
近年來數(shù)據(jù)暴增這個圖片有點舊,但是那個時候在2012年左右,2011年與2012這兩年所產(chǎn)生的data是歷史以來的90%,我相信在后面幾年仍然有很大的成長,會有90%。但是還是非常的驚人。也就是說在近年來由于這個數(shù)據(jù)互聯(lián)網(wǎng)、計算機的這方面的盛行造成了數(shù)據(jù)量的暴增。
這張圖也告訴我們,cloud確實帶來了更多的資料,你看一下曲線是在Inter cloud data,這一方面所造成的資料,產(chǎn)生的暴增,令資料量的總數(shù)呈了幾何性的增長。
Big data有三個V或者是四個D或者是五個V,最重要的三個V,volume資料量的大,大數(shù)據(jù),velocity資料產(chǎn)生的速度,以及variety資料的種類,資料來源的格式有非常多的種類。因此在做大數(shù)據(jù)的處理就必須要面對這幾個挑戰(zhàn),不只是資料量的大,同時也要能夠迅速的處理,并且要能夠?qū)τ诟鞣N不同格式的資料處理。
我們常常用冰山來描述它,也就是說在冰山上面的一個角落是我們所看到的資料,在隱藏在冰山下面還有巨量的資料、海量的資料,那我們要如何征服它?它對我們來講意義又在哪里呢?
這個是美國的國防部長在大概2000年左右,當時的記者在問他你為什么去打伊拉克?他說我們要去找(英文),后來也沒有找到,所以人家來問他,他就說,說了一個很好笑的,但是他說:“There are knownknowns,The are known unknowns,There are also unknownunknowns?!碑敃r的記者也被他搞的搞笑了,我到現(xiàn)在認為在今天這倒是有一個很好的啟發(fā)。
也就是利用大數(shù)據(jù)你可以去尋找你不知道的答案,這算是已知的未知,利用大數(shù)據(jù)以及機器學(xué)習(xí)的一些方法你可以找出你未知的未知,你并不清楚某些資料或者是屬性他們有一些相關(guān)的條件和關(guān)系,比如說很有名的哪一個他就找到這個尿布和啤酒常常是一起被買的,這也是一個很有趣的未知。你會針對這些制造更多的商機,這些資料子所帶來的知識對你來講有多重要呢?我相信在未來,大概所有的企業(yè)其實不管是大的、小的都會需要利用大數(shù)據(jù)來增加它對它的領(lǐng)域的一些新的認知,其實這不只是是商業(yè),剛才前面也有提到例如說健康都有在運用大數(shù)據(jù)的技術(shù)來改善我們的生活、照顧我們的病人、尋找新的醫(yī)療方法。這個圖隨著時間的轉(zhuǎn)移你所發(fā)現(xiàn)的這些事情它會從上往下漸漸的,從事件的發(fā)生到資料的收集到你發(fā)現(xiàn)他中間的洞察,也就是你找到你未知的未知它的關(guān)聯(lián)性,到你應(yīng)用這些洞察而做出的一個決定,為了這個決定而付出行動,你如果要做一個贏者,你做的一個洞察和這一段時間之內(nèi)要采取行動,否則的話會錯失良機。
剛才也提到了電腦技術(shù)或者IT技術(shù)的一波一波的開發(fā),這個是IBM的CEO他前一陣子提到了第三波的技術(shù)。他說第一波那時候的電腦是拿來算一些東西,算一些賬,做一些基本的商業(yè)用途。在第二波的時候我們已經(jīng)改善了我們?nèi)绾卫秒娔X,我們發(fā)明了程式語言,越來越高的程式語言,我們可以控制電腦我們希望他做的新的想法、新的事情,這就是第二可以編程。
在第三個階段,這個計算機要開始能夠自己去學(xué)習(xí)了,他認為這個時間就是現(xiàn)在,現(xiàn)在就是這一波的開始,也有人說會不會有人工智慧?會不會電腦有它各自的思想,會不會去想?這倒是一個在計算機里面討論很久的事情我覺得他講的還是比較保守的還是比較現(xiàn)實的,電腦確實是可以自我學(xué)習(xí),當然也靠程序,當然要靠它去想,這一個步驟現(xiàn)在還在研究中。
大數(shù)據(jù)對我而言發(fā)現(xiàn)未知準備未來,你對于這一些資料有了掌握,你就可以準備好你去應(yīng)付未來、應(yīng)付將來的競爭,這個在好多個領(lǐng)域都可以用到,醫(yī)療照顧、零售、制造甚至政府單位,個人都可以用得到。
再來我們講一下軟件和硬件,對于這些大數(shù)據(jù)的沖擊的影響,剛才有一位中芯徐總提到的,moore氏定律大家非常熟悉了,這個是硬件的沖擊,Gdrdon E.Moore預(yù)測:circuit doubles approximatelyevery two years這個多年來還是蠻真實的。硬件之外軟件的沖擊那就是開源軟體Open Source Software,因為在這個之前許多的軟體大家還要花費蠻高的代價才能獲得,但開源軟件的沖擊非常之大,今天開放互聯(lián)網(wǎng)的Software都是Open SourceSoftware。
這邊稍微做一點廣告,我們做了一個大數(shù)據(jù)的平臺叫Bistno,在這中間用到的開源軟體非常之多。事實上大數(shù)據(jù)的技術(shù)在今天大部分還是靠著開源軟體所提供的基礎(chǔ)建設(shè)做出來的,這是一個非常新的一個觀念。因為以往的技術(shù)往往在很多是比較領(lǐng)先的,大數(shù)據(jù)在新的技術(shù)上面開源反而領(lǐng)先。
有了這個硬體、有了這個軟體,再下來我們就要結(jié)合起來,Scale-Up vs. Scale-Out這個技術(shù)非常重要,我怎么利用這些梨園軟體讓我處理更多、更大量的資料、更快速的去獨立它,這就靠一個scale-up的技術(shù),因為要scale-up非常大的電腦,但是用Scale-Out的方式可以用商品化的來處理很大量的數(shù)據(jù),這是就是Scale-Out的好處,也是今天大數(shù)據(jù)處理的一個重要元素。因此大數(shù)據(jù)的發(fā)展就是洞察發(fā)現(xiàn)、決策優(yōu)化的大量、快速的做出的優(yōu)化決策的一個效果。
它的領(lǐng)域包含了硬體,我歸為電機領(lǐng)域、軟體、咨詢領(lǐng)域、計算機、分析、處理以及決策,它本身是需要靠這些領(lǐng)域的人來做一些分工的。這邊有三個圈圈,就代表了三個最重要的三個角色,這三個角色一個就是資料科學(xué)家,資料科學(xué)家必須會做,對資料做模型和分析,以及資料工程家是做的事情就是把資料拿來做管理與處理。還有一個很重要的就是領(lǐng)域?qū)<遥驗榇髷?shù)據(jù)是用來解決各個領(lǐng)域所遇到的問題。本社領(lǐng)域?qū)<冶仨氁獙λ念I(lǐng)域以及這個領(lǐng)域上所能收集到的資料有一個很好的了解。
資料科學(xué)家特別定義是在好幾個領(lǐng)域中間的,它的重點把這個資料中間的知識能夠提取出來,他所利用的就是統(tǒng)計學(xué)、積極的學(xué)習(xí)新的技術(shù)。
Data engineering也不容忽視,因為它實際上在資料科學(xué)的處理中間,有50%到80%的時間是花在資料的處理,因為我剛才提到這些資料不僅是大量、不僅是快速而且有很多的形態(tài),就是第三個V,因為Data的處理工程也是非常重要的。
再有就是領(lǐng)域?qū)<遥仨氁私馑I(lǐng)域的問題以及他的資料在哪里?他如何利用資料幫助資料夾來做整合來解決他的問題。
我們舉幾個大數(shù)據(jù)的應(yīng)用,我選的這些例子是比較廣泛,第一個選舉,這個在奧巴馬在做競選的時候,他蠻善加利用大數(shù)據(jù)的分析,這幫助他做什么事?第一個他去了解他的選民,他了解他選民在想什么?他了解他的選民在哪里?在哪里?支持他的選民在哪里?有了這個好的了解之后,其實對于他的選舉之后的效益會增加很多,這也是一個很有趣的一個部分。
實際上我們市場上面的一個了解輿情也就是商情對市場不管是什么樣的產(chǎn)品的有很大的助益,我們也曾經(jīng)講過,今天還有去做一些客戶的處理,事實上在將來或者是現(xiàn)在其實已經(jīng)到了這個地步,你真的要了解你的客戶對你產(chǎn)品的感想事實上要去尋找。
還有工業(yè)上的使用,制造工業(yè)4.0也是非常依賴大數(shù)據(jù)的技術(shù)。比如說在做一種化合物的時候沒有辦法去測量所有的流程,但是你可以依據(jù)你在用料以及機器方面的各種參數(shù),以及最后的試驗結(jié)果、最后的良策結(jié)果來做統(tǒng)計,使得在制造的過程中間,你也可以有虛擬的,它可以告訴你你今天做出來的東西是好與不好。
在健康照顧方面這是一個蠻古典的一個例子也就是谷歌,他利用了他們的數(shù)據(jù)來做流感的預(yù)測,后來也停止了,它直接把資料提供。谷歌做到這一點就是靠他們很大的數(shù)據(jù)量。它也利用到了它很強大的運算能力,在他利用這個分析流傳傳播的過程中處理了四億五千萬不同的模型,他善用了處理能力和統(tǒng)計專業(yè)。
領(lǐng)域在教育方面輟學(xué)的風(fēng)險提早發(fā)現(xiàn)來主動的輔導(dǎo)青年,讓他們的學(xué)習(xí)能夠繼續(xù)。有一些人很討厭財稅這方面,很討厭政府來收他的稅,但事實上政府能夠有效率的收到稅的話幫助你少交一點稅。
在結(jié)尾我就再呼應(yīng)一次就是大數(shù)據(jù)的魅力,它幫助我們發(fā)現(xiàn)發(fā)現(xiàn)未知、準備未來,在各個領(lǐng)域都有它應(yīng)用的機會,我的演講到這里,謝謝!
黃家瑞:非常謝謝徐總,下面我們很榮幸請到了三星SDS智慧城市事業(yè)部總監(jiān)劉占釗先生,有請!