世界杯的狂歡結(jié)束,還在天臺上的球迷們,可以下樓睡覺了??駳g之余,大家對世界杯的熱情讓比賽結(jié)果具有了商業(yè)價值,更促使了機構(gòu)們熱衷對比賽的預(yù)測。比起上屆的章魚保羅,機構(gòu)們的預(yù)測背靠大數(shù)據(jù)資源和技術(shù),預(yù)測起來都更有底氣。但是他們的預(yù)測是不是真的算得上大數(shù)據(jù)?它們具體又是怎么操作的呢?
1.百度:高考作文跟世界杯不一樣哦!
百度預(yù)測今年精準預(yù)測了五一的景點爆滿情況和部分高考作文題,當(dāng)然不會放過世界杯這個機構(gòu)們測試大數(shù)據(jù)能力的舞臺。制約大數(shù)據(jù)的一大問題就是海量的數(shù)據(jù),搜索巨頭百度在這一點上擁有先天的優(yōu)勢。
百度北京大數(shù)據(jù)實驗室的負責(zé)人張桐(Zhang Tong)介紹稱,
? 在百度對世界杯的預(yù)測中,我們一共考慮了團隊實力、主場優(yōu)勢、最近表現(xiàn)、世界杯整體表現(xiàn)和博彩公司的賠率等五個因素。
百度大數(shù)據(jù)部利用大數(shù)據(jù)搜索過去5年內(nèi)全世界987支球隊的3.7萬場比賽數(shù)據(jù),共涉及到19972名球員和1.12億條相關(guān)數(shù)據(jù),這些數(shù)據(jù)的來源基本都是互聯(lián)網(wǎng),再利用一個由搜索專家設(shè)計的機器學(xué)習(xí)模型來對這些數(shù)據(jù)進行匯總和分析,進而做出預(yù)測結(jié)果。
? 針對本屆世界杯的16場淘汰賽的預(yù)測,準確度達到了100%。而今年頻頻爆冷的小組賽階段,百度對比賽結(jié)果的預(yù)測準確率也達到了58.33%,這一結(jié)果高于微軟語音助手Cortana和必應(yīng)搜索聯(lián)合得出的56.25%的準確率。但是100%的準確度也只是猜勝負,德國和巴西7:1的結(jié)果就和百度預(yù)測的,德國將會以微弱的優(yōu)勢贏下巴西(51%對49%),二者相去甚遠。
? ? 其實百度在世界杯開賽前預(yù)測的冠軍是巴西,我會說?
2.微軟:小冰、Cortana、必應(yīng)家小齊上陣
? 微軟公司對世界杯的預(yù)測除了以往比賽歷史外,考慮了更多的因素:地理位置、草坪、天氣、大量預(yù)測的參考(群體智慧),還使用大量的公開數(shù)據(jù)——博彩市場、民意調(diào)查、社交媒體以及其它在線數(shù)據(jù),通過歐洲賠率市場最有名的指數(shù)Betfair(必發(fā)指數(shù))來構(gòu)建預(yù)測模型,并通過微軟的個人語音助手Cortana和必用搜索引擎發(fā)布。微軟的分析似乎更有大數(shù)據(jù)的氣質(zhì),相較之百度的參考因素更像依靠經(jīng)典理論的傳統(tǒng)統(tǒng)計分析。
基于微軟的分析,WP8.1 Cortana預(yù)測巴西世界杯的戰(zhàn)果是15勝1敗。微軟表示,Cortana進行預(yù)測會綜合考慮主場優(yōu)勢,這也是為何在預(yù)測巴西對決荷蘭的季軍爭奪戰(zhàn)中認為巴西會取勝的一個因素。
這次世界杯15勝1敗的戰(zhàn)果是,就上一場比賽結(jié)果對下場比賽的預(yù)測。而早在2013年12月,微軟研究院就“高瞻遠矚”,聲稱開發(fā)了一款Excel軟件,用大數(shù)據(jù)來預(yù)測2014年世界杯。預(yù)測結(jié)果是:巴西將奪冠,奪冠率達到22.5%,遠遠高于其他對手,如今似乎沒人拿出來打臉了。
3.谷歌:關(guān)鍵時刻掉鏈子?
谷歌從Opta Sports的數(shù)據(jù)中,分析了職業(yè)足球聯(lián)盟、世界杯小組賽中隊員們的表現(xiàn),引入了由BigQuery工程師喬丹·提加尼開發(fā)的實力排行榜系統(tǒng),來推測他們將會在本屆世界杯有什么樣的表現(xiàn)。此外,還考慮了觀眾熱情程度的數(shù)據(jù),來計算主隊優(yōu)勢。
? ? 谷歌則預(yù)測了16進8和8進4的兩輪比賽,而谷歌在12場預(yù)測中有11場正確,準確率為91.67%,預(yù)測八強賽時,對關(guān)鍵的德法大戰(zhàn)預(yù)測錯了。
? ? 在大數(shù)據(jù)概念的推廣過程中,對流感等疾病的大數(shù)據(jù)預(yù)測一直是傳播的范本,但是,2013年谷歌對于流感的預(yù)測與美國疾病控制中心匯總后的結(jié)果相比,就夸大了幾乎一倍。大數(shù)據(jù)預(yù)測的準確性,仍然是一個需要長時間研究的課題。
4.高盛:傳統(tǒng)模型寶刀已老
? 擁有世界最頂尖的經(jīng)濟學(xué)家的高盛,通過對自1960年以來的正式國際14000場足球比賽數(shù)據(jù)的回歸分析來構(gòu)建預(yù)測模型,還通過泊松模型分析了每場小組賽的比分情況。其思路完全是傳統(tǒng)的統(tǒng)計分析,并沒有體現(xiàn)大數(shù)據(jù)的總體樣本的特點。模型和算法也遵從了投資公司善用的經(jīng)典模型,并沒有完全根據(jù)本次世界杯的命題來答題。
高盛在小組賽預(yù)測的準確率為37.5%,并在世界杯開始前,預(yù)測東道主巴西最有可能斬獲世界杯冠軍,奪冠幾率為48.5%,比任何參賽球隊高3倍。甚至給出了最終決賽的結(jié)果,巴西將以3比1的比分,戰(zhàn)勝最后的宿敵阿根廷。即使大數(shù)據(jù)還不夠成熟,但是傳統(tǒng)的樣本分析在大數(shù)據(jù)結(jié)果面前還是相形見絀的。
5.雅虎:當(dāng)機器被情緒誤導(dǎo)
雅虎科學(xué)家小組基于,Tumblr上所有有關(guān)世界杯的討論都存在有價值的信息,利用了輕博客網(wǎng)站Tumblr的數(shù)據(jù)來估計每支國家隊的優(yōu)勢。雅虎科研小組表示他們從831億篇Tumblr博客中篩選了1.889億篇文章用于分析,自2月至5月,他們將注意力集中于2730萬篇與世界杯“相關(guān)博文”。針對每一次比賽,雅虎會利用名為泊松分布不同參數(shù)的概率論來估計每一支隊伍可能的進球數(shù)量,例如在“與世界杯有關(guān)的帖子里被提及的國家隊”。
雅虎預(yù)測德國將打敗葡萄牙,而西班牙將擊敗荷蘭,而最后的冠軍是巴西。可憐被雅虎提到的兩只會獲勝的隊伍,西班牙和巴西都已恥辱性的比分被打敗。據(jù)說社交網(wǎng)絡(luò)數(shù)據(jù)可以預(yù)測傳染病和犯罪現(xiàn)場,這是因為傳染病和犯罪現(xiàn)場中可以利用社交網(wǎng)絡(luò)發(fā)布內(nèi)容的客觀成分,而且大量分散的信息組織起來形成了意義。但雅虎把它用到預(yù)測足球比賽上,顯然被網(wǎng)友們的情緒誤導(dǎo)了。
6.德國科隆體育學(xué)院:專業(yè)范兒試刀
據(jù)科隆體育學(xué)院官網(wǎng)稱,該校格羅爾教授領(lǐng)導(dǎo)的研究小組用他們設(shè)計的計算機模擬算式對本屆2014年世界杯可能的結(jié)果進行了共10萬次測算,考慮因素不僅包括各隊的世界排名、足彩賠率、市值、預(yù)選賽表現(xiàn),還包括可能的傷病、戰(zhàn)術(shù)、氣候條件、主場優(yōu)勢因素等。
德國科隆體育學(xué)院的研究人員在世界杯開賽前,就拋出了預(yù)測結(jié)果:預(yù)測認為德國、巴西、哥倫比亞、阿根廷、比利時和荷蘭6支隊肯定能打入八強,西班牙即使殺出小組賽也會在八分之一決賽中被巴西淘汰。其后巴西、德國、阿根廷和荷蘭半決賽,最終將由巴西和阿根廷爭冠,巴西奪冠概率20.4%,阿根廷14.7%?,F(xiàn)在看來,除了決賽,其他預(yù)測得都還挺準。
? 7.德意志銀行:敢和寵物比精準
據(jù)英國《衛(wèi)報》網(wǎng)站6月9日報道,德意志銀行預(yù)測,英格蘭隊將在巴西世界杯中奪冠。德銀建立了量化分析模型,計算參數(shù)包含球隊的世界排名、以往戰(zhàn)績、球員構(gòu)成和賭球市場賠率。得出的奪冠概率是巴西名列第一,緊隨其后的是德國、西班牙、法國。但是,德銀表示這樣的預(yù)測太乏味也太傳統(tǒng),于是德銀引入了一系列條件,最后得出了英格蘭是冠軍的結(jié)果。他們的理由是,上一次英格蘭奪冠時,隊中就有很多利物浦球員,和這次情況一致,因此他們確信英格蘭隊將在巴西奪冠。
無獨有偶,英國最大的寵物連鎖店“家中寵物(Pets at Home)”,讓一只名叫Roo的會通靈的斗牛犬來預(yù)測,結(jié)果它預(yù)測英格蘭會在決賽中擊敗意大利奪冠。
他們得出了相同的結(jié)論,還真是可愛。
8.數(shù)據(jù)新聞網(wǎng)站FiveThirtyEight:巴西粉
天才數(shù)據(jù)分析師內(nèi)特·西爾弗(Nate Silver),曾經(jīng)在2012年美國總統(tǒng)大選中準確預(yù)測了50個州的選舉結(jié)果,為了預(yù)測棒球選手的成績而開發(fā)了統(tǒng)計工具PECOTA,新創(chuàng)辦了一個使用統(tǒng)計數(shù)據(jù)來分析所有現(xiàn)象的新聞網(wǎng)站FiveThirtyEight。
不過,專門從事比賽結(jié)果預(yù)測的平臺,也沒有在世界杯的預(yù)測中保住節(jié)操。FiveThirtyEight預(yù)測巴西能擊敗德國,并在決賽中捧杯。
決賽結(jié)束后,黃健翔在微博上轉(zhuǎn)了他4月做出的預(yù)測,巴西、阿根廷、德國、意大利、法國、荷蘭、英格蘭各隊命運全都說中。大數(shù)據(jù)在世界杯期間的狂歡也不能代表其成熟,或許在足球領(lǐng)域還比不上專業(yè)人士的經(jīng)驗分析。
回想世界杯開賽前,機構(gòu)發(fā)布的預(yù)測結(jié)果大多是巴西大熱門,西班牙有希望等論調(diào)。而百度、微軟準確率近乎100%的預(yù)測,都是在基于上一場比賽結(jié)果的基礎(chǔ)上預(yù)測下一場。大數(shù)據(jù)的策略是發(fā)現(xiàn),以及猜測、印證的循環(huán)逼近過程,一般只會設(shè)定一個大方向,算法模型都可能在執(zhí)行的過程中做大幅度調(diào)整。這才有了他們在賽前預(yù)測巴西,賽中算準德國的兩種預(yù)測。
大數(shù)據(jù)時代分析的瓶頸不再是算法和存儲,而是接近于總體的海量信息,以及如何與具體的命題相結(jié)合的模型建構(gòu)。在巨頭林立的今天,對于普通人海量信息首先是無法逾越的門檻,但是這正是大型網(wǎng)絡(luò)公司們的優(yōu)勢。特別是這次預(yù)測變現(xiàn)優(yōu)秀的百度、必應(yīng)和谷歌這類的搜索引擎,而百度也專門創(chuàng)立百度預(yù)測,以期更多得干預(yù)到日常生活。
人們一直想找到如何能更準確認識世界的方法,從樣本統(tǒng)計到大數(shù)據(jù)運算,大家都談在概念,卻鮮有人能將其與真正的商業(yè)、生活結(jié)合,產(chǎn)生有意義的結(jié)果。對于正在玩大數(shù)據(jù)概念的互聯(lián)網(wǎng)公司而言,具體到怎樣建立有效模型,提高計算結(jié)果的準確性,還在摸著石頭過河。