大數據讓“馬云們”知道了太多的秘密
發(fā)布時間:2014年12月03日 文章出自: 作者: 李林夏 江紅
標簽:

天空中一朵白云飄來,形態(tài)好似中國地圖。數據如云。海量數據的分析與應用,正在要求人們改變對其精確性的苛求,轉而追求數據的多元性和交叉性。不同事物間的相關性,有時比因果關系更加值得關注。攝影/陳海瀅
無線電定位
讓全城的街區(qū)與房屋
沒有死角地展現出來
夜晚的成都街頭,一家挨一家的餐館燈光閃爍。稍遠的地方,燈光就不再清晰,串串香涮鍋中的蒸汽,如薄霧般在餐廳門口飄飄裊裊,薄霧中盡是麻辣之味。我和朋友隨便挑了一家餐館,剛坐下,服務員小妹兒就拿上iPad給我們點菜:“‘跳水兔’、‘鮮椒雞’是我家點得最多的,今天已經賣了40多份,肉多,實惠。”

這張地圖是依據全方位雷達掃描所獲得的海量數據制作的。地面上所有的建筑物被精確地定形、定位,并依據實景進行
修正。相比于同樣火熱的遙感技術、全景拍攝以及3D建模,通過雷達數據制作的地圖在表現城市的整體格局以及城鎮(zhèn)擴張等領域有著更為簡潔直觀的優(yōu)勢。制圖/蔡博峰
同行的朋友中,有從事餐飲業(yè)的郭佳肅與沈洋先生,他們是做大數據時代智能餐飲系統(tǒng)的。這兩人悄悄告訴我,不要小看服務員手中的iPad,正是通過它們將大量的點餐信息匯集在一起,可以看出很多富有價值的內容:比較菜品被點的頻率,就能看出某一地區(qū)的哪些菜受歡迎,這可以幫助餐館準確地預備菜品數量。如果數據足夠,還可以估算出這個地段某一類食材在某月乃至全年的消費狀況;外賣的送餐地址匯集在一起,可以看出哪些地區(qū)加班的人群最多,哪里具有再開餐廳的潛質。諸如此類的信息對其他服務行業(yè)的進入同樣有著重要的參考價值。

一切瞞不過點餐機
燒烤店:男人最愛板筋,女人最愛烤蝦
咖啡店:卡布奇諾最暢銷
這是一組根據北京不同餐館中無線點餐系統(tǒng)匯集的數據,其中一些內容頗為有趣:在北京不同的商圈,以學生為主體的學院路—五道口地區(qū),快餐店生意最好;在國貿CBD商務區(qū),川菜頗受歡迎;而在豐臺等地的傳統(tǒng)居民區(qū),火鍋店最為熱鬧。在北京的燒烤店中,除了肉串之外,男性顧客最愛點的食物是烤腰子和板筋,女性顧客最青睞的則是烤蝦和骨肉相連;而在咖啡店中,卡布奇諾咖啡銷售狀況最好。造成這些差異的原因是什么?不同的人會有不同的猜測和分析,但這些相對于現實的統(tǒng)計結果而言并不重要,簡單清晰而又有充足數據支持的結論,正是許多商家迫切需要的信息。
數據提供/屏芯科技 郭佳肅

我頓感震驚,這些生活中的細節(jié)瑣事,大多數人或許并不會留意。但事實上,我們在不同場合做出的任何判斷與選擇,哪怕只是在購物網站上的一次輕擊鼠標,如果被當作統(tǒng)計數據進行收集整理,或許都能變成令人意想不到的有用信息,甚至還可能引發(fā)一場意義深刻的消費革命。
新疆妹子胸圍最大,
黑龍江姑娘胸圍最???
2011年,一張全國各省女性胸圍排行榜引發(fā)了不小的爭議:新疆、香港、北京、云南、山西分列胸圍最大地區(qū)的前五位,胸圍最小的省份排序(胸圍從小到大)則分別是黑龍江、浙江、海南、江蘇和福建。

網絡購物信息統(tǒng)計
引出的八卦與爭論
在2011年,淘寶網根據各個商家6月中旬至7月中旬女性內衣銷售的尺碼狀況以及發(fā)貨地址,統(tǒng)計出了中國女性胸圍的省區(qū)排行榜。C罩杯及以上尺寸所占購買比例最大的地區(qū)依次是:新疆、香港、北京、云南和山西,它們因而被視為女性平均胸圍最大的地區(qū)。然而到了2014年,同樣是6月中旬至7月中旬的數據,統(tǒng)計結果卻有了不小的變化:廣東、江蘇、浙江等地這一次成為C罩杯及以上尺寸內衣購買比例最高的地區(qū)。這樣的統(tǒng)計結果雖然不一定準確,甚至不太嚴肅,但卻告訴我們,商業(yè)銷售的數據,隱含著許多我們未曾留意的秘密。
制作這樣的另類榜單,原始數據來自于淘寶網商家2011年6月中旬至7月中旬發(fā)往不同地區(qū)的女性內衣罩杯尺碼。胸圍最大的省,依據各省、市、自治區(qū)購買C罩杯及以上尺碼內衣的比例來排名;而胸圍最小的省份,則是以A罩杯銷售量所占比例進行的排序??吹匠鰻t的榜單,網友對結果或者贊嘆,或者懷疑:新疆妹子胸部最豐滿嗎?有人主動尋找證據和個例——當時熱播電影《讓子彈飛》中意外走紅的女演員趙銘,就是新疆人??墒且恢币詠?,東北姑娘給人的印象都是高挑豐滿,黑龍江竟然成為網購A罩杯比例最高的省份,這不禁讓人一陣唏噓。

到了2014年,新一期數據公布。今年6月中旬至7月中旬女性內衣的銷售狀況,較之前一次大相徑庭:C罩杯及以上尺碼的內衣購買比例最高的省份分別為廣東、江蘇、浙江,而黑龍江姑娘拿掉了胸部最小的稱號,在A罩杯購買人群中所占比重從之前的第1名大幅度降至第18位。
再看全國的內衣整體銷售情況,2011年至2014年的3年間,全國A罩杯內衣的購買比例從25.26%下降至21.5%,而C罩杯則由8.96%上升至13.1%。中國女性的胸圍普遍在上升?是自然發(fā)育、豐胸產品或是整形手術使然?銷售數據反映出的現象,無法給我們提供嚴密可信的結論分析。一些店家透露,生產廠家也在分析揣摩顧客的消費心理:內衣尺碼標大一些更好賣。如此看來,網購內衣的尺碼狀況能否反映女性胸圍的真實狀況,值得商榷。
不過一些周邊的相關數據,使得對女性胸圍的分析更加有趣:在一個月的時間中,廣東有6.3萬人購買了豐胸產品,成為最熱衷豐胸省份。廣東女性對胸部豐滿程度的關注,遠遠超過了其他省份,這背后是開放的文化環(huán)境,還是獨具一格的生活追求,則留與各家評說。
為何北京人愛用“安卓”,
上海人鐘情“蘋果”?
2011年淘寶網全年手機銷售的數據樣本顯示,上海用戶選擇手機是偏愛iOS系統(tǒng)的蘋果手機,而北京用戶則偏向于選擇安卓系統(tǒng)的手機。iOS系統(tǒng)與安卓系統(tǒng)相比,系統(tǒng)更加連貫流暢成熟,用戶界面直觀友好,設備之間共享度高,應用程序的質量也有較嚴格的控制,當然價格相對也要高一些;但另一方面,安卓系統(tǒng)的開放性遠超iOS系統(tǒng),限制性低,兼容性好,用戶可以根據自己的使用習慣配置系統(tǒng),系統(tǒng)更加多元,手機價格也相對便宜。
上海作為全國的金融中心,大量商業(yè)精英云集。蘋果手機時尚的設計細節(jié)與成熟的系統(tǒng),暗合著這座城市相當一部分人群的消費心理,一定程度上也反映了上海人崇尚西方生活方式、追求精致產品的“海派文化”;而北京用戶對手機的選擇,似乎彰顯著對于多元文化的兼容能力——實用方便就好,這似乎也是“京派文化”中包容并蓄、作風粗獷的某種反映。

信息,總結出的2013年第四季度中國大陸地區(qū)手機銷售狀況。在這個時間段中,
三星手機占到各品牌手機銷售總量的19%,銷售量高居榜首;聯想以13%的占有率緊隨其后,酷派位列第三。今年這一時間段的銷售數據即將出臺,不知較之去年會有怎樣的變化。
如今手機還有一個重要的功能,那就是拍照。對于部分女性而言,拍照中最重要的應用,非自拍莫屬。有人總結在現代女性的必備技能中,自拍排名頗為靠前——熟練掌握自拍技巧的人,可以輕松找到最佳角度展示自己所希望展示的美麗與嫵媚。大部分年輕女性所滿意的自拍照中,長睫毛、大眼睛、尖下巴、細長腿以及光滑的皮膚,是頗被看重的因素。于是隨著現代女性“展示自我”的需求不斷增強,“自拍神器”應運而生,它可以幫助自拍新手迅速掌握技巧,內置照片處理功能也能基本滿足大家的“美顏”需求。2011年底的數據顯示,“自拍神器”卡西歐TR100相機和三星MV80相機購買者比例最高的是上海女性,平均每萬人中購買者超過12人。
另外,在美容護膚、美體、精油、彩妝、香水、美發(fā)、衣服配飾等方面的總消費上,上海女性也是名列榜首。如果說廣東女性關注自身胸部豐滿程度,那么上海女性最關注的則是整體美,以及在微信朋友圈中展示照片的質量。
最愛讀書的是南京人,
最疼男人的是舟山女人
生活之中,吃喝玩樂缺一不可。在如何度過閑暇時光這一問題上,不同城市各有偏好,根據網購產品類型,城市性格可觀一二。就2011年淘寶網全年書籍銷售情況而言,如果根據每百名買家中購買圖書者的數量進行排名,那么位列排行榜前10的城市中,竟然有6個都出自江蘇省,這也讓江蘇成為最熱愛讀書的省份。

以十二星座來分析網購者的消費能力
按照星座劃分,購買零食的人群中,敢愛敢恨,決不妥協(xié)的天蝎座與白羊座買家
比例最高,每千人中購買者數量平均分別是96.0人與94.9人;而理性、糾結的處女座與天秤座買家相對較少,每千人中購買者數量平均分別是91.0人與90.2人。
但如果以年成交總金額來進行排行,無論男女天秤座的消費力都高居榜首;最節(jié)儉省錢的,則是雙子座人群。盡管以星座來對人群進行劃分并不科學,也被很多人所
不屑,但海量數據中的暗含的這些信息,以及千分之幾的差異,在商業(yè)市場上卻有著難以估量的價值。
以南京為例,每100名買家中有26.7個人購買過書籍,全年全市網購書籍消費達5428萬元,古都積淀下的文化傳統(tǒng)可見一斑。
另外一些購買數據則讓我們看到關于情感生活的種種端倪。根據2011年每百名女性用戶中購買過男士用品的用戶數量,排出了最舍得為男人花錢的城市排行榜,在排名前10的城市中浙江省竟獨占8個席位。其中舟山女性每百人中,就有24人曾網購過男士用品,人均花費達到了900元。值得一提的是,舟山同時也在書籍購買排行榜位列第6,在吉他購買排行榜上位列第1。

舟山男性緣何擁有如此福氣?在各種八卦與猜測之中,有些細想起來卻也不無根據:原先的舟山群島孤懸海外,購物多有不便,且男人有相當比例隨船出海,這里的女性自然對常年在外的男人更加關愛;如今雖然舟山跨海大橋早已通車,但小型客車單程過路費就要百元開外,去寧波等地的成本著實不低,所以網購在這里頗受青睞——打開快遞員送來的吉他,便可坐在窗前面朝大海彈上一曲,不亦快哉!
江浙一帶還有不少網購數據排名全國前列,盡管有些統(tǒng)計結果很冷門,但同樣有趣。比如一年中網購貓糧、貓砂人群比例最高的地區(qū)是江蘇鎮(zhèn)江,換句話說,這里可能是中國最愛貓的城市。值得一提的是,上世紀80年代風靡大江南北的動畫片《黑貓警長》,就誕生在鎮(zhèn)江。

廣州、上海、寧波、北京、麗江、西雙版納、拉薩……這是“航班延誤險”反饋的結果
2012年2月底,淘寶網根據“淘寶旅行”推出的航班延誤險的銷售與賠償狀況,
以春運的“1月8日—2月16日”為統(tǒng)計周期,整理出了航班延誤的城市排行榜。數據顯示:廣州是這一時間段飛機延誤最常發(fā)生的城市,而飛向新疆阿勒泰的
航班最準時靠譜。
網購中的個性化廣告
——給人方便卻也讓人緊張
每次上網買東西,我都會想起一位精通數理運算的朋友。他綽號“八爪”,供職于某著名的網絡交易平臺公司,負責數據分析。每次給外行人介紹他的職業(yè),他都會說:“你網購時,邊上會有一行‘為你推薦’或者‘您可能還喜歡’的推薦欄,我就是做這個的?!?/p>
如何根據客戶之前的行為,準確預測其心中潛在的需求,制作私人化的廣告?這就是八爪工作中所面臨的問題,而解決它的方法,則是海量數據的整理與分析。網購數據中微小的差距和對比,到底有什么樣的意義?八爪對我說,按照數理統(tǒng)計,在無限次的擲硬幣過程中,出現正反面的幾率理論上是一致的。但如果在實際的商業(yè)投資中,某一地區(qū)或領域的成功幾率稍稍偏離平衡,哪怕只是高出一點點,那就可能帶來巨大的商機。
但是說實話,我不喜歡八爪這個職業(yè)。每次網購或者瀏覽商品之后,在不同的界面中,我總會不斷看到和我曾經購買的物品相同或者相似的產品——告訴我哪里價格更低,哪些商品購買的人更多。這些推薦有時讓我懷疑自己曾經選購的商品買貴了,有時則讓我心中不爽甚至恐慌:仿佛自己的一切行為,都在被無形的眼睛默默地看著,這些眼睛的背后,是私人偵探一般的監(jiān)視者——他們可以無視一切繁雜的現象,隨時在窺視你赤裸的“身體”。
在更多的網站中,基于地理位置和日常信息的推薦,同樣讓人不禁擔心,從此隱私暴露無遺。新時代的數據革命,是否會以犧牲個人秘密為代價?
中超聯賽更像中國東部足球聯賽,
西北地區(qū)淪為“足球沙漠”
2014年是世界杯年,而中國足球的主要對手,并不是歐美強隊,甚至已經不再是韓國、日本、伊朗,中國男足在為如何擊敗泰國隊、越南隊而苦惱。當大家都在對球員“怒其不爭”的時候,阿里巴巴董事會主席馬云,卻注資加盟廣州恒大足球俱樂部,為中國足球打入一針強心劑。

依據2014年16家中超俱樂部的參賽注冊信息,全部448名國內足球運動員分別
來自25個省區(qū),其中遼寧籍球員達到145名,比排名第二位的上海球員多99名。在遼寧與上海之后,天津、廣東、山東籍的球員總數也都超過30名,分列3至5位。值得一提的是,沒有一名現役中超球員的籍貫歸屬于甘肅、內蒙古、寧夏、青海、
西藏等省區(qū)。
然而也有不同的聲音:我身邊一位從事體育報道的朋友給了我一份2014年廣州恒大足球隊的名單,隊內29名國內球員中,廣東籍球員有9人,遺憾的是他們大多難以打上主力位置。在20世紀,廣東省是一個球星輩出的省份,可如今雖然廣州恒大足球隊成績顯赫,卻與廣東籍的球員難以扯上直接關系。

那么現在中國頂級聯賽的職業(yè)球員,籍貫的分布究竟是怎樣的狀況呢?
2014年中超聯賽16支隊伍的注冊球員信息中,共有國內球員448名。如果不看球員所在的球隊,只依據其籍貫來匯總,我們會看到一個地域分布非常不均衡的統(tǒng)計結果:遼寧籍球員以145名高居榜首,上海籍球員以46名列第二位,天津與廣東籍球員各有31名,山東籍30名;而甘肅、福建、海南、內蒙古、寧夏、青海、西藏等省區(qū)竟沒有一名中超球員。

中央電視臺
體育頻道
足球評論員
主持人
足球為什么是第一運動?在我看來,足球暗合了工業(yè)革命之后人類社會組織和運轉的原理,可作為研究人類精神世界和社會活動方式的最佳模型。同時,足球是高度組織化的運動,對參與者的個人能力和組織協(xié)調性都提出了很高要求,沒有科學的培養(yǎng)和訓練,我認為一個自然人不可能擁有這樣的技能。而這種高水平的訓練,需要更高水平的組織架構來實施。
我國是個經濟發(fā)展很不均衡的大國,沿海經濟發(fā)展迅速,而西北內陸地區(qū)稍稍滯后。在足球這項運動里,我們可以直接看到這種現象的映射。由于不具備充分的人文和硬件環(huán)境,西北地區(qū)足球水平的提升受到很大限制。雖然愛好者眾多,但沒有足夠的條件使他們的水平得到提升,或者說沒有“催化劑”使他們的水平達到質變。這又會導致競爭力低下,從而削弱基層參與者的動力。如此惡性循環(huán),就形成了目前西北地區(qū)足球貧瘠的現狀。
要想改變并非一日之功,足球的發(fā)展要有經濟基礎,只有經濟積累到一定程度,再加理念上的合理引導,才能逐漸走上正確軌道。足球的發(fā)展和社會的發(fā)展相輔相成,無法脫離整個社會環(huán)境獨立存在。所以,我認為,研究中國足球的前進之道,也許同樣是在為研究中國社會的前進之道貢獻力量。
遼寧足球有著悠久的傳統(tǒng),僅大連市沙河口區(qū)東北路小學,就曾為國字號球隊輸送主力球員數十名。遼寧籍球員占據了國內中超球員的三分之一,可以說這里是中國最出球星的省份。但遺憾的是,包括大連在內的遼寧省球隊,如今已經輝煌不在。
同樣值得關注的是,西藏、青海、內蒙古等省區(qū),喜愛足球的孩子不在少數,但竟然沒有球員活躍在國內的頂級賽場,這同樣讓人感到唏噓和無奈。
未來最火爆的“光棍集中營”,
將出現在江蘇連云港贛榆區(qū)和
湖北武穴市
其實在地圖版面上,我們很難找到均勻、規(guī)則分布的數據。資源與人口分布的不均衡,使得不同地區(qū)的各種指標都存在著或大或小的差異。
有些數據大家看完可一笑了之,有些卻著實有些沉重。近幾年,周圍不少朋友喜得貴子——很大比例都是男孩兒,女寶寶鳳毛麟角。大家相互開玩笑說,以后男孩找老婆競爭會相當殘酷。

很可能成為未來
最火爆的光棍集中地
第五次全國人口普查中各區(qū)縣1—4歲兒童
男女比例分布圖
這張地圖是一家圖形圖像企業(yè)依據2000年第五次全國人口普查公布的數據制作的。在1至4歲的人口中,中國2800多個區(qū)縣中有295個男女比例超過1.4,
也就是說100個女孩對應著140個男孩甚至更多。男女性別比例嚴重偏高的地區(qū),主要集中在中國中東部,在此我們列出了性別比例最為失衡的20個區(qū)縣。值得
注意的是,被調查統(tǒng)計的兒童如今已經成長到15—18歲,很多地區(qū)的男青年將要面對激烈的求偶競爭。制圖/超擎圖形 王昊
可是認真起來,這事還真不是開玩笑。從事圖形圖像軟件行業(yè)的王昊先生和郭井順先生依據2000年第五次全國人口普查的數據,把1—4歲的兒童分地區(qū)進行了統(tǒng)計,結果一張令人震驚的中國地圖出現在我面前。
在中國大部分地區(qū)尤其是東部,男孩的出生比例壓倒性地超過女孩。按照普遍的人口規(guī)律,在不受人類控制和干擾的情況下,世界各地出生的嬰兒性別比例應該是基本一致的。男女比例一般在1.02∶1—1.07∶1之間,也就是說每出生100個女嬰時,男嬰出生數為102—107個。由于男嬰的死亡率略高于女嬰,這樣到婚育年齡時,男女性別比例就基本持平。
可在中國很多地區(qū),新生兒性別比例已經遠遠高出這個數字。在江蘇、甘肅、河南、湖北、江西、廣東的部分地區(qū),嬰幼兒男女比例已經高過1.5∶1,其中江蘇連云港市的贛榆區(qū)、湖北的武穴市,男女比例竟達到2左右。

中國社會科學院社會學研究所研究員
早在1983年就已有人注意到性別比失衡問題,當時我國性別比尚屬正常。最早見諸報端的性別比失衡現象是1989年關于某縣情況的報道。到2007年,我國已經成為世界上出生性別比失衡最為嚴重、持續(xù)時間最長的國家。
人口專家認為,造成男女性別比例失調的重要原因是重男輕女,認為無兒便是斷香火,許多孕婦求助于醫(yī)療技術鑒別胎兒性別。概括說來,長期父權制下形成的重男輕女思想,社會保障制度不健全,B超的普及和濫用,是導致我國出生性別比失衡的三大主要原因。
性別比失衡的危害很多,首先是“婚姻擁擠”現象的出現。根據國家統(tǒng)計局人口統(tǒng)計資料推算,目前0—19歲人口中,男性比女性多2377萬。未來20年內,平均每年新進入結婚年齡的男性,比女性多120萬人。同齡適婚女性短缺,男性就會向低年齡女性中擇偶,擠壓到一定程度,就要向別的地區(qū)發(fā)展,“婚姻剩余男性”最后沉積在低收入的貧困階層;其次是由此導致的犯罪增加,危及婚姻和家庭穩(wěn)定,使得買賣婚姻、拐賣婦女、賣淫嫖娼等違法犯罪行為大大增加。在個別出生性別比不平衡的地方,已經出現了跨境非法婚姻、跨境強行拐賣和強迫賣淫等社會問題。
目前,國家推行的扭轉出生人口性別比失衡的措施主要有以下幾種:首先,改變重男輕女的傳統(tǒng)觀念,倡導男女平等。采取關愛女孩行動,傳播女孩也能傳宗接代的理念;其次,改變婚后男居制習俗,提倡男到女家的招贅婚姻,使得婚居模式實現多樣化;第三,為農村獨生子女戶和雙女戶發(fā)養(yǎng)老金,使農村的計劃生育從單純的行政命令向利益導向轉變;第四,打擊性別選擇性終止妊娠行為,打擊B超對胎兒性別的鑒定。
總之,出生人口性別比失衡的問題已經引起國家的高度重視,希望能夠通過全國人民的共同努力遏制其發(fā)展勢頭,使之最終回歸正常范圍。
中國社會科學院社會學研究所編寫的《當代中國社會結構》一書提到,改革開放以來尤其是上世紀80年代后期,我國出生人口男女性別比越來越大。2005年全國1%人口抽查顯示,出生男女性別比在1.3以上的省份有5個,在1.2—1.3之間的省份有7個。另外,農村出生性別比明顯高于城市。
另外根據其他的調查,中國東部一些自然村中,平均每個村子有大齡未婚男性8名;西部地區(qū)達到10名。實際上的數字可能遠遠不止如此。
這樣的地圖,不知會讓多少未婚男性產生危機感。
掌握手機定位的數據,
就能像上帝一樣觀望人口流動
17世紀,英國經濟學家,同時也是英國皇家學會創(chuàng)始人之一的威廉·配第出版《政治算術》一書,宣告著統(tǒng)計學的建立。這本書論述了所有的政府事務及與君主榮譽、百姓幸福和國家昌盛有關的事項,都可以用算術的一般法則來證實。作者以極其普通的科學原理,試圖解釋紛繁錯綜的世界。

這是一組通過不同時段開啟手機定位服務的人群反饋,也就是LBS(基于地理位置的服務)數據制作的上海市人口流動的數據圖。城市中心就像一塊磁鐵,在白天吸引人群沿磁力線般的軌跡運動。圖中紅色區(qū)域代表比0點時人口密度數據高,藍色區(qū)域則代表比0點時人口密度低,具體的相對密度表示顏色如圖例標尺所示。
在上午,人員大量的從城市周邊向中心涌入,城市中心人數增加,周邊區(qū)域的人數減少。在上午9—10點,人員涌入市中心的速度達到高峰,此后緩緩減少;在下午,沒有大規(guī)模的人員流動,市區(qū)中心人口達到峰值,周邊地帶人口達到谷底。這預示著在這些地區(qū)是住宅較為集中的區(qū)域,白天人們離開住宅前往市中心,因此這些區(qū)域人口達到谷底,例如北面中環(huán)以北和南面外環(huán)沿線的地區(qū)。在傍晚,人員開始由市中心向周邊遷移。18點前后人流量達到頂峰;在18點與20點的圖上,表示人員流動的線條匯聚的地點有所差異,這其實體現出人員流動的不同模式:一些人在
下班后并不著急回到住處,而是在靠近市中心的地方購物或者娛樂,稍晚再回到郊區(qū)的住處;一些住在更遠地方的人則要在回家途中消耗更多的時間。
數據提供/清華大學自動化系系統(tǒng)工程研究所
隨著技術發(fā)展,歲月更迭,如今生活中各種可量化、可收集的數據呈現出幾何級數般的增長。如何用更加獨特的視角來解讀經濟發(fā)展中出現的種種現象,進而讓數據產生更大的社會價值?“大數據”一詞在這樣的時代背景下應運而生,大量、高速、多樣和價值,被定義為“大數據”的特點與精髓所在。

2014年春節(jié)期間,百度地圖推出一個基于手機定位可視化數據而制作的國內城市間人口流動實時地圖。春運可以說是短時間內極大規(guī)模的人口遷徙行為,而流動人口所攜帶的手機如果開啟了定位功能,那么這些定位數據反饋到計算平臺,就可以相對準確和及時地表現出地圖上任何一個地區(qū)人員的遷入與遷出狀況。
這樣的數據反饋,也可以揭示一天內某一地區(qū)人口密度的變化。以北京或者上海的某個地鐵站為例,如果把每一個出站的、開著手機定位的人做出一個標注點,那么點的密度幾乎是與實際人數成正比的。

通過標注點的密度,我們可以查看哪個出口人多,哪個出口冷清,將這些數據分享給政府部門,可以從公交車站、餐飲車、報刊亭等諸多方面對地鐵站周邊的服務設施進行優(yōu)化。
把手機定位的海量數據擴大到更大的范圍,比如說一座城市,就可以從中讀出更多的信息。從商業(yè)上看,哪些商圈在哪些時間段人流量大,結果一目了然,這些數據對于商業(yè)區(qū)的宏觀規(guī)劃以及商家對于店鋪位置的選擇都有著重要參考價值;而在出行時,人流密度的數據反饋比起道路上的路況信息沒有時間滯后,可以幫助用戶更有效地挖掘出最佳的行車路線,避開擁堵。

中國科學院院士
中國科學院地理科學與資源研究所研究員
地圖誕生于古老的時代,持續(xù)綿延幾千年,實現了對地球整體的描述。作為一種空間分析模型,地圖是一種基于空間聯系的空間思維體系,并成為我們日常生活和生產中不可或缺的基本要素,其生命力在于與時俱進,不斷創(chuàng)新。
在當今的信息社會,我們已經習以為常地用電子地圖去查找商場與酒店。而百度地圖制作的景區(qū)熱力圖,利用得到的實時人流數據,可以動態(tài)地展現人群的分布,識別熱點區(qū)。這些實時、動態(tài)的地圖可以幫助我們優(yōu)化空間路線、識別潛在危險等。
如今,移動互聯和大數據時代正在改變著地圖的生產與應用方式。地圖不僅應用于感知客觀的物質世界空間,而且可應用于感知虛擬的精神空間。大數據要求人們改變對精確性的苛求,轉而追求混雜性;要求人們改變對因果關系的追問,轉而追求關聯關系。這是一種革命性的思維轉變。
因此,許多專家與學者,從制圖、信息實時集成、使用等角度,表達了對未來新型地圖的期待。這種新型地圖,將以人為本,自適應用戶需求,全方位動態(tài)關聯與位置相關的泛在信息,以四維地圖形式表達。它將表現出以下三個特點:高精度、精細化、真三維;高動態(tài)、個性化;同移動互聯網及物聯網緊密結合。
其實不光是手機定位反饋的信息,還有很多看似無關的數據,同樣可以透露出不同地區(qū),乃至不同城市的繁華程度:比如銀行的密度、機場的吞吐量、公交線路的密度乃至公共廁所的密度等等。

10月10日,北京人口聚集度變化熱力圖
圖中藍色、綠色的冷色調區(qū)域表示開啟手機定位服務的人流密度相對較低,紅色則表示人員密集。以首都北京2014年10月10日的數據為例:零點到7點的睡眠時間段中,熱力點比較稀疏,說明當前在使用LBS定位服務的人比較少;7點后居民陸續(xù)出行上班;9點圖中開始出現紅色熱點區(qū)域,之后至17點人群密集地主要集中在國貿CBD、中關村、金融街等區(qū)域;19點人群陸續(xù)下班回家,回龍觀、通州、亦莊等遠離金融中心的大型居民區(qū)人口密度逐漸上升。數據提供/百度地圖—LBS開放平臺
當然要想更加精確、及時地在地圖上呈現出某些信息,除了用更獨特的視角和方法去挖掘數據,還需要用更加復雜的方法來對數據進行收集和運算——不同數據源的疊加和融合,往往可以把很多曾經難以量化的內容精確地呈現、甚至預測出來。

離京人群最多去向哪里?
在2014春節(jié)前后,百度公司一個名為“百度遷徙”的產品引起了社會的關注。百度地圖基于其擁有的LBS大數據進行計算分析,動態(tài)、即時地在中國地圖上展現了那段時間人口大遷徙的軌跡與特征。截至2013年8月,百度地圖開放平臺反饋的日處理用戶定位請求超過35億次,海量的數據讓我們得以像上帝一樣觀望人口的遷徙轉移狀況。以臘月二十六日晚上9點至10點從北京通過火車、飛機等交通工具向外擴散的人群為追蹤目標,百度地圖直觀地顯示了擴散人群最為集中的目的地。
理論上看,開啟手機定位的人群,在全天中尤其是工作時間大致是和一個地區(qū)的人口密度成正相關的。除了春運,在某個城市或者城市某地區(qū),海量的LBS數據同樣對人群的行為洞察、商圈的競爭格局、輿情跟蹤,以及對景區(qū)、地鐵站的擁擠程度等給出極具參考價值的實時可視化信息。數據提供/百度地圖—LBS開放平臺
一系列采訪的最后,我在中國科學院地理科學與資源研究所見到了中國科學院院士周成虎先生。他講述了一個用大數據來預測疾病暴發(fā)的案例:2008年11月11日谷歌啟動了“谷歌流感趨勢”,也就是通過跟蹤分析用戶輸入的關鍵詞,創(chuàng)建地區(qū)流感圖表和流感地圖,以顯示流感的傳播方向與范圍。到了2013年2月初,美國疾病控制與預防中心發(fā)布報告說,大西洋沿岸中部地區(qū)暴發(fā)了流感,但谷歌匯總的搜索數據在兩周前就表明了這一狀況。

當我離開地理科學與資源研究所的時候,天色已晚。面對我的種種疑問,陪同我出來的一位做數據收集的研究生,半開玩笑地說起捷克作家米蘭·昆德拉的名言:“碰巧的另一種說法,就是命運?!?/p>

如何去尋找世界上的繁華之所與荒野之地?面對這樣的問題,舊時大多是以一種或幾種客觀指標來轉換概念,比如以世界人口密度的分布(圖1)來表現各地繁華程度的差異,進而將結論在地圖上呈現出來。但人群的流動擴散以及經濟建設的發(fā)展,難免讓這樣的結論顯得簡單草率?,F在多家國際組織和高校,通過城市擴張、土地利用、道路水路分布以及夜晚燈光等多元數據的計算整合,制作出“人類足跡指數分布圖”。充分的數據與盡可能嚴密的算法,正在把這個看似虛無的問題解釋得更加準確。制圖/國際應用系統(tǒng)分析研究所(IIASA)?劉偉
誠哉斯言。萬物看似隨機,但都有其統(tǒng)計學的宿命。而這一切,都離不開浩如煙海的數據信息。將這些數據通過思想和技術進一步分析、提煉、歸納,大千世界的紛繁復雜,就可能簡潔有序地呈現在我們面前。
凡中國國家地理網刊登內容,未經授權許可,任何媒體和個人不得轉載、鏈接、轉貼或以其它方式使用。
已經本網書面授權的,在使用時必須注明來源。違反上述聲明的,本網將追究其相關法律責任。