起碰97在线视频人妻_无码性调教视频在线观看_美女黄网站免费福利视频_国产av无码专区亚洲av男同

四川中衛(wèi)北斗科技有限公司

在線(xiàn)咨詢(xún)
電話(huà)

18140091980撥打

微信

微信掃一掃

長(zhǎng)按二維碼關(guān)注微信加好友

關(guān)于《我為什么要強(qiáng)烈反對(duì):對(duì)著數(shù)據(jù)做數(shù)據(jù)的研究》的討論

發(fā)布時(shí)間:2018-07-05 11:19

前兩天公眾號(hào)所發(fā)出的推文《我為什么要強(qiáng)烈反對(duì):對(duì)著數(shù)據(jù)做數(shù)據(jù)的研究》,引發(fā)了很多有益的討論。交通大數(shù)據(jù)分析研究的水面過(guò)于平靜,激起點(diǎn)波瀾是好事情??戳舜蠹业挠^(guān)點(diǎn),感到有必要談一下自己的想法。

首先,作者所提出的討論問(wèn)題的框架(“定義-> 數(shù)據(jù)源->計(jì)算方法-> 擴(kuò)樣方法-> 數(shù)據(jù)校核”)是數(shù)據(jù)分析的討論模式。這并非是說(shuō)大數(shù)據(jù)分析不需要這方面的工作,由于大數(shù)據(jù)分析是建立在基于數(shù)據(jù)的統(tǒng)計(jì)分析基礎(chǔ)之上,必要的數(shù)據(jù)質(zhì)量評(píng)估和數(shù)據(jù)修復(fù)是前提和基礎(chǔ),但遠(yuǎn)非全部。在大數(shù)據(jù)分析中采用“是否獲得確切的結(jié)論”,而不是采用“是否獲得有價(jià)值信息”的方式討論一些局部研究工作是不恰當(dāng)?shù)摹?/p>

同時(shí)需要注意的是大數(shù)據(jù)分析要盡可能避免“擴(kuò)樣”,這一方面是大樣本分析與小樣本分析具有本質(zhì)性的差異。小樣本方法也稱(chēng)為“精確方法”,因?yàn)樗腔谟嘘P(guān)統(tǒng)計(jì)量的精確分布,小樣本方法的統(tǒng)計(jì)特性,如顯著性水平、置信系數(shù)等,往往是精確而非近似的。大樣本方法則被稱(chēng)為“漸近方法”或“近似方法”,因?yàn)樗腔诮y(tǒng)計(jì)量的漸近分布,且有關(guān)的統(tǒng)計(jì)特性只是近似而非精確的,因而產(chǎn)生了近似程度如何的問(wèn)題。更為重要的是,大數(shù)據(jù)具有很強(qiáng)的“蓋然性”特征(蓋然性在《現(xiàn)代漢語(yǔ)詞典》中的解釋是:有可能但又不是必然的性質(zhì))。由于大數(shù)據(jù)分析所使用的數(shù)據(jù)資源并非針對(duì)分析目的的“定制數(shù)據(jù)”(就如移動(dòng)通信信令數(shù)據(jù)并非專(zhuān)為空間活動(dòng)檢測(cè)的數(shù)據(jù)),其中的屬性判斷涉及“否定-模糊-肯定”三個(gè)值域,相當(dāng)部分個(gè)體的屬性判斷是落在“模糊”區(qū)域的。在職住空間聯(lián)系結(jié)構(gòu)的判斷中,就涉及對(duì)于是否就業(yè)者的判斷。缺乏個(gè)體社會(huì)屬性信息情況下,僅僅根據(jù)用戶(hù)空間活動(dòng)特征必然存在相當(dāng)部分難以判斷,而試圖獲取個(gè)體社會(huì)經(jīng)濟(jì)屬性則是一條不能逾越的紅線(xiàn)。采用傳統(tǒng)數(shù)據(jù)分析方法進(jìn)行擴(kuò)樣,強(qiáng)行區(qū)分將中間難以判斷部分人歸入是或者否的范疇,反而會(huì)造成可信度(大數(shù)據(jù)分析中應(yīng)該采用可信度而非精度)方面的問(wèn)題。因此,交通大數(shù)據(jù)分析一般應(yīng)該僅使用“否定”和“肯定”部分所提供的信息。當(dāng)然這種信息是不完整的,這就是為什么我一直強(qiáng)調(diào)大數(shù)據(jù)分析所獲得的單項(xiàng)證據(jù)絕大多數(shù)為“間接證據(jù)”的原因。認(rèn)為這種不完備證據(jù)不具有分析價(jià)值是嚴(yán)重偏離了大數(shù)據(jù)分析的初衷,大數(shù)據(jù)分析中恰恰非常強(qiáng)調(diào)低信息密度數(shù)據(jù)。大數(shù)據(jù)分析最為重要的一點(diǎn),是充分利用各種有價(jià)值信息,多層次、多角度、連續(xù)地觀(guān)察研究對(duì)象,對(duì)具體數(shù)據(jù)分析的任務(wù)應(yīng)定位于“是否可以獲取有價(jià)值的信息”,而非“獲取完備信息”(直接證據(jù))。交通大數(shù)據(jù)分析研究并非不知道信息缺陷,而是不放棄不完備信息(間接證據(jù)),力圖通過(guò)“證據(jù)鏈”,采用基于證據(jù)的“證-析”方法解決問(wèn)題。作者所批評(píng)的“職住空間聯(lián)系結(jié)構(gòu)”研究工作,糾結(jié)于400萬(wàn)確定個(gè)體以外部分占有很大份額,是誤解了相關(guān)的研究目的,自認(rèn)為該方面的研究是力圖通過(guò)移動(dòng)通信信令數(shù)據(jù)來(lái)確切了解城市中的各種職住分布與職住空間聯(lián)系,但是該項(xiàng)研究主要目的是識(shí)別“職住的空間聯(lián)系結(jié)構(gòu)”包括哪些類(lèi)型(至于作者所提出的推文中沒(méi)有討論數(shù)據(jù)具體處理的質(zhì)量分析問(wèn)題,我已經(jīng)建議作者應(yīng)該去看該碩士論文,而不是公眾號(hào)的短文)。事實(shí)上,對(duì)于交通角度的研究工作來(lái)說(shuō),如果為了研究當(dāng)前通勤交通流量是完全沒(méi)有必要繞道“職住”關(guān)系這個(gè)圈子。采用移動(dòng)通信信令數(shù)據(jù)研究“職住空間聯(lián)系結(jié)構(gòu)”特征的工作,并非識(shí)別每一個(gè)具體“職住社區(qū)”的空間位置和范圍,主要是希望通過(guò)移動(dòng)通信信令數(shù)據(jù)判斷城市中的職住“社區(qū)”(此社區(qū)并非城市規(guī)劃中的“社區(qū)”,而是復(fù)雜網(wǎng)絡(luò)中所定義的社區(qū))結(jié)構(gòu),以及識(shí)別城市中具有廣泛意義的職住的空間聯(lián)系關(guān)系究竟有幾種類(lèi)型,以完成宏觀(guān)層面的問(wèn)題結(jié)構(gòu)判斷,為相關(guān)案例剖析和深入調(diào)研方案打基礎(chǔ)。作者混淆了大樣本分析與小樣本分析的差異,也沒(méi)有真正理解“大數(shù)據(jù)分析”與“數(shù)據(jù)分析”的不同,也不知道這部分工作是在“宏微觀(guān)嵌套分析框架”下進(jìn)行的,因此文中的這部分結(jié)論我是完全不贊同的。

面對(duì)大數(shù)據(jù),傳統(tǒng)統(tǒng)計(jì)意義上的數(shù)據(jù)校核往往是難以實(shí)現(xiàn)的,這正是李國(guó)杰院士提出在大數(shù)據(jù)科學(xué)中需要研究相關(guān)統(tǒng)計(jì)學(xué)新問(wèn)題的原因。仍然以職住空間聯(lián)系結(jié)構(gòu)研究為例,移動(dòng)通信信令數(shù)據(jù)的基礎(chǔ)是移動(dòng)通信基站服務(wù)范圍,在市域范圍內(nèi)基站服務(wù)范圍差異很大,中心城區(qū)內(nèi)是2-300米的半徑,而外圍地區(qū)則達(dá)到數(shù)公里乃至10公里左右,也就是說(shuō)其空間坐標(biāo)參照系是非均勻的,這意味著相當(dāng)部分定位數(shù)據(jù)橫向是不可比的。即使采用質(zhì)量更好的數(shù)據(jù),所確定的個(gè)體位置也是具有很大不確定性。想要通過(guò)盡力提升數(shù)據(jù)質(zhì)量,獲取理想數(shù)據(jù)來(lái)完成數(shù)據(jù)分析工作,仍然沒(méi)有擺脫傳統(tǒng)數(shù)據(jù)分析的思維方式,有可能遇到難以克服的障礙。如果把視野擴(kuò)展到交通大數(shù)據(jù)分析中的“輿情分析”,通過(guò)語(yǔ)義分析技術(shù)從網(wǎng)絡(luò)中提取的輿情信息,更加不是傳統(tǒng)數(shù)據(jù)檢驗(yàn)?zāi)軌蛲瓿煽尚哦仍u(píng)估的任務(wù)。交通大數(shù)據(jù)分析探索的是完全不同的另外一條研究路線(xiàn):挖掘不完備數(shù)據(jù)資源的價(jià)值,通過(guò)將間接證據(jù)組合成為證據(jù)鏈來(lái),基于證據(jù)鏈通過(guò)群決策完成問(wèn)題識(shí)別與判斷。

作者的題目強(qiáng)調(diào)批判“對(duì)著數(shù)據(jù)做數(shù)據(jù)的研究”,有可能混淆了技術(shù)應(yīng)用研究與探索性科學(xué)研究的界限。城市交通已經(jīng)進(jìn)入“物理-信息-社會(huì)”三元空間的時(shí)代,感知網(wǎng)、物聯(lián)網(wǎng)等技術(shù)發(fā)展使得數(shù)據(jù)繞過(guò)“人”而直接產(chǎn)生信息,信息空間有很強(qiáng)的獨(dú)立性。在此背景下交通大數(shù)據(jù)分析的任務(wù)并非是“利用更多的數(shù)據(jù)資源去對(duì)已有經(jīng)驗(yàn)外延”(這應(yīng)該是交通數(shù)據(jù)分析的任務(wù)),而是充分利用各種信息,盡力發(fā)現(xiàn)我們所不知道的問(wèn)題,以更好地應(yīng)對(duì)具有復(fù)雜適應(yīng)性特征的城市交通演化。為此,必須展開(kāi)大量的探索性研究工作,從并不完備的海量數(shù)據(jù)中提取有價(jià)值信息的方法,就是其中的一部分。缺少了這部分工作,根本談不上在大量“間接證據(jù)”的基礎(chǔ)上構(gòu)建“證據(jù)鏈”,進(jìn)而完成城市交通的“情報(bào)決策”。但是要注意“對(duì)著數(shù)據(jù)做數(shù)據(jù)的研究”與“僅根據(jù)不完備數(shù)據(jù)分析下結(jié)論”是兩個(gè)完全不同的概念,作者似乎沒(méi)有對(duì)此加以區(qū)分。前者是科學(xué)和技術(shù)發(fā)展需要的(再次強(qiáng)調(diào)由于技術(shù)的發(fā)展,信息已經(jīng)成為一個(gè)相對(duì)獨(dú)立的空間),后者是錯(cuò)誤的。就像不能認(rèn)為采用傳統(tǒng)數(shù)據(jù)分析方法進(jìn)行規(guī)劃等方面的問(wèn)題研究是錯(cuò)誤路徑一樣,也不能認(rèn)為在一定需求背景下展開(kāi)針對(duì)數(shù)據(jù)本身的特征提取和情報(bào)決策研究是鉆牛角尖。前者是采用數(shù)據(jù)分析技術(shù)的應(yīng)用研究,后者是構(gòu)建交通大數(shù)據(jù)分析的理論與方法的研究,任務(wù)不同。

交通大數(shù)據(jù)分析技術(shù)研究必然會(huì)有波折起伏,在這個(gè)過(guò)程中更多觀(guān)點(diǎn)的討論是非常必要,只有這樣才能夠真正完成科學(xué)和技術(shù)的升華。對(duì)于一個(gè)遠(yuǎn)談不上成熟的領(lǐng)域,在學(xué)術(shù)上還是很有必要區(qū)分“數(shù)據(jù)分析”與“大數(shù)據(jù)分析”的差異,以避免引起混亂。

掃一掃在手機(jī)上閱讀本文章

版權(quán)所有? 四川中衛(wèi)北斗科技有限公司    蜀ICP備14007264號(hào)-3    技術(shù)支持: 竹子建站