文章來源:“小白學(xué)統(tǒng)計(jì)”公眾號。
如何有效地分析一份數(shù)據(jù)。這個題目很大,然而也正是很多非統(tǒng)計(jì)學(xué)專業(yè)(可能也包括一些統(tǒng)計(jì)學(xué)專業(yè)人員)不知如何下手的問題。當(dāng)拿到一份數(shù)據(jù),到底從哪兒入手開始分析。什么是第一步?有沒有固定步驟?或者說,數(shù)據(jù)分析到底有沒有什么寶典?我們就來談?wù)勥@個問題。
首先,數(shù)據(jù)分析絕對沒有一個固定的步驟,一定要先干什么,再干什么,等等。沒有這回事。具體在軟件操作上,我們可能并無差別,我會用SAS做t檢驗(yàn),你會用SPSS做t檢驗(yàn),本質(zhì)上并無差異。真正差別的,不是軟件操作,而是軟件操作之前的思路。
我下面要說的內(nèi)容,只是個人的十多年分析經(jīng)驗(yàn)總結(jié),但你千萬不要把它看做是一個放之四海而皆準(zhǔn)的分析套路。所謂思路,那就是沒有什么固定套路,只是參考和借鑒。而且,我介紹的這些,肯定也不全,幾乎不可能一篇文章面面俱到,把所有的分析思路都介紹清楚。只希望能對各位朋友在不同角度上有所幫助。
第一步要考慮的,我個人認(rèn)為,一定是研究目的。
所有的統(tǒng)計(jì)分析都是圍繞目的而執(zhí)行,偏離了研究目的,分析的方法再高級,那也是南轅北轍。不同的目的,需要考慮不同的方法。
例如,你要做兩組比較(例如,兩種藥物的血糖變化值有無差異),還是要做兩個變量有無關(guān)聯(lián)(比如血糖值和血壓值的關(guān)聯(lián)),或者想做綜合評價(如根據(jù)多個指標(biāo)評價哪家醫(yī)院更好)。這都需要選擇不一樣的方法,組間比較可能最簡單的方差分析就可以,綜合評價可能需要用到主成分分析等更為復(fù)雜的方法。
第二步,要考慮指標(biāo)的類型。
這里的指標(biāo)包括分析指標(biāo)因變量,也包括影響因素自變量。當(dāng)然,并非所有分析都這么劃分為因變量和自變量。有的可能只有分析指標(biāo),而無影響因素。
如果你有明確的結(jié)局,然后有一個或多個可能跟結(jié)局有關(guān)的指標(biāo),那就可以按因變量和自變量的方法來分析。大多數(shù)的這種情形都可以考慮廣義線性模型。它包含了幾乎絕大多數(shù)的有結(jié)局和影響因素的分析場景。例如,結(jié)局是連續(xù)資料,可以考慮線性回歸等;結(jié)局是分類資料,可以考慮logistics回歸等。
可能有人會說,那t檢驗(yàn)、卡方檢驗(yàn)這些在哪兒呢?其實(shí)這些都可以看做是單因素分析而已。t檢驗(yàn),只是一個自變量是二分類、因變量是連續(xù)變量的回歸模型而已。比如比較男女之間身高有無差異,身高就是因變量(結(jié)局),性別就是自變量(因素),所謂比較男女之間有無差異,實(shí)際上就是說,性別對身高有無影響。其實(shí)一回事??ǚ綑z驗(yàn)亦是如此。
所以,幾乎所有的統(tǒng)計(jì)分析方法,都跟變量類型有關(guān),都需要根據(jù)變量的類型來選擇不同的方法。比如,如果結(jié)局指標(biāo)是連續(xù)變量,那可以考慮的方法包括(但不限于):t檢驗(yàn)、方差分析、協(xié)方差分析、線性回歸、秩和檢驗(yàn)、中位數(shù)回歸等等,根據(jù)自變量的類型、因變量是否服從正態(tài)分布等多個因素來考慮選擇。
但是還有一些分析數(shù)據(jù),是不區(qū)分所謂的因變量和自變量的,都是分析指標(biāo),比較常見的如主成分分析、聚類分析、相關(guān)分析、因子分析等等。這些分析方法不是為了研究某些因素對結(jié)局的影響,而只是針對分析指標(biāo)根據(jù)不同目的進(jìn)行一定的分析。
例如,主成分分析通常是為了把多個分析指標(biāo)綜合成較少的幾個指標(biāo);聚類分析通常是為了根據(jù)幾個指標(biāo)把人群歸為幾類;因子分析通常是為了尋找支配表面指標(biāo)的背后因素。這些方法一般稱為多元方法,“元”一般是指因變量,這些都是多因變量的方法。
而前面說的線性回歸、logistics回歸等,通常都是單個因變量,多個自變量,因此算不上多元方法,更確切地說是多因素的分析方法。
第三步,具體問題具體分析。
可能你會說,這算什么步驟。然而,實(shí)際的情況是,真正到了數(shù)據(jù)分析過程中,往往就是具體問題具體分析。
根據(jù)前面提到的目的和數(shù)據(jù)類型,你基本上可以確定一定范圍的幾種方法。有時可能就確定了某一種方法了。然而再利用這種方法進(jìn)行分析的時候,仍需要一些思路的指導(dǎo)。
根據(jù)我個人的分析領(lǐng)域和分析經(jīng)驗(yàn),在醫(yī)學(xué)統(tǒng)計(jì)學(xué)中,大多數(shù)的分析方法(并非全部)可以歸為兩大類:一是有結(jié)局也有影響因素的;二是只有結(jié)局沒有影響因素的。這里面又以有結(jié)局有影響因素的更為常見。
對于有結(jié)局有影響因素的這類數(shù)據(jù),大多數(shù)的目的都是為了尋找結(jié)局主要受哪些因素影響。因此這里主要是基于這種目的再來說一下分析思路。
想要說明某一自變量是否對結(jié)局有影響,至少需要回答三個問題:
(1)是不是有影響?
(2)有什么樣的影響?(線性影響,還是非線性的)
(3)影響有多大?
某一自變量是不是對結(jié)局有影響(例如,收縮壓的高低是不是對血糖值有影響),這是個定性問題,要回答這個問題,基本上P值可以說明一些問題。P值可以告訴我們,這種影響是不是偶然造成的,還是一種真實(shí)存在的現(xiàn)象。
然而,僅回答“是不是有影響”,這是遠(yuǎn)遠(yuǎn)不夠的。比如,你可以說,吸煙有害健康,這是定性問題。然而,吸煙對健康的危害到底有多大,這是個定量問題。這才是大家更關(guān)心的。因此還需要考慮這種影響到底有多大。
影響有多大,可以通過統(tǒng)計(jì)軟件中的“參數(shù)估計(jì)值”來說明。比如,我們常說的回歸系數(shù)、兩組比較的均值差值,這都是參數(shù)估計(jì)值,他們可以說明這種影響有多大。例如,體重對收縮壓的參數(shù)估計(jì)值是0.1,說明體重每增加一公斤,收縮壓增加0.1;男女的身高差值是0.2,說明性別從女到男之間的差異是0.2。這可以定量說明影響有多大。
現(xiàn)在看來,似乎定性和定量都回答完了。事實(shí)上,很多人也就做到這一步就完了。然而,其實(shí)還有更重要的一個要回答的問題是:“有什么樣的影響”。
回答影響因素的模型,大多數(shù)是回歸模型,而回歸模型中,大多數(shù)又都是基于這樣一個假設(shè):自變量和因變量(或者因變量的變形)是線性關(guān)系。不得不說,很多人根本無視這個假設(shè),從而導(dǎo)致很多分析結(jié)果其實(shí)都是錯誤的。畢竟,現(xiàn)實(shí)中有多少關(guān)系是線性的呢?其實(shí)很多可能都是非線性的。這就是要回答的重要問題“有什么樣的影響”,到底是線性的影響,還是非線性的影響。
遺憾的是,關(guān)于這個至關(guān)重要的問題,卻只有少數(shù)人能回答。根據(jù)我個人的經(jīng)歷,大多數(shù)人(包括很多統(tǒng)計(jì)學(xué)家)是不考慮這個問題的。也許,不是不考慮,而是沒有考慮到,或者,不知道該怎么考慮。
關(guān)于“有什么樣的影響”,有些可以通過簡單的散點(diǎn)圖就可以發(fā)現(xiàn),有的則更為復(fù)雜,一眼看不出來,可能需要像廣義可加模型、樣條回歸、核平滑等多種技術(shù)協(xié)助探索。這可能需要專業(yè)的統(tǒng)計(jì)學(xué)家才能完成。然而,這也是體現(xiàn)專業(yè)和非專業(yè)的非常關(guān)鍵的一點(diǎn):能不能真正幫你找到數(shù)據(jù)規(guī)律。
總的來說,要真正形成自己的分析體系,一定要先掌握各種方法,然后把這些方法之間的關(guān)系搞清楚,抽絲剝繭,提煉升華。這是一個由粗到細(xì),再到粗的一個過程。只有細(xì)致深入,真正理解,才能把握重點(diǎn),提煉出粗略的枝干。
只有了解足夠多的方法,在考慮方法選擇的時候才能做到“胸有成竹”,從多種方法中選擇最合適的,否則你只會一種方法,就只能局限于這種方法,無法進(jìn)行選擇。雖然可能最后的結(jié)果都一樣,都用了同一種方法,但是過程卻不同。你可能是不會別的方法,只能用這種;而我是考慮了多種方法后,認(rèn)為這種最為合適,主動選擇了這種方法。