- 相關推薦
科研論文寫作常見的統計學問題
隨著醫學科研工作的深入,醫學統計學的應用越來越廣泛,下面是小編搜集整理的科研論文寫作常見的統計學問題,供大家閱讀參考。
未交待清楚所用統計學方法
論文中所用的統計方法應在最后交待清楚。使用不正確的統計方法會得出錯誤的結論,所以統計方法交待不清或根本不予交待,會使讀者對論文結論的正確與否無法判斷。有的作者只提一句“經統計學處理”后就寫出結論,有的甚至于直接用P值說明問題了事。正確的做法應寫明具體的統計方法,如有特殊情況,還應說明是否采用了校正,這樣才有說服力。嚴格地說,應寫明精確的統計量值和P值,如t值、F值、χ2值等,不應籠統地以P>0.05或P<0.05代替。此外,最好能交待所使用的計算工具與統計軟件名稱。
不考慮統計方法應用條件
每一種統計方法都有其適用條件。
在表示計量資料的平均水平時常用到平均數。然而平均數有算術平均數、幾何均數和中位數,各有其應用條件。應用均數時,必須首先確定數據為正態分布。如果數據是偏態分布,仍用均數表示其平均水平勢必導致錯誤的結論。對于偏態分布的數據,應該用幾何均數或中位數表示其平均水平。
t檢驗要求樣本來自正態總體,作兩樣本均數比較時還要求方差齊。如果不符合這些條件,則應考慮進行數據轉換或用非參數檢驗;當兩小樣本均數比較方差不齊時,可采用t檢驗。例如臨床研究中常涉及病人的病程,有的論文中病程5d至24年的平均水平和離散度為(311±613)年,這種標準差接近或大于均數的數據顯然屬于嚴重的正偏態,直接進行t檢驗,無疑是錯誤的。t檢驗不能用于三組或三組以上的組間比較,即使資料符合t檢驗的條件也是不行的。因為一則將原來的多組整體設計割裂,失去了總變異和總剩余誤差,與原設計思想不符;二則損失了部分信息,降低了檢驗效率。
對于三組或三組以上組間的均數或分布的比較可以用以下方法:
(1) 如果各樣本來自正態總體,且方差齊,可用方差分析;
(2) 如果各樣本來自正態總體,但方差不齊,則可作數據轉換,待方差齊后再用方差分析;
(3) 如果各樣本分布不清或分布不明,則可考慮用秩和檢驗。
在t檢驗中,把配對設計的資料作成組比較的t檢驗,是常見的失誤之一。有的作者誤將配對數據分為兩個獨立的組,分別設計兩組各自的均數,并按兩組均數作成組比較的t檢驗。這樣使原來只有差值之間的變異擴大為“兩個樣本”各自的變異,錯誤地增大了標準差和標準誤差,同時樣本含量也從原來的對子數變成了“兩個樣本”的例數之和。其結果大多使t檢驗所得P值增大,可導致差異從有統計學意義變為無統計學意義。
卡方檢驗中的計算公式較多,各有其適用條件,稍有不慎,即有誤用的可能,應根據實驗設計和資料性質進行正確選擇。
常見的失誤是:
(1) 四格表資料,當140時,沒有計算校正χ2值;
(2) 四格表資料,當T<1或n<40時,沒有選用四格表確切概率法;
(3) 行×列表資料,由于例數太少,致理論頻數太小,沒有采有適當的處理方法,而是直接計算χ2值,導致分析的偏性。例如兩組共計15例,就不宜用一般的卡方檢驗公式計算,應該使用確切概率法。
統計學基本概念不清
在作統計推斷時,對樣本例數有一定的要求,一般認為,樣本例數太少,所得到的數值不穩定,不能輕易下結論。
統計學上,三組或以上的比較稱為一攬子比較,在作這種比較時,應先將所有的組一起比較。在得出差別有統計學意義的基礎上,再進一步作兩兩比較或多個處理與同一對照組比較。論文中常見的錯誤是將三組或以上組拆開分別作兩兩比較。正確的方法是:定量資料在方差分析P<0.05后,再用Q檢驗或Dunnett法作兩兩比較;定性變量在R×C表資料χ2檢驗P<0.05后,再作χ2分割法分析。
對于有序分類資料(即等級資料)的統計處理,在比較各處理組的效應有無差別時,宜用秩和檢驗、Rid2it分析或交叉積差法及等級相關法,但有些作者則誤用卡方檢驗,此時作卡方檢驗只能說明各處理組的效應在構成比上有無差異。
對于“率”與“比”的概念不清,會導致將構成比誤認為是發病率、患病率、死亡率。這三種率均為疾病統計指標,要做人群的流行病學調查才能得到。在臨床療效研究中,一般無法計算出這三種率。
相關回歸分析
相關分析是分析自變量x與因變量y的關系,醫學領域里完全相關(相關系數r=1或-1)的事件極少。
有作者將一組變量既作為自變量又作為因變量,r=1,認為有完全相關性,這說明對相關的概念還不十分清楚。不能把相關、回歸關系直接看作因果關系。兩事物間有數量關系,可能是因果關系,也可能不存在因果關系,而僅僅是伴隨關系。
如果求得了兩個變量間數量關系的回歸方程式,或算出了r,在做結論之前,應先作統計檢驗;若P>0.05,此回歸方程并無實際意義。r的實際意義如何,還要看r絕對值的大小,因r的統計學檢驗,不論P值多么小,只能提供兩個變量是否相關的信息,卻不提供相關是否密切的信息。相關的密切程度常以r的數值大小為指標。r的絕對值越接近于1,兩變量的相關關系越密切;越接近0,越不密切。r的平方即r2(決定系數)也可表示因變量y與自變量x的關系密切程度,如果r2=0.22 =0.04,說明因變量y的變異中僅有4%與x有聯系;此時若P<0.01,仍不能認為兩者“明顯相關”。
統計說法不嚴格
統計學上對差異作是否有顯著性意義的推斷與日常生活中對差異作是否顯著的推斷完全是兩個概念。主觀感覺兩個樣本均數間的差異并不顯著而統計學上作出差異有顯著意義的推斷,主觀感覺兩個樣本均數間的差異很大而統計學作出其間差異無顯著意義的推斷都是有可能的。既往所用的“差異顯著”、“差異非常顯著”等字句,容易與日常生活判斷的字句相混淆,故現在一般認為用“差異有或無統計學意義”較為清楚明白。
對于假設檢驗的結果,不僅要恰當的解釋、正確地分析,還要準確地予以表達。差異有無統計學意義,在檢驗水準α=0.05時,一般是以P>0.05或P≤0.05為界線,有作者的結果為P>0.01,由此判斷差異無統計學意義,但P>0.01不一定就是P>0.05,也可能0.010.01同時也>0.05,才能判斷為差異無統計學意義。還有作者的假設檢驗結果為P=0.100000,雖然不能說是錯誤,可是不符合習慣用法。
數據統計不準確
文內所給出的各種數據及統計要準確無誤,不能前后有別。有論文的文題是45例患者,而在統計表中相加為47例,但討論中又說是46例,究竟是多少例患者似乎論文作者自己也說不清,只好退修。對于相對數,當例數較少時,一定要有相應的絕對數,如有的組只有4例,治愈2例,即報道治愈率為50%,這顯然是不妥的。在計算構成比或有些率時,一定要注意合計必須是100%,有的時候因為四舍五入,合計為99.18%或100.11%,此時要作調整。嚴格地說,要按有效數字的運算法則“四舍六入,逢五前位奇進偶舍”計算。數據錯誤多,說明作者缺乏嚴肅認真的科學態度。
統計表不規范
統計表的設計合理與否,對論文的質量和科學性有重大的影響。統計表存在的問題主要有:
(1) 表題過于簡略,甚至不寫表題;或過于繁瑣以及標題不確切;
(2) 標目過多,層次不清;
(3) 線條過多;
(4) 表內同一指標的小數位數不一致。
表題應扼要說明統計表的內容, 一般不宜超過15個字。橫標目說明各橫行數字的涵義,縱標目說明各縱列數字的涵義,必要時在橫、縱標目上可冠以總數目。通常把主語置于橫標目,謂語置于縱標目。表的線條宜少勿多,常用三線表;除頂線、底線以及隔開縱標目與數字的橫線外,其余線條均可省去,絕對不要用豎線,特殊情況下加輔助橫線。表內數字一律用阿拉伯數字,同一指標的小數位數應一致,位次對齊。統計表強調以最小的篇幅說明最多的問題,避免一切不必要的線條與數字、符號和腳注,力戒繁瑣,且勿堆累。若用簡潔的文字已能說明問題,則盡量不用表。如用了統計表,則文中不宜再完全重復其數據,只需強調或描述其主要發現。同一資料,還要避免統計表與統計圖之間的重復。
【科研論文寫作常見的統計學問題】相關文章:
醫學論文寫作的常見問題11-18
sci論文寫作常見問題剖析03-22
SCI論文寫作發表常見問題03-15
科研論文的寫作要求03-25
科研論文寫作的技巧07-20
科研論文寫作格式要求08-30
醫學論文的常見問題11-20
論文答辯的常見問題11-24
論文答辯時常見的問題04-10