醫學統計學之概率分布的概念

時間：2024-09-04 11:11:55 統計師我要投稿

相關推薦

醫學統計學之概率分布的概念

　　眾所周知，統計分析可以分為描述性統計分析 (descriptive statistics)和推斷性統計分析 (inferential statistics)。下面是yjbys小編為大家帶來的關于醫學統計學的知識，歡迎閱讀。

　　對于推斷性統計分析來說，要抓住其本質，就必須對其背后最根本的概率分布(probability distribution)有個清楚的理解。概率分布是很多統計推斷方法的基礎，最典型的例子就是正態分布，很多統計檢驗方法都會涉及到正態分布。而有些統計檢驗則是直接建立在統計量值服從某種概率分布的基礎上的，比如t檢驗的t值服從t分布，方差分析的F值服從F分布，卡方檢驗的卡方值服從卡方分布等。因此在展開推斷性統計分析或統計檢驗之前，先和大家一起熟悉一下概率分布。

　　首先簡單介紹一下幾個常見的概念：

　　1、Random variable (隨機變量)：

　　假設我們擲硬幣，那么出現的結果有兩種：正面或反面。我們換個角度，把正面和反面的結果與數字聯系起來，將結果數量化，比如我們擲10次硬幣，出現5正5反。這時我們就把擲硬幣的結果 (正或反)與出現正或反結果的數字聯系起來了。而隨機變量就是一種function，它把每一種結果都與一個唯一的數值聯系起來。對于隨機變量的定義，版本有很多，我們來看一下其中的一個定義：一個隨機試驗的可能結果(稱為基本事件)的全體組成一個基本空間Ω 。隨機變量X是定義在基本空間Ω上的取值為實數的函數，即基本空間Ω中每一個點，也就是每個基本事件都有實軸上的點與之對應。

　　隨機變量一般可分為離散型隨機變量(discrete)和連續性隨機變量(continuous)。

　　所謂離散型隨機變量是指隨機變量X的取值是有限個或可列無限個。比如我們擲硬幣，我們定義隨機變量是正面的次數，那么我們擲10次，那么X的取值只能是0,1,2,3,4,5,6,7,8,9,10，這時我們就稱X是個離散型隨機變量。

　　所謂連續性隨機變是指X可以取某一區間的所有值。比如，我們定義X為收縮壓血壓值，理論上來說X可以取任意非負值，此時X就是個連續性隨機變量。

　　了解了什么是隨機變量，接下來我們開始看一下什么是概率分布。。

　　2. 概率分布(probability distribution)

　　The probability distribution associated with the random variable X describes the likelihood of obtaining certain values or ranges of values of the random variable

　　概率分布是描述隨機變量取某個特定的值或取某一區間范圍內值的概率。

　　對應著概率分布的定義，取某個特定的值或取某一區間內的值，或者說對應著離散型變量或連續性變量，概率分布可以分為離散型概率分布和連續性概率分布。

　　常見的離散型概率分布有二項分布(Binomial Distribution)和泊松分布(Poission Distribution )。

　　常見的連續性概率分布，我們一般稱為Probability Density Function，包括正態分布(Normal Distribution)、t分布 (t Distribution)、卡方分布 (Chi-Square Distribution)、F分布(F Distribution)等。

　　一提到概率分布，我們一般第一想到的便是正態分布，有人說沒有正態分布就沒有統計，由此正態分布的普遍性和重要性不言而喻。

　　那么為什么正態分布如此普遍和重要呢?

　　首先，很多情況下，自然界很多東西都是自然呈正態分布的，而更重要的原因在于中心極限定理(central limit theorem)的應用。所謂中心極限定理是指當樣本量足夠大時，無論其總體分布如何，其樣本均數趨于正態分布。中心極限定理為正態分布的普遍應用提供了最為堅實的理論基礎。而對于上則幾百例病人的臨床試驗來說，正態分布更是找到了其適合生長的最好土壤。另外，我們常用的一些統計方法都是依賴于正態分布的：

　　(1) 一些統計方法如t檢驗和方差分析，其應用的前提條件就是要求數據服從正態分布

　　(2) 而對于一些統計模型來說，比如線性模型，往往要求其殘差服從正態分布。

　　關于正態分布在統計模型中的應用，下邊有一段論述很有意思，小胖摘抄下來供大家參考：

　　正態分布對統計學家從某種角度來說是“垃圾的分布”。

　　當向一個統計學家問什么是正態分布時，他會回答：當一個變量有多個、解釋不清的因素決定，而且每個因素的作用都不強，于是變量就呈現正態分布。

　　一個隨機變量中有兩種成分，一是非隨機成分，一是隨機成分分。建模把非隨機部分用模型(函數形式)來表達，純隨機的成分就成了殘差。

　　回歸不論線性與否，殘差是正態，說明模型不能表達的成分確實是“垃圾”，不能再處理的。

　　但是，我們把數據饋入模型，結果發現殘差非正態(或并非白噪音)，怎么辦，最理想的辦法是修改模型，使其符合正態假設。回歸其實就是在雜亂的信息中，把有規律的信息用模型表達出來，而無規律的白噪聲濾掉。

【醫學統計學之概率分布的概念】相關文章：

醫學統計學中的基本概念「最新」10-09

醫學統計學的主要內容12-29

醫學統計學的重要性分析08-20

醫學檢驗專業知識100個基本概念10-13

公衛助理醫師考試《醫學統計學》試題及答案10-30

行測考試之醫學常識儲備06-18

醫學科研中如何用好應用統計學的方法06-05

揭秘游戲里概率問題05-12

物流服務的概念11-18

Linux認證的概念09-09