- 相關(guān)推薦
醫(yī)學(xué)統(tǒng)計(jì)學(xué)之概率分布的概念
眾所周知,統(tǒng)計(jì)分析可以分為描述性統(tǒng)計(jì)分析 (descriptive statistics)和推斷性統(tǒng)計(jì)分析 (inferential statistics)。下面是yjbys小編為大家?guī)淼年P(guān)于醫(yī)學(xué)統(tǒng)計(jì)學(xué)的知識(shí),歡迎閱讀。
對(duì)于推斷性統(tǒng)計(jì)分析來說,要抓住其本質(zhì),就必須對(duì)其背后最根本的概率分布(probability distribution)有個(gè)清楚的理解。概率分布是很多統(tǒng)計(jì)推斷方法的基礎(chǔ),最典型的例子就是正態(tài)分布,很多統(tǒng)計(jì)檢驗(yàn)方法都會(huì)涉及到正態(tài)分布。而有些統(tǒng)計(jì)檢驗(yàn)則是直接建立在統(tǒng)計(jì)量值服從某種概率分布的基礎(chǔ)上的,比如t檢驗(yàn)的t值服從t分布,方差分析的F值服從F分布,卡方檢驗(yàn)的卡方值服從卡方分布等。因此在展開推斷性統(tǒng)計(jì)分析或統(tǒng)計(jì)檢驗(yàn)之前,先和大家一起熟悉一下概率分布。
首先簡單介紹一下幾個(gè)常見的概念:
1、Random variable (隨機(jī)變量):
假設(shè)我們擲硬幣,那么出現(xiàn)的結(jié)果有兩種:正面或反面。我們換個(gè)角度,把正面和反面的結(jié)果與數(shù)字聯(lián)系起來,將結(jié)果數(shù)量化,比如我們擲10次硬幣,出現(xiàn)5正5反。這時(shí)我們就把擲硬幣的結(jié)果 (正或反)與出現(xiàn)正或反結(jié)果的數(shù)字聯(lián)系起來了。而隨機(jī)變量就是一種function,它把每一種結(jié)果都與一個(gè)唯一的數(shù)值聯(lián)系起來。對(duì)于隨機(jī)變量的定義,版本有很多,我們來看一下其中的一個(gè)定義:一個(gè)隨機(jī)試驗(yàn)的可能結(jié)果(稱為基本事件)的全體組成一個(gè)基本空間Ω 。 隨機(jī)變量X是定義在基本空間Ω上的取值為實(shí)數(shù)的函數(shù),即基本空間Ω中每一個(gè)點(diǎn),也就是每個(gè)基本事件都有實(shí)軸上的點(diǎn)與之對(duì)應(yīng)。
隨機(jī)變量一般可分為離散型隨機(jī)變量(discrete)和連續(xù)性隨機(jī)變量(continuous)。
所謂離散型隨機(jī)變量是指隨機(jī)變量X的取值是有限個(gè)或可列無限個(gè)。比如我們擲硬幣,我們定義隨機(jī)變量是正面的次數(shù),那么我們擲10次,那么X的取值只能是0,1,2,3,4,5,6,7,8,9,10,這時(shí)我們就稱X是個(gè)離散型隨機(jī)變量。
所謂連續(xù)性隨機(jī)變是指X可以取某一區(qū)間的所有值。比如,我們定義X為收縮壓血壓值,理論上來說X可以取任意非負(fù)值,此時(shí)X就是個(gè)連續(xù)性隨機(jī)變量。
了解了什么是隨機(jī)變量,接下來我們開始看一下什么是概率分布。。
2. 概率分布(probability distribution)
The probability distribution associated with the random variable X describes the likelihood of obtaining certain values or ranges of values of the random variable
概率分布是描述隨機(jī)變量取某個(gè)特定的值或取某一區(qū)間范圍內(nèi)值的概率。
對(duì)應(yīng)著概率分布的定義,取某個(gè)特定的值或取某一區(qū)間內(nèi)的值,或者說對(duì)應(yīng)著離散型變量或連續(xù)性變量,概率分布可以分為離散型概率分布和連續(xù)性概率分布。
常見的離散型概率分布有二項(xiàng)分布(Binomial Distribution)和泊松分布(Poission Distribution )。
常見的連續(xù)性概率分布,我們一般稱為Probability Density Function,包括正態(tài)分布(Normal Distribution)、t分布 (t Distribution)、卡方分布 (Chi-Square Distribution)、F分布(F Distribution)等。
一提到概率分布,我們一般第一想到的便是正態(tài)分布,有人說沒有正態(tài)分布就沒有統(tǒng)計(jì),由此正態(tài)分布的普遍性和重要性不言而喻。
那么為什么正態(tài)分布如此普遍和重要呢?
首先,很多情況下,自然界很多東西都是自然呈正態(tài)分布的,而更重要的原因在于中心極限定理(central limit theorem)的應(yīng)用。所謂中心極限定理是指當(dāng)樣本量足夠大時(shí),無論其總體分布如何,其樣本均數(shù)趨于正態(tài)分布。中心極限定理為正態(tài)分布的普遍應(yīng)用提供了最為堅(jiān)實(shí)的理論基礎(chǔ)。而對(duì)于上則幾百例病人的臨床試驗(yàn)來說,正態(tài)分布更是找到了其適合生長的最好土壤。另外,我們常用的一些統(tǒng)計(jì)方法都是依賴于正態(tài)分布的:
(1) 一些統(tǒng)計(jì)方法如t檢驗(yàn)和方差分析,其應(yīng)用的前提條件就是要求數(shù)據(jù)服從正態(tài)分布
(2) 而對(duì)于一些統(tǒng)計(jì)模型來說,比如線性模型,往往要求其殘差服從正態(tài)分布。
關(guān)于正態(tài)分布在統(tǒng)計(jì)模型中的應(yīng)用,下邊有一段論述很有意思,小胖摘抄下來供大家參考:
正態(tài)分布對(duì)統(tǒng)計(jì)學(xué)家從某種角度來說是“垃圾的分布”。
當(dāng)向一個(gè)統(tǒng)計(jì)學(xué)家問什么是正態(tài)分布時(shí),他會(huì)回答:當(dāng)一個(gè)變量有多個(gè)、解釋不清的因素決定,而且每個(gè)因素的作用都不強(qiáng),于是變量就呈現(xiàn)正態(tài)分布。
一個(gè)隨機(jī)變量中有兩種成分,一是非隨機(jī)成分,一是隨機(jī)成分分。建模把非隨機(jī)部分用模型(函數(shù)形式)來表達(dá),純隨機(jī)的成分就成了殘差。
回歸不論線性與否,殘差是正態(tài),說明模型不能表達(dá)的成分確實(shí)是“垃圾”,不能再處理的。
但是,我們把數(shù)據(jù)饋入模型,結(jié)果發(fā)現(xiàn)殘差非正態(tài)(或并非白噪音),怎么辦,最理想的辦法是修改模型,使其符合正態(tài)假設(shè)。回歸其實(shí)就是在雜亂的信息中,把有規(guī)律的信息用模型表達(dá)出來,而無規(guī)律的白噪聲濾掉。
【醫(yī)學(xué)統(tǒng)計(jì)學(xué)之概率分布的概念】相關(guān)文章:
醫(yī)學(xué)統(tǒng)計(jì)學(xué)中的基本概念「最新」10-09
醫(yī)學(xué)統(tǒng)計(jì)學(xué)的主要內(nèi)容12-29
醫(yī)學(xué)統(tǒng)計(jì)學(xué)的重要性分析08-20
醫(yī)學(xué)檢驗(yàn)專業(yè)知識(shí)100個(gè)基本概念10-13
公衛(wèi)助理醫(yī)師考試《醫(yī)學(xué)統(tǒng)計(jì)學(xué)》試題及答案10-30
行測(cè)考試之醫(yī)學(xué)常識(shí)儲(chǔ)備06-18
醫(yī)學(xué)科研中如何用好應(yīng)用統(tǒng)計(jì)學(xué)的方法06-05
揭秘游戲里概率問題05-12
物流服務(wù)的概念11-18
Linux認(rèn)證的概念09-09