統計模型思維 第三課 Part 1(機率分佈模型)

Eugene Chang (張佑成)

February 21st 2025

# 機率分佈:認識現實世界的數學模型 --- # 隨機變數(Random Variable) 數學家解決問題的方式就是抽象,如果一類事物能找到共同點,就能被抽象成一個變量 在處理隨機事件的問題上,這個抽象出來的量就是隨機變數 --- # 有了隨機變數 我們就能把現實世界與數學世界打通了 --- # 隨機(Randomness) 統計學的基石之一 很多人以爲隨機(Randomness)與不確定(Uncertainty)兩者最大的差別在於,這個事件可能出現的結果是否可知 --- # 簡單來説 隨機性是**這個事件可能出現的結果我都知道,只是不知道下一次會出現哪個結果** --- # 而相反的 不確定性是我連可能出現結果的選項都不知道 --- # 機率分佈(Probablility Distribution) 把隨機變數所有的結果和它對應的機率統計出來之後,我們就有了一個機率分佈 --- # 例:抛 2 次硬幣得到正面的次數 我們來看一下丟 2 次硬幣得到正面的機率分佈: |次數| 機率 | |:----|:-----:| |0| 0.25 | |1| 0.50 | |2| 0.25 | --- ## 例:抛 4 次硬幣得到正面的次數 我們來看一下丟 4 次硬幣得到正面的機率分佈: |次數| 機率 | |:----|:-----:| |0| 1/16 | |1| 4/16 | |2| 6/16 | |3| 4/16 | |4| 1/16 | --- # 有了機率分佈之後 我們就對這個隨機事件有了一個整體的認知。把握這個事件的基本輪廓,並且可以進一步探索其中的規律 --- # 機率分佈 隨機事件不同,機率分佈也不同,但是經過不斷研究,數學家們逐漸發現,機率分佈是有規律可循的。 而且,這些機率分佈的變化規律可以用數學公式來精確的表示 --- # 機率分佈 機率分佈就好比一個工具箱,一個個機率分佈模型就好比是工具箱内的工具 遇到問題,我們從工具箱中找出工具來用即可,若工具選錯,就得重新選擇 --- # 機率分佈的表達方式 “真理只有一個,哲人用不同的語言表達。” - 吠陀經 --- # 機率分佈的表達方式 用公式,簡潔精確,但是門檻高 ![](https://drive.google.com/uc?export=download&id=1yCXNS4na_nlw2oMF2yc2gwK678HonnRA) --- # 機率分佈的表達方式 用列表,很直覺,但是查找繁瑣 ![](https://drive.google.com/uc?export=download&id=1YDDw5c7_1VBPtcunXgH3ctVWaWHhZxCV) --- # 機率分佈的表達方式 用圖表,很直覺,但是直接看圖往往有誤差 ![](https://drive.google.com/uc?export=download&id=1Xepn6nr5pScoOlyrkWJYDeMa5gCh0brP) --- # 最常見的機率分佈 常態分佈(Normal Distribution) ![](https://drive.google.com/uc?export=download&id=1Xepn6nr5pScoOlyrkWJYDeMa5gCh0brP) --- # 常態分佈(Normal Distribution) 如同它的名字,就是指 “正常的分佈” 或是 “一般的分佈” 其他的分佈都是特殊的,只有常態分佈是一般的 --- # 常態分佈的起源 ![](https://drive.google.com/uc?export=download&id=10g-sEMNvgu1vp21PEDs96tzP7A2m4DaJ) --- # 常態分佈(Normal Distribution) ![](https://drive.google.com/uc?export=download&id=1Xepn6nr5pScoOlyrkWJYDeMa5gCh0brP) --- # 常態分佈的三個特性 --- # 1. 均值就是期望值 常態分佈曲線中間最高點的橫坐標,不但代表平均值,也代表它的數學期望,也就是這件事機率最大的結果 簡單來説就是這個隨機事件的結果在平均值發生的可能性是最高的 --- # 極端值很少 極端值出現的機率很低 極端值對平均值的影響很小 --- # 極端值很少 常態分佈非常穩定 以人的身高來説,它符合常態分佈,所以即使一個 NBA 球員加入我們的課程,我們全班的平均身高也不會有太大改變 --- # 標準差決定胖瘦 有些常態分佈的曲線比較矮胖,另一些比較高瘦 原因在於標準差(Standard Deviation)不同 --- # 例:男女智商分佈 ![](https://drive.google.com/uc?export=download&id=1PSBWtYN7XwdOhm03unyGLcOAYJBhXs_G) --- # 標準差決定胖瘦 在常態分佈中: - 數據的波動約大,曲線就越矮胖 - 數據的波動約小,曲線就越高瘦 --- # 例:老業務員與新手業務員的差異 --- # 用 Excel 把玩標準差 請下載:[Lecture2 常態分佈範例](https://drive.google.com/uc?export=download&id=1VT1HDSLBmp2lxCA1sUnGnxraKJ9GSdfl) --- # 變異數(Variance) 衡量整組數據與平均值的差距 越大代表隨機事件的波動度約高 --- # 變異數(Variance) 變異數的本質,就是對風險的度量 一個隨機事件的變異數越大,可能的結果離期望值越遠,説明它的風險越大 --- # 標準差公式 ![](https://drive.google.com/uc?export=download&id=1EVIzwtqdrGe62sh9XlARApzMQPkrlImr) --- # 用 Excel 把玩標準差 請參考範例檔案,修改標準差的數值,觀察標準差對常態分佈的曲線造成的改變 --- # 用 Excel 計算標準差 請參考範例檔案,計算標準差 --- # 我們要如何判斷什麽樣的事件滿足常態分佈? 世界上並非所有事件的機率分佈都符合常態分佈 --- ## 中央極限定律(Central Limit Theorem) 若一個事件滿足以下條件,它的機率分佈就會是常態分佈: - 它是由多個隨機變量**相加**的結果 - 這些隨機變量是互相獨立的 - 每個隨機變量的變異量都是有限大 - 每個隨機變量都需要對結果有一定貢獻,否則只有一個起到決定性作用,那也不算多 --- # 獨立性(Independence) 每一個隨機事件之間沒有任何相互關聯 --- # 獨立性(Independence) 舉例來説,抛 N 次硬幣,每一次的結果都與前面的結果無關 我們可能連續 3 次或 5 次都得到正面,但是不代表接下來一次就一定會是正面 --- # 賭徒謬誤與熱手效應 在輪盤遊戲中,賭徒往往認定其中的紅黑兩色會交替出現,如果之前紅色出現過多,下次更可能出現黑色 如果籃球隊員投籃連續命中,球迷一般都相信球員“手感好”,下次投籃還會得分 事實上,第一次投籃和第二次投籃是否命中沒有任何聯繫,轉動一回輪盤,紅色和黑色出現的機率也總是 0.5 --- ## 中央極限定律(Central Limit Theorem) 簡單來説,關鍵要求有兩個:**相加**和**獨立**,由多個隨機變量相加的事件,結果就會是常態分佈 --- # 常態分佈的應用 ## 例:抛 2 次硬幣得到正面的次數 我們來看一下丟 2 次硬幣得到正面的機率分佈: |次數| 機率 | |:----|:-----:| |0| 0.25 | |1| 0.50 | |2| 0.25 | --- ## 例:抛 4 次硬幣得到正面的次數 我們來看一下丟 4 次硬幣得到正面的機率分佈: |次數| 機率 | |:----|:-----:| |0| 1/16 | |1| 4/16 | |2| 6/16 | |3| 4/16 | |4| 1/16 | --- ## 我們把機率畫成分佈圖... ![](https://drive.google.com/uc?export=download&id=1Xepn6nr5pScoOlyrkWJYDeMa5gCh0brP) --- ## 中央極限定律(Central Limit Theorem) 若一個事件滿足以下條件,它的機率分佈就會是常態分佈: - 它是由多個隨機變量**相加**的結果 - 這些隨機變量是互相獨立的 - 每個隨機變量的變異量都是有限大 - 每個隨機變量都需要對結果有一定貢獻,否則只有一個起到決定性作用,那也不算多 --- ## 獨立性(Independence) 每一個隨機事件之間沒有任何相互關聯 --- ## 獨立性(Independence) 舉例來説,抛 N 次硬幣,每一次的結果都與前面的結果無關 我們可能連續 3 次或 5 次都得到正面,但是不代表接下來一次就一定會是正面 --- --- # Six Sigma (六標準差 / 六西格瑪) - 最早源自於 Motorola - 必須要透過管理控制標準差,讓標準差最小化 - 給予平均值以及標準差,必須把可容許的錯誤範圍控制在六個標準差内 - 意味著生產的產品中,有 99.99966% 的產品是沒有品質問題的(每一百萬中才有3.4個有缺陷)

Thanks for Watching

Contact: yuyueugene84@gmail.com

Download PDF