統計模型思維 第四課 Part 1(對數常態分佈模型)
Eugene Chang (張佑成)
December 23rd 2024
# 常態分佈 任何符合常態分佈的隨機事件都很穩定 但若這個世界都符合常態分佈,那就太無聊了 --- # 我們先來看一種特殊的常態分佈 --- ![](https://drive.google.com/uc?export=download&id=1zwm-X40kgDV4GgEE6VNkwFdoWSbgHPDS) --- # 對數常態分佈(Log-normal Distribution) 它的特性在於,拖著一條比較長的尾巴,這意味著其中發生極端事件的可能性比常態分佈高出很多 --- # 爲何會造成這樣的現象? --- ## 中央極限定律(Central Limit Theorem) 若一個事件滿足以下條件,它的機率分佈就會是常態分佈: - 它是由多個隨機變量**相加**的結果 - 這些隨機變量是**互相獨立**的 - 每個隨機變量的變異量都是有限大 - 每個隨機變量都需要對結果有一定貢獻,否則只有一個起到決定性作用,那也不算多 --- # 對數常態分佈是由多個隨機變量**相乘**的結果 --- # 今天若我們將多個隨機變數的變量**相乘** 就會產生很多接近 0 的數字,也會產生很多非常大的數字 --- # 對數常態分佈(Log-normal Distribution) 舉例來説,一些國家的收入分佈就是以對數常態分佈呈現的 --- ![](https://drive.google.com/uc?export=download&id=1E07D2x3IR93kn4BHmIpLiBbQAb4nc39A) --- # 對數常態分佈(Log-normal Distribution) 一個解釋此現象的模型是,大多數的企業在幫員工加薪時,都是根據一個比例,而不是根據一個固定的數字 --- # 但是若一家公司是以比例來調薪水的話 長遠來看,即使是表現一樣好的員工,員工之間的收入差距會越來越大: 一個原本薪資 $80,000 的員工,獲得 5% 的加薪就是 4,000 一個原本薪資 $60,000 的員工,獲得 5% 的加薪就是 3,000 --- # 請注意 對數常態分佈依然假設每個隨機變量的作用**是互相獨立的** 以我們的例子來看,員工今年能做出更好的業績,與去年的工資沒有關係 --- # 另外一個範例:股票價格 一支股票的股價是連續多天,不同的報酬率相乘的結果 --- # 而若在一個隨機事件内 每個隨機變量的作用**不是互相獨立**,則會發生什麽事情呢? --- ![](https://drive.google.com/uc?export=download&id=1j0SgIdeXgaM92uagJt3x_S0FSJmrR212) --- # 冪律分佈(Power Law Distribution) 冪律分佈是**不獨立**的隨機變量作用的結果 也就是隨機變量之間會相互影響 --- # 舉例來説 - 一本暢銷書要是進入了銷量前 10 的排行榜,就會進一步推升此書的銷量 - 一個城市要是聚集了很多人,工作機會也相對變多,導致更多人往城市聚集 - 一個 Youtuber 若已經有名氣,會導致更多人追蹤 / 訂閲 - 一個網站 / 服務若有很多人使用,會導致更多人使用 --- ![](https://drive.google.com/uc?export=download&id=1VxWeav9Vyb-vrV4XJh5HqO3ZH4te_Zdd) --- # 冪律分佈 - 明星的粉絲數量 - 網站的點擊次數 - 城市的大小 都是符合冪律分佈 --- # 冪律分佈的數學特徵 --- # 標度不變性(Scale invariance) --- ![](https://drive.google.com/uc?export=download&id=1I8OLmU07veh2OTt9WhE32kJ5XnjrHr67) --- # 標度不變性(Scale invariance) 最暢銷那本書的銷量,在前 10 名銷量中佔的比例,和前 10 名的銷量在前 100 名的銷量中站的比例,大體上是相同的 --- # 平均值不具意義 以個人收入來説 有一貧如洗的窮人,有揮金如土的富豪,將這兩群人的資產平均計算,毫無意義 --- # 在冪律分佈中 再極端的數據都有出現的可能 極端數據以爲著極端事件,例如超大型海嘯、超强大地震、金融風暴 這些事情發生的機率非常低,但是我們知道它一定會發生 --- # 機率分佈小結 - 如果這個事件代表多個獨立隨機變量之和,它就滿足常態分佈,不同擔心會有什麽極端的情況發生 - 如果這個事件代表多個獨立隨機變量之乘積,代表其中會有一些極端,但是不那麽極端的情況發生 - 而如果一個事件中的隨機變量是會互相模仿或有緊密的關聯,那你就必須做好面對極端情況的準備 --- # 機率分佈雜想 --- # Talent vs Luck 記錄片:[連結](https://vimeo.com/347371678) 論文:[連結](https://arxiv.org/abs/1802.07068#:~:text=It%20sheds%20new%20light%20on,been%20simply%20luckier%20than%20others.) --- # 把成就用一個簡單的模型表達出來 --- # 成就 = 才能 + 運氣 --- # Talent vs Luck 在這個實驗内: 才能的分佈是常態分佈 --- # Talent vs Luck 依照常態分佈來看: 有 2/3 的人在才能上都很平庸 而少數的天才,則是在兩個標準差以外的人,佔整個常態分佈的 2.5% --- # Talent vs Luck 運氣的部分,分爲好運氣和壞運氣,分別會增加或降低一個人的成就 實驗設定每一個人不論好運氣或壞運氣,每半年會遭遇一次運氣 --- # Talent vs Luck - 給定每個人一個起始值,代表成就 - 好運發生在不同才能的人身上效果不同,能力强的人就能把起始值增加很多,才能低的增加很少 - 假定一個人的職涯是從 20 歲到 60 歲,每半年會遭遇一次運氣,在整個職涯中會與運氣遇合 80 次 --- # Talent vs Luck 最後誰會纍積最大的成就呢? --- # Talent vs Luck 這個跨界團隊利用這個模型寫了一支程式,在執行過 100 次之後,發現結果完全相同,非常穩定 --- # Talent vs Luck 結論一:成就的分佈不出意料是符合 80 / 20 法則,20% 的人擁有 80% 的財富。屬於對數常態分佈或冪律分佈 --- # Talent vs Luck 結論二:在金字塔頂端的基本上都是普通人,也就是才能在兩個標準差以内,接近平均值的人 而之所以能夠站在頂端的原因就是他們的運氣好到爆 --- # Talent vs Luck 結論三:反過來説,天才基本上攀不到金字塔頂端,運氣好到爆這件事幾乎從來不垂青天才 那些世俗上最有成就的人士,也不是智力碾壓你,或是比你還努力,只是運氣比你好很多 --- # 爲何會有這個詭異的結論? 每一千個人當中有 950 個普通人,只有 25 個天才,一個機會從天上掉下來,它更容易砸中誰? --- # 反推回去 當運氣隨機降臨時,它往往降臨在人多的地方 --- # 反推回去 若今天一個人從底層攀到金字塔頂端,需要連續十次的好運氣,那他的運氣得要多好? --- # 現實比實驗更不公平 在現實中我們偶爾看到天才站到金字塔頂端,不是說這個實驗説錯了,而是要明白**這是一個多麽罕見的事**,而在他的背後,得有多大基數的天才被埋沒 --- # 運氣的馬太效應 過往的成功變成信號,會被社會讀做優越才能的標記,於是接下來就會投資更多在這些已經成功者身上 社會以爲押上了好馬,但其實只是押在這匹馬過去的運氣而已,二運氣會不會重來還要看將來的運氣 --- # 有一種成功 是其評價往往是主觀的、社會化的。例如網紅,原本就紅的網紅可能就越來越紅 面對這種成功,我們可以追隨趨勢一段時間; 相反的,逆勢而爲,孤軍奮戰,看似浪漫,卻很少有好結果 --- # 另一種成功 是下一步的成功與否,是有獨立的客觀標準,比如做出突破性研究的而科學家,或是歷史表現優異的基金經理,都能獲得更多的投資 但是下一步的科研成果,未來的投資回報都與過去的關係不大;都要獨立的取決他們將來的表現,也就是接受命運的再次考驗 ---- # 回到原本的 Talent vs Luck 意大利跨界科學家團隊發現: - 在科研經費的分配上,若要追加投資,回報最差的做法就是把投資追加個已經是最成功的那些人 - 若部分追加給成功者,其餘隨機分配,回報會好一些 - 但是回報最好的方式則是把追加投資平均分配給所有人 --- ## 分組討論 - 請大家找另外 3 ~ 4 個人一組 - 將討論結果記錄下來,由記錄者將討論結果發佈至 FB 討論串 - 在貼文内寫上每一個人的名字以及學號 --- ## 分組討論 - 你是否同意 Talent vs Luck 的觀點與洞見呢?請與你身旁的人討論並且分享你的心得 - 偶爾我們會覺得,站在金字塔頂端的不是天才或普通人,而是看起來傻傻的弱智,那你覺得過弱智站在金字塔頂端的可能性存在嗎?
Thanks for Watching
http://kyosei.ai
Contact: yuyueugene84@gmail.com
Download PDF