第6話:機率

在我寫這系列文章時,我也同時從一些朋友得到回饋,其中一種就是「有些地方不一定是這樣」,「不是所有人都這樣」,「我有認識反例」...等等,我覺得這也是一個很有趣的題目,打算獨立成一篇討論這件事。


在我自己的工作,Data science裡面,我們會盡可能地去蒐集夠多顧客的資料,然後我們會去預測顧客的各種行為,像是什麼時候會想退會,什麼時候差不多該來我們店了,又或著是預測顧客會喜歡怎樣的作品。


有時候其實提高這些預測精度很難,因為你不可能擁有所有的資料。像是今天這個顧客跟她男朋友分手了,他就突然轉變看作品的種類了。而「顧客跟她男朋友分手」這件事就是你很難得到的資料,所以你的邏輯就會在這邊失效。


所以特別是跟「人」有關的東西,你要追求預測精確率到100%是很難的。我想就算你拿到世界上所有的資料,還是會有那幾個奇耙你預測不到。因此我們通常會抓一個數字,譬如說預測到70~80%,那就是不錯的一個數字,代表你的邏輯(推論模型/引擎)有一定程度的準確率、那就可以把這套邏輯進入商用階段。


而回到我們的問題,另外一個我很喜歡的例子就是,「男生都喜歡正妹」這件事,你也可以說「喔沒有喔,我覺得你這樣說不一定,我就有認識有反例在我身邊」,這也是事實。可是世界上的女生,就因為這句話不是絕對的,而每天都不打扮出門,開始整形成大肚子,然後把臉整到不像人一樣,是這樣嗎?


然後會讓這系列問題變比較複雜的原因是,男生擇偶是比較衝動的,基本上外表他OK的話他都吃。不過女生相對理性比較多,考慮的因素也很多,所以要歸納出女生的擇偶條件就會複雜,例外也會容易出現。


如果我們能整理出一個邏輯,他能夠套用在大部分的人身上,那就算是一個還不錯的方法,剩下的例外就能拋棄,這就跟我剛剛講預測的例子一樣。這也是我覺得你該去認識很多人的另一個原因,他能夠讓你知道,以整體來說,自己現在的方法是不是對的。


你的基底數太少(認識的人少),就比較容易陷入剛剛的問題,你會覺得例外很多。就像手遊抽卡一樣,你只抽一次十抽,就比較難驗證卡池上面寫的機率。當然,我覺得要去認識很多人也是有他的難點,取決於你的工作性質或性格。而且認識了之後,要怎麼維持也是很難的地方,中間也有很多眉角,不過那部分有機會再講吧。


換另外一個角度、你可以跟我說有些男的他不運動,平常也不看書,工作能力有夠廢,但他還是有女朋友,這我也絕對能承認,但討論這件事對我的人生有任何幫助嗎?

  • Xで共有
  • Facebookで共有
  • はてなブックマークでブックマーク

作者を応援しよう!

ハートをクリックで、簡単に応援の気持ちを伝えられます。(ログインが必要です)

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

マイページ
読書の状況から作品を自動で分類して簡単に管理できる
小説の未読話数がひと目でわかり前回の続きから読める
フォローしたユーザーの活動を追える
通知
小説の更新や作者の新作の情報を受け取れる
閲覧履歴
以前読んだ小説が一覧で見つけやすい
新規ユーザー登録無料

アカウントをお持ちの方はログイン

カクヨムで可能な読書体験をくわしく知る