孫在陽老師在YouTube超過340萬人次看過他的課程 (關於孫在陽老師)
你知道拿到的數據有多「髒」嗎?如果這些髒的數據分析產生的結果,你相信正確性有多少?雖然數據不是分析資料者所有,但是當他人指出數據分析結果有錯誤時,幾乎都是由分析資料者承擔所有的責任,這不是公平的問題,這是專業的問題;只要在取得數據做資料清理,數據分析結果出錯的可能性會大符下降。
首先我們要知道什麼是資料清理。需要做資料清理分為數據分為二種,不正常數值、不合理數值。不正常數值,例如生日數據,大部份都是西元記年,小部份是民國記年,民國記年的生日數據就是不正常內容。高血壓數據,正常範圍是110–140之間,若數值350、400、450,甚至更高的數值,通常也種為異常值,我們可依數據分析目的,將這些不正常數值重新定義,決定是否要放在數據中統計分析。不合理數值,例如年齡數據是負值,銷售額數據是負數,研究日期範圍發生在1,900年前,諸如此類的數據,通常我們會使用負極值取代。在計算時,不合理值不應該加入計算。數據如此,文字類別資料也是有不正常與不合理二種情形。
通常我們先清理不合理數值,再清理不正常數值。若是數據,不合理值可以使用負極值代替。例如血壓機可量測血壓為三位整數,所以不合理值可以用-999代替。使用IF函數,判斷數值大於999或小於0,即為不合理值,以-999代替,其他合理值以原數據代替。
當數據沒有不合理值、不正常值,資料分析才可能得到正確結果,探究數據的真相,取得數據真實意義,精準抓住目標族群,掌握消費者需求,逐漸增高獲利。這個概念也可以說明資料探勘中「Garbage in, garbage out.」問題。
張貼前管理員會先審核您的留言