容噗玩 Data
容噗玩 Data
June 26 2024
數據分析,
這工作到底在做什麽?
有人覺得很玄
數據分析,這工作到底在做什麽?
有人覺得很玄
目錄
- 面臨 Big Data 的數據分析工作
- 數據分析要會使用哪些分析工具
- 哪些背景的人會成為數據分析師
- 未來職涯發展跟薪水前景
- 相關課程
大家好,我是容噗,大學時是應用數學系,本身是理學院出身,後來到東吳大學念資料管理,目前所任職的公司是在公司零售業的後台資料,例如:百貨公司等。
面臨 Big Data的數據分析工作
大家常在報章雜誌上看到「大數據時代」,代表目前有越來越龐大的資料,那我要怎麼從這些資料中探勘找出有用的資訊呢?
好的數據分析需要搭配目前所在的行業的專業知識,才能夠提出相對應的解決方案。
以零售業為例,大數據來自於每天會員在商場的交易資料,比如:今天剛拿到 A 百貨公司上一個小時的資料,而同時也會拿到 B 百貨公司、C 大賣場的資料,這些來自各種零售業的大量會員交易資料,被傳到公司資料庫時,就需要對他做分析。
隨著每天大數據越來越多,這些龐大的資料量已經不是 Excel 、Power BI 可以應付的資料量,當然也不是每一間數據分析的工作都會有這麼多資料。
當一位數據分析師收到如此大量的資料後,若要找到有用的內容,使得營收提升、毛利提升,會是最直接的結果。
此時就必須加入一些零售的產業知識,就像零售業最常做的事情,就是讓顧客在結帳時,他可能只買了一個水壺,但你讓他多帶一包餅乾,像這樣的商品推薦,就能增加結帳時的金額,這就是客單的增加,就高機率可以提升我們的營收。
同時也能分析出每一個顧客潛在想購買的東西,把這所有關聯串起來,藉由海量的資料來探勘,鎖定我要增加營收這件事情,再搭配零售業最常見的領域知識,例如:推薦體制,最後提出一個可以達成目標的解法,其實就是數據分析師在做的工作。
數據分析要會使用哪些分析工具
其實數據分析這樣的工作一直存在,營業分析師、財務分析師等,只要是分析師就有可能是做資料分析的工作。以前著重在分析專業領域的知識、相對應的解決方案,所以過去通常使用 Excel 、Power BI 就能做到的資料分析。
現在龐大的資料就需要使用程式來協助做資料分析,但如果產業並不會有這麼大量的資料做分析,那也不用太擔心,可以藉由 Excel 、Power BI 做資料分析,而面對越來越複雜及大資料量,就是需要 AI 或是程式來幫我們一起進行資料分析。
現在主流的數據分析工具,第一個首選都是 Python,因為它有以下特性:
- 資料整理
- 演算法開發:可以使用神經網絡,各式各樣的算法進來,已經有許多前輩們寫了很多不同的算法。
- 系統開發:AI的服務不會單有推薦系統,需要將前後端串起來才有
第二種大家常聽到的工具,R 語言,也是可以做資料整理、演算法開發、系統開發
大家一定會問那應該要使用哪一種工具呢?
如果是初階階段,建議大家選擇 Python ,因為在資料整理方面,Python 速度大於 R 語言,在系統開發方面,Python 的資源也比 R 語言多,而 R 語言則適合處理一些 Python 沒有的演算法,因為 R 語言一開始是為了做統計而被研發出來, Python 並不支援統計學中部分演算法,要自行撰寫,所以當大家學習資料分析到一定的階段,再去學習 R 語言就很足夠了。
第三種則是 SQL,主要是我們去跟資料庫溝通的工具,因為平常資料都放在資料庫中,要把相對應的資料拿出來,就需要 SQL 語法。他是一種程式語言,對於 SQL 語法,對於數據分析師,我們只要最基本的,可以把資料從資料庫拿出來就好。因為剩下的資料處理,可以交由 Python 進行。SQL 還有一個很重要的特點:排程開發跟 ETL。若想把資料整理成特定報表的格式,並每天自動化執行,我們就會用到 SQL 排程開發,ETL 等功能。當然,Python 跟 R 語言也可以做到,只是 SQL 比較好使用。
所以推薦初階使用者,先學習 Python > 一點點 SQL 語法
進階使用者則可以開始學習 R 語言、SQL 當中的 ETL 及 Python 開發
後期如果遇到超級龐大的資料,需要用到神經網絡時(Python是神經網路的主流,Julia、Spark 比較沒有這麼多資源),就會使用到 Julia 跟 Spark。
哪些背景的人會成為數據分析師
工學院中資工系的人最多會成為數據分析師,因為他們在學校已經學習很多大量資料分析,對於軟體、程式也都相當熟悉,另一種是來自理學院背景的人,而應數系、統計系、資訊系(資訊系比較偏向工學院)等,因為他們的科系對於演算法等都有大量的基礎,而還有另一群商學院背景的人進入數據分析的領域,因為數據分析除了前面提到的程式外,還要跟主管、客戶報告,而商學院的人會更有條理的做好分析報告。
公司主要從事三件事:分析報告的產出、資料表的生成和 AI 服務的開發,在台灣的職場環境中,分工並不明確,很多工程師和專案管理師的工作常常會交由其他人來處理。
工程師的主要工作包括 ETL 部署、程式部署和 API 建立,ETL 部署是將資料轉換成指定格式供日常使用,而程式部署則是將完成的程式放到公司的伺服器上執行,而不是一直在本地電腦上運行。API 建立則是為不同程式語言的程序員提供溝通接口,確保功能的順利呼叫。在職場上,這些工作不一定都是工程師完成,有時候需要我們自己處理。
專案管理師的主要工作是確認客戶需求並撰寫報告,規劃實施方案。專案管理師確保報告的客觀性,同時幫助客戶理解和接受報告。分析師提供客觀的分析報告,不會因客戶期望而改變內容,而管理師在報告撰寫和客戶溝通中起了重要作用,確保報告的內容能被客戶接受和理解。展望未來數據分析的發展方向,這些技能和職能的合作將越來越重要。
🎃 南瓜說她很懊惱
自己前幾天打了小孩
她的小孩還沒成功戒掉尿布
不過肢體發展成熟,會自己換尿布了
偶爾耍賴撒嬌不想自己換,
南瓜也會幫他穿
那天晚上他又耍賴了,
但南瓜就是不想幫他換尿布
心裡一直碎念著:
他明明就可以自己處理
於是就一直跟小孩說:
「你已經長大了」
「你已經可以自己換尿布了」
「你已經有能力了」
「你不換尿布就光屁股睡覺好了」
最後僵持不下,南瓜就打了小孩
小孩放聲大哭,
先生過來直接幫小孩穿尿布
讓南瓜覺得自己無能又易怒
後來南瓜看著孩子的睡臉很歉疚
我帶著南瓜回到那一天
我問她:當時的妳氣色怎麼樣?
🎃 :很疲倦
⚡ :妳看著當時的自己,妳有什麼話想對她說?
🎃 :他只是個小孩,妳為什麼那麼失控?
(我心想:不不不,我不要妳責備自己啊,不過我們讓潛意識來處理吧)
⚡ :那當時的妳聽了有什麼反應?
🎃 :她面無表情
⚡ :是啊,妳是全世界最能理解她的人,她需要妳責備她嗎?
🎃 :不需要
⚡ :現在的妳有什麼話想對當時的自己說?
🎃 :妳看起來好累
🎃 :她哭了~~
⚡ :請妳看著兒子,把妳最真實的內心話說出來
🎃 :我不想幫你換尿布
⚡ :兒子聽到了有什麼反應?
🎃 :他傻住了
🎃 :他問我怎麼了,我說我好累,又好煩
🎃 :兒子抱著我,他在關心我~~~
我想用這一則潛意識翻譯記錄
來回應上一篇文章
護持能量的第一步是對自己誠實
累就是累
煩就是煩
有心事就是有心事
接下來就是真誠待人
有心事就別說「我沒事」
有關係就別說「沒關係」
我們能如實表達自己的感受
對方才有機會接住我們的情緒和需求
如果對自己不誠實
又找些冠冕堂皇的理由來掩蓋真相
(明明就是不想換尿布,又堅持說是在訓練兒子獨立)
那孩子得到的教養就是
我得找個光明正大的理由
才能滿足我內心的需求
那麼以後不想陪太太去跟岳家吃飯,就要假裝加班或出差
真正的需求不會被滿足
真正的問題不會被解決
重要的關係不能夠改善
我是很願意跟開心果說實話的媽媽
我會跟他說「我要接這通電話,
大概半小時,你去玩拼圖」
「媽媽很累,讓我賴床十分鐘」
「媽媽覺得這樣太吵了,
等一下就會很煩躁」
前幾天我生理期
他起床就去找阿嬤
等到要上學了
他回臥室找我「妳是不是起不來?」
我點點頭,
他說「那我跟阿嬤出門囉」
我說「放學我去接你!」
他就蹦蹦跳跳出發了
那時候我就覺得還好
我們一直都以真身示人
所以能夠互相體諒啊
未來職涯發展跟薪水前景
現在常常在職場上看到的職缺有商業分析師、數據分析師、演算法工程師以及資料科學家,還有一種叫資料工程師。資料工程師比較像我們剛剛提到的工程師,因此不會被歸在分析師的職缺中,這邊就不多做介紹。
我查詢並分析非常多相關職缺的薪資,得到的結果是:以商業分析師來說,一年的年薪大概是 60-80 萬左右。數據分析師大概是 80-100 萬,公司所開出的待遇需要 100-120 萬以上才能招募到會演算法工程師和資料科學家技能的人。
職稱並不總是準確的,因為台灣的分工並沒有這麼明確,所以我們可以用工作內容來看。以商業分析師來說,如果他的工作內容包含分析報告的撰寫、產生以及圖表的視覺化,並且會用到少部分的統計量,例如平均值、四分位距等,這樣的工作內容大概就是 60-80 萬年薪。
如果工作內容除了分析報告和統計量的運用之外,還需要一些演算法的協助,例如做推薦系統,需要一些演算法的支持,這樣的工作大部分會落在 80-100 萬左右。
演算法工程師則是負責演算法開發。例如,OpenAI 的首席資料科學家或演算法工程師寫了一套算法,專門去發明這些算法的人,我們會叫他演算法工程師,例如,做推薦系統時,現有的算法不適合公司的資料,可能需要完全從零開始研究出一個新的算法,這就是演算法工程師的工作。所以他的薪水通常是 100-120 萬以上。
資料科學家則是將工程師的工作 ETL、部署、API 和分析師的工作合併在一起,這就是資料科學家的工作。所以他的薪資 100-120 萬以上是很合理的,因為他涵蓋了兩個職位的工作內容。大部分資料科學家的工作內容還會圍繞在 MLOps,也就是機器學習操作。
MLOps 代表的是演算法系統開發(Machine Learning + DEV + OPS),即資料科學家除了要套用演算法、完成資料分析和整理之外,還要完成 API 的串接和部署。所以合併起來叫 MLOps,OPS 則是監控的意思。當一個 AI 模型上線後,資料科學家要每天監控其預測的準確度,例如推薦商品給客戶,但客戶沒有購買,這需要記錄並調整未來的推薦。
大家可以先問問自己,是否對數學、演算法、統計有興趣?有興趣的話,可以投入數據分析或成為資料科學家,如果喜歡用資料來說故事、寫出漂亮的報告、製作圖表或儀表板,可以選擇商業分析師,不會少走彎路,如果既喜歡數學、統計,也喜歡寫程式開發,可以選擇資料科學家的工作,因為他需要的技能非常多。如果只喜歡數學和演算法,可以往演算法開發發展。
🎃 南瓜說她很懊惱
自己前幾天打了小孩
她的小孩還沒成功戒掉尿布
不過肢體發展成熟,會自己換尿布了
偶爾耍賴撒嬌不想自己換,
南瓜也會幫他穿
那天晚上他又耍賴了,
但南瓜就是不想幫他換尿布
心裡一直碎念著:
他明明就可以自己處理
於是就一直跟小孩說:
「你已經長大了」
「你已經可以自己換尿布了」
「你已經有能力了」
「你不換尿布就光屁股睡覺好了」
最後僵持不下,南瓜就打了小孩
小孩放聲大哭,
先生過來直接幫小孩穿尿布
讓南瓜覺得自己無能又易怒
後來南瓜看著孩子的睡臉很歉疚
我帶著南瓜回到那一天
我問她:當時的妳氣色怎麼樣?
🎃 :很疲倦
⚡ :妳看著當時的自己,妳有什麼話想對她說?
🎃 :他只是個小孩,妳為什麼那麼失控?
(我心想:不不不,我不要妳責備自己啊,不過我們讓潛意識來處理吧)
⚡ :那當時的妳聽了有什麼反應?
🎃 :她面無表情
⚡ :是啊,妳是全世界最能理解她的人,她需要妳責備她嗎?
🎃 :不需要
⚡ :現在的妳有什麼話想對當時的自己說?
🎃 :妳看起來好累
🎃 :她哭了~~
⚡ :請妳看著兒子,把妳最真實的內心話說出來
🎃 :我不想幫你換尿布
⚡ :兒子聽到了有什麼反應?
🎃 :他傻住了
🎃 :他問我怎麼了,我說我好累,又好煩
🎃 :兒子抱著我,他在關心我~~~
我想用這一則潛意識翻譯記錄
來回應上一篇文章
護持能量的第一步是對自己誠實
累就是累
煩就是煩
有心事就是有心事
接下來就是真誠待人
有心事就別說「我沒事」
有關係就別說「沒關係」
我們能如實表達自己的感受
對方才有機會接住我們的情緒和需求
如果對自己不誠實
又找些冠冕堂皇的理由來掩蓋真相
(明明就是不想換尿布,又堅持說是在訓練兒子獨立)
那孩子得到的教養就是
我得找個光明正大的理由
才能滿足我內心的需求
那麼以後不想陪太太去跟岳家吃飯,就要假裝加班或出差
真正的需求不會被滿足
真正的問題不會被解決
重要的關係不能夠改善
我是很願意跟開心果說實話的媽媽
我會跟他說「我要接這通電話,
大概半小時,你去玩拼圖」
「媽媽很累,讓我賴床十分鐘」
「媽媽覺得這樣太吵了,
等一下就會很煩躁」
前幾天我生理期
他起床就去找阿嬤
等到要上學了
他回臥室找我「妳是不是起不來?」
我點點頭,
他說「那我跟阿嬤出門囉」
我說「放學我去接你!」
他就蹦蹦跳跳出發了
那時候我就覺得還好
我們一直都以真身示人
所以能夠互相體諒啊
容噗玩 Data
- 學歷:東吳大學——巨量資料管理(現為資料科學系)碩士
- 擅長:B2C 資料分析、統計檢定、機器學習、神經網路
- 經歷:現為科技業數據分析師,每天分析數百萬位會員資料,曾任錢櫃、摩斯、裕融數據分析師
- 教學經驗:YouTube 教學頻道——容噗玩 Data 、R 語言線上講師、Python 線上講師
相關課程