1樓:命中註定的
資料科學家最重要的技能是將資料轉化為清晰而且意義明確的見解。這是一個經常被忽視的能力,瑞典統計學家hans rosling正是因此而聞名。
談到這個話題有必要談論一下幫助人們理解資料分析在形成有價值的見解過程中的角色的作用的工具。
其中一種工具就是分析的四維範例。
簡單來說,資料分析可以分為四個主要類別,我將在下面做出詳細解釋。
1.描述:發生了什麼事?
這是最常見的資料分析形式。在商業領域,它為分析人員提供了業務中關鍵指標和措施的。
每月損益表正是這樣的一個例子。
類似地,資料分析師可以通過大量的客戶資料,瞭解客戶的統計資訊(例如我們的客戶中30%是個體經營者),這種可以被歸類為「描述性分析」。
利用有效的視覺化工具能夠增強描述性分析的資訊。
2.診斷:為什麼會發生?
資料分析的下一步是解析性描述。
在對描述性資料進行評估時,診斷分析工具將使分析師具備深入分析的能力,從而剝離問題的根本原因。
精心設計的商業資訊儀表板包含讀取時間序列資料(即多個連續時間點的資料),並具有資料過濾和挖掘的能力,可進行此類分析。
比如檢視資料地圖,我發現江蘇的市場銷售額較高,想知道是什麼原因?於是點選該省份,能定位到各類產品的銷售資料和響應的合作客戶資料。
3.**:將來會發生什麼?
**分析是為了預報。
無論是將來發生事件的可能性,**可量化的數量還是估計可能發生事件的時間點,這些都是通過**模型完成的。
**模型通常利用各種可變資料進行**。元件資料的變異性將與可能**的關係(例如,一個較老的人,他們對心臟病發作的敏感程度越高,我們會說年齡與心臟病發作風險呈線性相關)。然後將這些資料一起編譯成分數或**。
處在一個巨大不確定性的世界中,**可以幫助人們做出更好的決定。**模型是許多領域中最重要的模型。
4.規範:我需要做什麼?
在價值和複雜性方面的下一步是規範性模式。
規範模型利用對發生的事情的理解,為什麼發生了這種情況以及各種「可能發生的」分析,以幫助使用者確定採取的最佳行動方案。
規定性分析通常不僅僅是一個單獨的行動,而且實際上是其他一些行動。
一個很好的例子是交通應用程式能夠幫助您選擇最佳路線回家,並考慮每個路線的距離,每個路上可以行駛的速度,以及當前的交通限制。
另一個例子是製作考試時間表,保證所有學生的時間表不存在衝突。
因此,雖然不同形式的分析可能為企業提供不同數量的價值,但它們都具有自己的用處。
2樓:
資料分析是為了能以量化的方式來分析業務問題並得出結論
如何成為一個資料分析師?需要具備哪些技能
3樓:cda資料分析師
學習資料分析師之前,你必須清楚自己想要達成什麼目標。也就是說,你想通過這門技術來解決哪些問題或實現什麼計劃。有了這個目標,你才能清晰地開展自己的學習規劃,並且明確它的知識體系。
只有明確的目標導向,學習必備也是最有用的那部分,才能避免無效資訊降低學習效率。
1、明確知識框架和學習路徑
資料分析這件事,如果你要成為資料分析師,那麼你可以去招聘**看看,對應的職位的需求是什麼,一般來說你就會對應該掌握的知識架構有初步的瞭解。你可以去看看資料分析師職位,企業對技能需求可總結如下:
sql資料庫的基本操作,會基本的資料管理;
會用excel/sql做基本的資料提取、分析和展示;
會用指令碼語言進行資料分析,python or r;
有獲取外部資料的能力加分,如爬蟲或熟悉公開資料集;
會基本的資料視覺化技能,能撰寫資料包告;
熟悉常用的資料探勘演算法:迴歸分析、決策樹、分類、聚類方法;
高效的學習路徑是什麼?就是資料分析的流程。一般大致可以按「資料獲取-資料儲存與提取-資料預處理-資料建模與分析-資料視覺化」這樣的步驟來實現一個資料分析師的學成之旅。
按這樣的順序循序漸進,你會知道每個部分需要完成的目標是什麼,需要學習哪些知識點,哪些知識是暫時不必要的。然後每學習一個部分,你就能夠有一些實際的成果輸出,有正向的反饋和成就感,你才會願意花更多的時間投入進去。以解決問題為目標,效率自然不會低。
按照上面的流程,我們分需要獲取外部資料和不需要獲取外部資料兩類分析師,總結學習路徑如下:
1.需要獲取外部資料分析師:
python基礎知識
python爬蟲
sql語言
python科學計算包:pandas、numpy、scipy、scikit-learn
統計學基礎
迴歸分析方法
資料探勘基本演算法:分類、聚類
模型優化:特徵提取
資料視覺化:seaborn、matplotlib
2.不需要獲取外部資料分析師:
sql語言
python基礎知識
python科學計算包:pandas、numpy、scipy、scikit-learn
統計學基礎
迴歸分析方法
資料探勘基本演算法:分類、聚類
模型優化:特徵提取
資料視覺化:seaborn、matplotlib
接下來我們分別從每一個部分講講具體應該學什麼、怎麼學。
資料獲取:公開資料、python爬蟲
如果接觸的只是企業資料庫裡的資料,不需要要獲取外部資料的,這個部分可以忽略。
外部資料的獲取方式主要有以下兩種。
另一種獲取外部資料費的方式就是爬蟲。
在爬蟲之前你需要先了解一些 python 的基礎知識:元素(列表、字典、元組等)、變數、迴圈、函式(連結的菜鳥教程非常好)……以及如何用成熟的 python 庫(urllib、beautifulsoup、requests、scrapy)實現網頁爬蟲。如果是初學,建議從 urllib 和 beautifulsoup 開始。
(ps:後續的資料分析也需要 python 的知識,以後遇到的問題也可以在這個教程檢視)
網上的爬蟲教程不要太多,爬蟲上手推薦豆瓣的網頁爬取,一方面是網頁結構比較簡單,二是豆瓣對爬蟲相對比較友好。
掌握基礎的爬蟲之後,你還需要一些高階技巧,比如正規表示式、模擬使用者登入、使用**、設定爬取頻率、使用cookie資訊等等,來應對不同**的反爬蟲限制。
資料存取:sql語言
你可能有一個疑惑,為什麼沒有講到excel。在應對萬以內的資料的時候,excel對於一般的分析沒有問題,一旦資料量大,就會力不從心,資料庫就能夠很好地解決這個問題。而且大多數的企業,都會以sql的形式來儲存資料,如果你是一個分析師,也需要懂得sql的操作,能夠查詢、提取資料。
sql作為最經典的資料庫工具,為海量資料的儲存與管理提供可能,並且使資料的提取的效率大大提升。你需要掌握以下技能:
提取特定情況下的資料:企業資料庫裡的資料一定是大而繁複的,你需要提取你需要的那一部分。比如你可以根據你的需要提取2023年所有的銷售資料、提取今年銷量最大的50件商品的資料、提取上海、廣東地區使用者的消費資料……,sql可以通過簡單的命令幫你完成這些工作。
資料庫的增、刪、查、改:這些是資料庫最基本的操作,但只要用簡單的命令就能夠實現,所以你只需要記住命令就好。
資料的分組聚合、如何建立多個表之間的聯絡:這個部分是sql的進階操作,多個表之間的關聯,在你處理多維度、多個資料集的時候非常有用,這也讓你可以去處理更復雜的資料。
資料預處理:python(pandas)
很多時候我們拿到的資料是不乾淨的,資料的重複、缺失、異常值等等,這時候就需要進行資料的清洗,把這些影響分析的資料處理好,才能獲得更加精確地分析結果。
比如空氣質量的資料,其中有很多天的資料由於裝置的原因是沒有監測到的,有一些資料是記錄重複的,還有一些資料是裝置故障時監測無效的。比如使用者行為資料,有很多無效的操作對分析沒有意義,就需要進行刪除。
那麼我們需要用相應的方法去處理,比如殘缺資料,我們是直接去掉這條資料,還是用臨近的值去補全,這些都是需要考慮的問題。
對於資料預處理,學會 pandas 的用法,應對一般的資料清洗就完全沒問題了。需要掌握的知識點如下:
選擇:資料訪問(標籤、特定值、布林索引等)
缺失值處理:對缺失資料行進行刪除或填充
重複值處理:重複值的判斷與刪除
空格和異常值處理:清楚不必要的空格和極端、異常資料
合併:符合各種邏輯關係的合併操作
分組:資料劃分、分別執行函式、資料重組
reshaping:快速生成資料透視表
概率論及統計學知識
資料整體分佈是怎樣的?什麼是總體和樣本?中位數、眾數、均值、方差等基本的統計量如何應用?
如果有時間維度的話隨著時間的變化是怎樣的?如何在不同的場景中做假設檢驗?資料分析方法大多源於統計學的概念,所以統計學的知識也是必不可少的。
需要掌握的知識點如下:
基本統計量:均值、中位數、眾數、百分位數、極值等
其他描述性統計量:偏度、方差、標準差、顯著性等
其他統計知識:總體和樣本、引數和統計量、errorbar
概率分佈與假設檢驗:各種分佈、假設檢驗流程
其他概率論知識:條件概率、貝葉斯等
有了統計學的基本知識,你就可以用這些統計量做基本的分析了。通過視覺化的方式來描述資料的指標,其實可以得出很多結論了,比如排名前100的是哪些,平均水平是怎樣的,近幾年的變化趨勢如何……
你可以使用python的包 seaborn(python包)在做這些視覺化的分析,你會輕鬆地畫出各種視覺化圖形,並得出具有指導意義的結果。瞭解假設檢驗之後,可以對樣本指標與假設的總體指標之間是否存在差別作出判斷,已驗證結果是否在可接受的範圍。
python資料分析
比如掌握迴歸分析的方法,通過線性迴歸和邏輯迴歸,其實你就可以對大多數的資料進行迴歸分析,並得出相對精確地結論。比如datacastle的訓練競賽「房價**」和「職位**」,都可以通過迴歸分析實現。這部分需要掌握的知識點如下:
迴歸分析:線性迴歸、邏輯迴歸
基本的分類演算法:決策樹、隨機森林……
基本的聚類演算法:k-means……
特徵工程基礎:如何用特徵選擇優化模型
調參方法:如何調節引數優化模型
python 資料分析包:scipy、numpy、scikit-learn等
在資料分析的這個階段,重點了解迴歸分析的方法,大多數的問題可以得以解決,利用描述性的統計分析和迴歸分析,你完全可以得到一個不錯的分析結論。
當然,隨著你實踐量的增多,可能會遇到一些複雜的問題,你就可能需要去了解一些更高階的演算法:分類、聚類,然後你會知道面對不同型別的問題的時候更適合用哪種演算法模型,對於模型的優化,你需要去學習如何通過特徵提取、引數調節來提升**的精度。這就有點資料探勘和機器學習的味道了,其實一個好的資料分析師,應該算是一個初級的資料探勘工程師了。
系統實戰
這個時候,你就已經具備了資料分析的基本能力了。但是還要根據不同的案例、不同的業務場景進行實戰。能夠獨立完成分析任務,那麼你就已經打敗市面上大部分的資料分析師了。
如何進行實戰呢?
上面提到的公開資料集,可以找一些自己感興趣的方向的資料,嘗試從不同的角度來分析,看看能夠得到哪些有價值的結論。
另一個角度是,你可以從生活、工作中去發現一些可用於分析的問題,比如上面說到的電商、招聘、社交等平臺等方向都有著很多可以挖掘的問題。
開始的時候,你可能考慮的問題不是很周全,但隨著你經驗的積累,慢慢就會找到分析的方向,有哪些一般分析的維度,比如top榜單、平均水平、區域分佈、年齡分佈、相關性分析、未來趨勢**等等。隨著經驗的增加,你會有一些自己對於資料的感覺,這就是我們通常說的資料思維了。
你也可以看看行業的分析報告,看看優秀的分析師看待問題的角度和分析問題的維度,其實這並不是一件困難的事情。
在掌握了初級的分析方法之後,也可以嘗試做一些資料分析的競賽,比如 datacastle 為資料分析師專門定製的三個競賽,提交答案即可獲取評分和排名:
員工離職**訓練賽
美國king county房價**訓練賽
北京pm2.5濃度分析訓練賽
種一棵樹最好的時間是十年前,其次是現在。現在就去,找一個資料集開始吧!!
資料分析師常用的資料分析思路,資料分析師要掌握哪些基本技能
01 細分分析 細分分析是資料分析的基礎,單一維度下的指標資料資訊價值很低。細分分析法可以大致分為兩類,一類是逐步分析,如 來北京市的訪客可分為朝陽和海淀等區 另一類是維度交叉,如 來自付費sem的新訪客。02 對比分析 對比分析主要是把兩個有關聯的資料指標進行相互比較,從數量上說明和展現研究物件的...
資料分析師怎麼考,怎麼報考資料分析師?
考生在獲得準高階證書後,在專業領域工作五年,並撰寫一篇專業資料分析 經答辯合格,獲取高階資料分析師合格證書。從事資料分析工作的前提就會需要懂業務,即熟悉行業知識 公司業務及流程,最好有自己獨到的見解,若脫離行業認知和公司業務背景,分析的結果只會是脫了線的風箏,沒有太大的使用價值。資料分析師在工業和資...
資料分析師是什麼,資料分析師是做什麼的?
資料分析是幹什麼的?在企業裡收集資料 計算資料 提供資料給其他部門使用的。資料分析有什麼用?從工作流程的角度看,至少有5類分析經常做 工作開始前策劃型分析 要分析一下哪些事情值得的做工作開始前 型分析 一下目前走勢,預計效果工作中的監控型分析 監控指標走勢,發現問題工作中的原因型分析 分析問題原因,...