資料清洗經驗 什麼是資料清洗如何做好

2021-09-13 18:10:32 字數 1208 閱讀 5301

1樓:微策略中國

如何去整理分析資料,其中一個很重要的工作就是資料清洗。資料清洗是指對“髒”資料進行對應方式的處理,髒在這裡意味著資料的質量不夠好,會掩蓋資料的價值,更會對其後的資料分析帶來不同程度的影響。有調查稱,一個相關專案的進展,80%的時間都可能會花費在這個工作上面。

因為清洗必然意味著要對資料有一定的理解,而這個工作是自動化或者說計算機所解決不了的難題,只能靠人腦對資料進行重新審查和校驗,找到問題所在,並通過一些方法去對對應的資料來源進行重新整理。

清洗資料的方式大概可以分為以下幾類,篩選、清除、補充、糾正,例如:

去除不需要的欄位:簡單,直接刪除即可。但要記得備份。

填充缺失內容:以業務知識或經驗推測填充缺失值;以同一指標的計算結果(均值、中位數、眾數等)填充缺失值;以不同指標的計算結果填充缺失值。

格式不一致:時間、日期、數值、全半形等顯示格式不一致,這種問題通常與輸入端有關,在整合多**資料時也有可能遇到,將其處理成一致的某種格式即可。例如一列當中儲存的是時間戳,某些跨國公司的不同部門在時間的格式上有可能存在差別,比如2019-01-12,2019/01/12等,這時候需要將其轉換成統一格式。

內容中有不需要的字元:某些情況使得有些資料中包含不需要的字元。例如從網路爬到的資料會包含一些編碼解碼的字元如%22,這種情況下,需要以半自動校驗半人工方式來找出可能存在的問題,並去除不需要的字元。

資料提取:例如咱們只有使用者身份證的資訊,但是需要使用者生日一列,這時候我們可以直接從身份證號中按照一定規律將生日資訊提取出來。

2樓:暖神格格

1. 獲取:主要**包括——自有(關聯式資料庫同步)、自採(探針/爬蟲等手段)、外購(合法的白色資料、非法的灰色資料、違法的黑色資料);涉及的關鍵點:

資料的維度定義;探針節點的選擇及採集方式(依據具體業務而定,一般無非是部署在資料產生者隨路式或者資料產生者必經路徑上蹲點式兩種,各有優劣);外購資料來源的選擇及價值識別(可信度等)。資料**兩種,移動式(某德地圖、某度地圖這一類)和定點式(測速攝像頭、監控攝像頭),假定都是未分析的原始資料。

2. 清洗入庫:對資料來源進行清洗及其他所需的預處理入庫。本文的重點,見正文。

3. 分析、給資料打標籤以用於後續的挖掘:基於業務需求選擇所需的欄位並分析,比如哪些路段擁堵、擁堵程度如何。

4. 挖掘:這就看開腦洞的程度了,比如紅綠燈時長優化**、車輛流向優化(禁左、禁右、單行等)效果**這種相對簡單的的以及未來突發交通熱點**等等各種複雜的。

如何判斷資料型別 什麼是資料型別?

我不知道什麼是最好的方法。不過我的方法也可以。僅針對你的比如 定義了 int n 如果輸入一個數,如何判斷這個數就是int型。可以把輸入的資料分離 弄到一個陣列裡面去。比如 如果輸入 dfa546fd 分離儲存到陣列 x 然後逐個判斷。如果輸入的是字串 比如 char x 1 int y 1 int...

怎麼清洗豬大腸,是生的,生的豬大腸如何清洗

1.先找把剪刀,剪去肥腸外面的肥油。如果沒有剪刀,也可以用剔骨刀颳去,或是用手撕,這就辛苦點。2.去淨肥油後,就先用水灌一次大腸。然後找根筷子,從腸子開口處把外皮往裡推,把腸子內部翻到外部。3.如果懶事,就直接用剪刀把大腸沿著腸道剪開。然後加點麵粉和鹽到盆裡,再加少許水,使勁反覆搓洗豬大腸,直搓到有...

超聲波清洗機是如何清洗鈦棒濾芯的

1 粗洗 1 首先把超聲波清洗機放置好,通電前先把 自動 手動 開關置於手動位置,關閉進水 進氣電磁閥開關,粗洗時間約為5 10分鐘即可。2 洗完第一次以後關掉超聲波開關開啟排水閥門將汙染水放掉,然後重新注滿離子水到溢流的位置再清洗3 5分鐘即可,粗洗完畢以後基本為淨化濾芯,如果要求嚴格的話在進行一...