數據清洗是指發現并糾正數據文件中可識別的錯誤的最后一道程序,包括檢查數據一致性,處理無效值和缺失值等。與問卷審核不同,錄入后的數據清理一般是由計算機而不是人工完成。其目的在于刪除重復信息、糾正存在的錯誤,并提供數據一致性。
數據清洗是指發現并糾正數據文件中可識別的錯誤的最后一道程序,包括檢查數據一致性,處理無效值和缺失值等。與問卷審核不同,錄入后的數據清理一般是由計算機而不是人工完成。
數據清洗(Data cleaning)– 對數據進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數據一致性。
數據清洗從名字上也看的出就是把“臟”的“洗掉”,指發現并糾正數據文件中可識別的錯誤的最后一道程序,包括檢查數據一致性,處理無效值和缺失值等。因為數據倉庫中的數據是面向某一主題的數據的***,這些數據從多個業務系統中抽取而來而且包含歷史數據,這樣就避免不了有的數據是錯誤數據、有的數據相互之間有沖突,這些錯誤的或有沖突的數據顯然是我們不想要的,稱為“臟數據”。我們要按照一定的規則把“臟數據”“洗掉”,這就是數據清洗。而數據清洗的任務是過濾那些不符合要求的數據,將過濾的結果交給業務主管部門,確認是否過濾掉還是由業務單位修正之后再進行抽取。不符合要求的數據主要是有不完整的數據、錯誤的數據、重復的數據三大類。數據清洗是與問卷審核不同,錄入后的數據清理一般是由計算機而不是人工完成。
一致性檢查
一致性檢查(consistency check)是根據每個變量的合理取值范圍和相互關系,檢查數據是否合乎要求,發現超出正常范圍、邏輯上不合理或者相互矛盾的數據。例如,用 1-7 級量表測量的變量出現了 0 值,體重出現了負數,都應視為超出正常值域范圍。SPSS、SAS、和 Excel 等計算機軟件都能夠根據定義的取值范圍,自動識別每個超出范圍的變量值。具有邏輯上不一致性的答案可能以多種形式出現:例如,許多調查對象說自己開車上班,又報告沒有汽車;或者調查對象報告自己是某品牌的重度購買者和使用者,但同時又在熟悉程度量表上給了很低的分值。發現不一致時,要列出問卷序號、記錄序號、變量名稱、錯誤類別等,便于進一步核對和糾正。
無效值和缺失值的處理
由于調查、編碼和錄入誤差,數據中可能存在一些無效值和缺失值,需要給予適當的處理。常用的處理方法有:估算,整例刪除,變量刪除和成對刪除。
估算(estimation)。最簡單的辦法就是用某個變量的樣本均值、中位數或眾數代替無效值和缺失值。這種辦法簡單,但沒有充分考慮數據中已有的信息,誤差可能較大。另一種辦法就是根據調查對象對其他問題的答案,通過變量之間的相關分析或邏輯推論進行估計。例如,某一產品的擁有情況可能與家庭收入有關,可以根據調查對象的家庭收入推算擁有這一產品的可能性。
整例刪除(casewise deletion)是剔除含有缺失值的樣本。由于很多問卷都可能存在缺失值,這種做法的結果可能導致有效樣本量大大減少,無法充分利用已經收集到的數據。因此,只適合關鍵變量缺失,或者含有無效值或缺失值的樣本比重很小的情況。
變量刪除(variable deletion)。如果某一變量的無效值和缺失值很多,而且該變量對于所研究的問題不是特別重要,則可以考慮將該變量刪除。這種做法減少了供分析用的變量數目,但沒有改變樣本量。
成對刪除(pairwise deletion)是用一個特殊碼(通常是 9、99、999 等)代表無效值和缺失值,同時保留數據集中的全部變量和樣本。但是,在具體計算時只采用有完整答案的樣本,因而不同的分析因涉及的變量不同,其有效樣本量也會有所不同。這是一種保守的處理方法,最大限度地保留了數據集中的可用信息。
采用不同的處理方法可能對分析結果產生影響,尤其是當缺失值的出現并非隨機且變量之間明顯相關時。因此,在調查中應當盡量避免出現無效值和缺失值,保證數據的完整性。
數據清洗原理:利用有關技術如數理統計、數據挖掘或預定義的清理規則將臟數據轉化為滿足數據質量要求的數據。
這一類數據主要是一些應該有的信息缺失,如供應商的名稱、分公司的名稱、客戶的區域信息缺失、業務系統中主表與明細表不能匹配等。對于這一類數據過濾出來,按缺失的內容分別寫入不同 Excel 文件向客戶提交,要求在規定的時間內補全。補全后才寫入數據倉庫。
這一類錯誤產生的原因是業務系統不夠健全,在接收輸入后沒有進行判斷直接寫入后臺數據庫造成的,比如數值數據輸成全角數字字符、字符串數據后面有一個回車操作、日期格式不正確、日期越界等。這一類數據也要分類,對于類似于全角字符、數據前后有不可見字符的問題,只能通過寫 SQL 語句的方式找出來,然后要求客戶在業務系統修正之后抽取。日期格式不正確的或者是日期越界的這一類錯誤會導致 ETL 運行失敗,這一類錯誤需要去業務系統數據庫用 SQL 的方式挑出來,交給業務主管部門要求限期修正,修正之后再抽取。
對于這一類數據——特別是維表中會出現這種情況——將重復數據記錄的所有字段導出來,讓客戶確認并整理。
數據清洗是一個反復的過程,不可能在幾天內完成,只有不斷的發現問題,解決問題。對于是否過濾,是否修正一般要求客戶確認,對于過濾掉的數據,寫入 Excel 文件或者將過濾數據寫入數據表,在 ETL 開發的初期可以每天向業務單位發送過濾數據的郵件,促使他們盡快地修正錯誤,同時也可以做為將來驗證數據的依據。數據清洗需要注意的是不要將有用的數據過濾掉,對于每個過濾規則認真進行驗證,并要用戶確認。
本文由 貴州做網站公司 整理發布,部分圖文來源于互聯網,如有侵權,請聯系我們刪除,謝謝!
網絡推廣與網站優化公司(網絡優化與推廣專家)作為數字營銷領域的核心服務提供方,其價值在于通過技術手段與策略規劃幫助企業提升線上曝光度、用戶轉化率及品牌影響力。這...
在當今數字化時代,公司網站已成為企業展示形象、傳遞信息和開展業務的重要平臺。然而,對于許多公司來說,網站建設的價格是一個關鍵考量因素。本文將圍繞“公司網站建設價...
在當今的數字化時代,企業網站已成為企業展示形象、吸引客戶和開展業務的重要平臺。然而,對于許多中小企業來說,高昂的網站建設費用可能會成為其發展的瓶頸。幸運的是,隨...
DWORD是什么意思?DWORD(雙字)表示雙字節。兩個字(32位)是應用于許多地方的“值”。例如,在注冊表中,它屬于編程類也就是說,在Win32中unsign long是4個字節,它的長度是定義的。也就是說,它在Win32中有定義:“define DWORD unsigned long”,所以移植起來更方便Windows常用于保存地址(或指針)等可以使用unsigned long的地方。它也可以...
18135鏡頭是什么意思?鏡頭18135mm是指相機中的一個數字,其中它的18表示這款相機的最短焦距為18 mm,最長焦距為135mm,而在這兩個數字之間,它的變焦是連續可變的。鏡頭在影視方面有兩個手指。一種是指膠片相機和放映機用來產生影像的光學元件,由多個鏡頭組成。鏡頭18-135什么意思?18-135代表鏡頭焦距,表示短焦距18mm,長焦距135 mm..換句話說,這個鏡頭最近只能拉回18mm...
減肥晚餐吃什么?第一種主食應該是雜糧,或者全麥面包或者一些塊根類蔬菜,比如土豆、玉米芯或者一些山藥、胡蘿卜,再加上一些優質蛋白質。其次,還有一些像深海魚或者新鮮的普通魚蝦之類的東西,可以提供優質蛋白質,保證肌肉蛋白質的來源,提高人體的代謝率。最后,如果想增加飽腹感,可以吃一些根類蔬菜,包括葉類蔬菜和瓜類,這樣既有飽腹感,又能減肥。減肥晚餐吃什么?減肥的時候晚飯吃什么好?1.豆子豆子能讓你有飽腹感。...