數據挖掘是指從大量的數據中通過算法搜索隱藏于其中信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現在大量數據中搜索隱藏信息的目標。
數據挖掘是人工智能和數據庫領域研究的熱點問題,所謂數據挖掘是指從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。
數據挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、統計學、數據庫、可視化技術等,高度自動化地分析企業的數據,作出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,作出正確的決策。
知識發現過程由以下三個階段組成:①數據準備;②數據挖掘;③結果表達和解釋。數據挖掘可以與用戶或知識庫交互。
數據挖掘對象
數據的類型可以是結構化的、半結構化的,甚至是異構型的。發現知識的方法可以是數學的、非數學的,也可以是歸納的。最終被發現了的知識可以用于信息管理、查詢優化、決策支持及數據自身的維護等。 [4]
數據挖掘的對象可以是任何類型的數據源??梢允顷P系數據庫,此類包含結構化數據的數據源;也可以是數據倉庫、文本、多媒體數據、空間數據、時序數據、Web數據,此類包含半結構化數據甚至異構性數據的數據源。 [4]
發現知識的方法可以是數字的、非數字的,也可以是歸納的。最終被發現的知識可以用于信息管理、查詢優化、決策支持及數據自身的維護等。
數據挖掘步驟
在實施數據挖掘之前,先制定采取什么樣的步驟,每一步都做什么,達到什么樣的目標是必要的,有了好的計劃才能保證數據挖掘有條不紊地實施并取得成功。很多軟件供應商和數據挖掘顧問公司投提供了一些數據挖掘過程模型,來指導他們的用戶一步步地進行數據挖掘工作。比如,SPSS公司的5A和SAS公司的semMA。
數據挖掘過程模型步驟主要包括定義問題、建立數據挖掘庫、分析數據、準備數據、建立模型、評價模型和實施。下面讓我們來具體看一下每個步驟的具體內容:
(1)定義問題。在開始知識發現之前最先的也是最重要的要求就是了解數據和業務問題。必須要對目標有一個清晰明確的定義,即決定到底想干什么。比如,想提高電子信箱的利用率時,想做的可能是“提高用戶使用率”,也可能是“提高一次用戶使用的價值”,要解決這兩個問題而建立的模型幾乎是完全不同的,必須做出決定。
(2)建立數據挖掘庫。建立數據挖掘庫包括以下幾個步驟:數據收集,數據描述,選擇,數據質量評估和數據清理,合并與整合,構建元數據,加載數據挖掘庫,維護數據挖掘庫。
(3)分析數據。分析的目的是找到對預測輸出影響最大的數據字段,和決定是否需要定義導出字段。如果數據集包含成百上千的字段,那么瀏覽分析這些數據將是一件非常耗時和累人的事情,這時需要選擇一個具有好的界面和功能強大的工具軟件來協助你完成這些事情。
(4)準備數據。這是建立模型之前的最后一步數據準備工作??梢园汛瞬襟E分為四個部分:選擇變量,選擇記錄,創建新變量,轉換變量。
(5)建立模型。建立模型是一個反復的過程。需要仔細考察不同的模型以判斷哪個模型對面對的商業問題最有用。先用一部分數據建立模型,然后再用剩下的數據來測試和驗證這個得到的模型。有時還有第三個數據集,稱為驗證集,因為測試集可能受模型的特性的影響,這時需要一個獨立的數據集來驗證模型的準確性。訓練和測試數據挖掘模型需要把數據至少分成兩個部分,一個用于模型訓練,另一個用于模型測試。
(6)評價模型。模型建立好之后,必須評價得到的結果、解釋模型的價值。從測試集中得到的準確率只對用于建立模型的數據有意義。在實際應用中,需要進一步了解錯誤的類型和由此帶來的相關費用的多少。經驗證明,有效的模型并不一定是正確的模型。造成這一點的直接原因就是模型建立中隱含的各種假定,因此,直接在現實世界中測試模型很重要。先在小范圍內應用,取得測試數據,覺得滿意之后再向大范圍推廣。
(7)實施。模型建立并經驗證之后,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應用到不同的數據集上。
以上就是數據挖掘是什么,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注本站行業資訊頻道。
本文由 貴州做網站公司 整理發布,部分圖文來源于互聯網,如有侵權,請聯系我們刪除,謝謝!
c語言中正確的字符常量是用一對單引號將一個字符括起表示合法的字符常量。例如‘a’。數值包括整型、浮點型。整型可用十進制,八進制,十六進制。八進制前面要加0,后面...
2022年天津專場考試原定于3月19日舉行,受疫情影響確定延期,但目前延期后的考試時間推遲。 符合報名條件的考生,須在規定時間登錄招考資訊網(www.zha...
:喜歡聽,樂意看。指很受歡迎?!巴卣官Y料”喜聞樂見:[ xǐ wén lè jiàn ]詳細解釋1. 【解釋】:喜歡聽,樂意看。指很受歡迎。2. 【示例】:這是...
(資料圖片)關于林依晨什么時候結的婚的知識大家了解嗎?以下就是小編整理的關于林依晨什么時候結的婚的介紹,希望可以給到大家一些參考,一起來了解下吧!林依晨是2014年12月24日結婚的,她的老公是林于超兩人戀愛和結婚都非常的低調,在結婚的時候也沒有開放媒體采訪,并且兩人也只是邀請了親朋好友并沒有搞的非常盛大。不過兩人的婚禮現場還是被一些親友曝光了,現場主題以紅色為主看起來很喜慶。林依晨和林于超相識多...
國美易卡是國美金融旗下的現金貸、分期、信用卡代還產品,之前名叫美易分,有很多人想在國美易卡提現,但是不知道到賬的時間,那么國美易卡提現成功多久到賬?國美易卡審核要多久?國美易卡申請條件,下面一起來看看吧。國美易卡在填寫完個人資料、完成認證后會給予一定的額度,分為提現額度、購物分期、信用卡代還,其中提現額度是可以提到銀行卡內的,如果發現提現額度為零,那么使用其他額度一段時間后就可以提現了。另外如果是...
京東宣布回購股票是怎么回事?12月29日早間,京東在港交所公告稱,董事會已批準修改于2020年3月采納的現有股份回購計劃,據此,回購授權由20億美元增至30億美元,并延長至2024年3月17日。2020年3月17日,京東曾發布公告稱,將在未來24個月回購至多20億美元股份的計劃。有市場分析人士認為,京東此次將股份回購計劃授權擴大并延長,充分說明了管理層對于公司未來發展的堅定信心。股票回購前會打壓股...