2011-06-05 09:12:08許先生

  詳解數據挖掘

  數據挖掘的目標是從數據中發現隱含的、有意義的知識。
  1.       概念描述概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。
  l  特征性描述:用于描述某類對象的共同特征。
  l  區別性描述:用于描述不同類對象之間的區別。電腦入門2.       關聯分析數據關聯是數據中存在的一類重要的可發現的知識,若兩個或多個變量之間存在著某種規律性,就稱為關聯。關聯分析的目的就是找出數據中隱藏的關聯網。
  3.       分類和預測l  分類:就是依照所分析對象的屬性分門別類、加以定義、建立類組。關鍵是確定對數據按照什么標準或規則進行分類。
  l  預測:利用歷史數據建立模型,再運用最新數據作為輸入值,獲得未來變化的趨勢或評估給定樣本可能具有的屬性值或值的范圍。計算機基礎知識4.       聚類分析聚類分析又稱無指導學習,其目的在于客觀地按被處理對象的特征分類,將有相同特征的對象歸為一類。
  聚類不同與分類,分類規則需要預先定義類別和訓練樣本,而聚類分析直接面向原數據,沒有預先定義好的類別和訓練樣本,所有記錄都根據彼此相似程度來加以歸類。計算機5.       趨勢分析又稱時間序列分析,它是從相當長的時間的發展中發現規律和趨勢。趨勢分析和關聯分析相似,都是為了挖掘出數據之間的聯系,但趨勢分析的側重點在于分析數據間的前因后果關系。計算機6.       孤立點分析孤立點是指數據庫中包含的一些與數據的一般行為或模型不一致的數據。
  大部分的數據挖掘方法將孤立點是為噪聲或異常丟棄,而對于某些應用,如欺騙檢測,孤立點數據可能更有價值。
  7.       偏差分析偏差分析又稱比較分析,它是對差異和極端特例的描述,用于揭示事物偏離常規的異常現象。
  偏差檢測的基本方法是:曾經今生今世都只想做個認真的戲子影印機,永遠只在別人的故事里,流著自己的眼淚而已,碎紙機其實所有的悲傷都與自己無關。尋找觀測結果與參照值之間有意義的差別。