91小视频版在线观看www-91小视频app-91香蕉在线看私人影院-91香蕉在线-91香蕉影院-91香蕉影视

公務(wù)員期刊網(wǎng) 精選范文 數(shù)據(jù)挖掘技術(shù)范文

數(shù)據(jù)挖掘技術(shù)精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)據(jù)挖掘技術(shù)主題范文,僅供參考,歡迎閱讀并收藏。

數(shù)據(jù)挖掘技術(shù)

第1篇:數(shù)據(jù)挖掘技術(shù)范文

關(guān)鍵詞:Web數(shù)據(jù)挖掘;分類;流程

中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2009)26-7335-01

WebData Mining Technology

SONG Yu

(Wuhan Institute of Shipbuilding Technology, Wuhan 430050, China)

Abstract: In this paper, Webdata mining technology, the basic idea was introduced to describe the content, structure, excavation of the use of three main types of Webdata mining, and a typical Webdata mining process are described.

Key words: Webdata mining; classification; process

所謂數(shù)據(jù)挖掘Data Mining 就是從大量的、不完全的、有噪聲的、模糊的、隨機的原始數(shù)據(jù)中提取隱含在其中的、事先未知的、但又是潛在有用的信息和知識的過程 。

1 什么是Web的數(shù)據(jù)挖掘

Web挖掘是從Web資源上抽取信息或知識的過程,它是將傳統(tǒng)的數(shù)據(jù)挖掘的思想和方法應(yīng)用于Web,從Web文檔和Web活動中抽取感興趣的、潛在的、有用的模式和隱藏信息。Web挖掘可在多方面發(fā)揮作用,如搜索引擎結(jié)構(gòu)的挖掘,搜索引擎的開發(fā),改進和提高搜索引擎的質(zhì)量和效率,確定權(quán)威頁面。Web挖掘研究覆蓋了多個研究領(lǐng)域,包括數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計學、人工智能中的機器學習和神經(jīng)網(wǎng)絡(luò)等。特別是電子商務(wù)領(lǐng)域,通過對用戶特征的理解和分析,如對用戶訪問行為、頻度、內(nèi)容等的分析,提取出用戶的特征,從而為用戶定制個性化的界面,有助于開展有針對性的電子商務(wù)活動。

2 Web數(shù)據(jù)挖掘的分類

根據(jù)挖掘的對象不同我們可以把基于Web的數(shù)據(jù)挖掘分為三大類:

1) Web內(nèi)容的挖掘(WebContent Mining)

所謂Web內(nèi)容的挖掘?qū)嶋H上就是從Web文檔及其描述中獲取知識, Web文檔文件挖掘以及基于概念索引或Agent 技術(shù)的資源搜索也應(yīng)該歸于此類。Web信息資源類型眾多,目前WWW 信息資源已經(jīng)成為網(wǎng)絡(luò)信息資源的主體,然而除了大量的人們可以直接從網(wǎng)上抓取、建立索引、實現(xiàn)查詢服務(wù)的資源之外,相當一部分信息是隱藏著的數(shù)據(jù)(如由用戶的提問而動態(tài)生成的結(jié)果,存在于數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù),或是某些私人數(shù)據(jù))無法被索引,從而無法提供對它們有效的檢索方式,這就迫使我們把這些內(nèi)容挖掘出來。若從信息資源的表現(xiàn)形式來看,Web信息內(nèi)容是由文本、圖像、音頻、視頻、元數(shù)據(jù)等種種形式的數(shù)據(jù)組成的,因而我們所說的Web內(nèi)容的挖掘也是一種針對多媒體數(shù)據(jù)的挖掘。

2) Web結(jié)構(gòu)的挖掘(WebStructure Mining)

這一類型的挖掘是從萬維網(wǎng)的整體結(jié)構(gòu)和網(wǎng)頁上的相互鏈接中發(fā)現(xiàn)知識的過程,它主要挖掘Web潛在的鏈接結(jié)構(gòu)模式。這種思想源于引文分析,即通過分析一個網(wǎng)頁鏈接和被鏈接數(shù)量以及對象來建立Web自身的鏈接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁歸類并且可以由此獲得有關(guān)不同網(wǎng)頁間相似度及關(guān)聯(lián)度的信息。Web結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點,而且對網(wǎng)絡(luò)資源檢索結(jié)果的排序有很大意義。

3) Web使用的挖掘(WebUsage Mining)

Web使用的挖掘,也稱為Web日志挖掘(WebLog Mining)。與前兩種挖掘方式以網(wǎng)上的原始數(shù)據(jù)為挖掘?qū)ο蟛煌?基于Web使用的挖掘面對的是在用戶和網(wǎng)絡(luò)交互的過程中抽取出來的第二手數(shù)據(jù)。這些數(shù)據(jù)包括:網(wǎng)絡(luò)服務(wù)器訪問記錄、服務(wù)器日志記錄、用戶注冊信息以及用戶訪問網(wǎng)站時的行為動作等等。Web使用挖掘?qū)⑦@些數(shù)據(jù)一一紀錄到日志文件中,然后對積累起來的日志文件進行挖掘,從而了解用戶的網(wǎng)絡(luò)行為數(shù)據(jù)所具有的意義。我們前面所舉的例子正屬于這一種類型。

3 Web挖掘技術(shù)的流程

Web挖掘指使用數(shù)據(jù)挖掘技術(shù)在WWW數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個研究領(lǐng)域,包括數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計學、人工智能中的機器學習 和神經(jīng)網(wǎng)絡(luò)等。Web挖掘可以在很多方面發(fā)揮作用,如對搜索引擎的結(jié)構(gòu)進行挖掘,確定權(quán)威頁面,Web文檔分類,Weblog挖掘,智能查詢,建立MetaWeb數(shù)據(jù)倉庫等。

典型Web數(shù)據(jù)挖掘的處理流程如下:

3.1 查找資源

任務(wù)是從目標Web文檔中得到數(shù)據(jù),值得注意的是有時信息資源不僅限于在線Web文檔,還包括電子郵件、電子文檔、新聞組,或者網(wǎng)站的日志數(shù)據(jù)甚至是通過Web形成的交易數(shù)據(jù)庫中的數(shù)據(jù)。

3.2 信息選擇和預處理

任務(wù)是從取得的Web資源中剔除無用信息和將信息進行必要的整理。例如從Web文檔中自動去除廣告連接、去除多余格式標記、自動識別段落或者字段并將數(shù)據(jù)組織成規(guī)整的邏輯形式甚至是關(guān)系表。

1) 模式發(fā)現(xiàn)

自動進行模式發(fā)現(xiàn)。可以在同一個站點內(nèi)部或在多個站點之間進行。

2) 模式分析

驗證、解釋上一步驟產(chǎn)生的模式。可以是機器自動完成,也可以是與分析人員進行交互來完成。

4 結(jié)束語

Web數(shù)據(jù)挖掘還有待進一步的研究,尤其是近來對Web內(nèi)容挖掘方面集中在信息集成,如建立基于Web的知識庫或基于Web的數(shù)據(jù)倉庫的研究上。

參考文獻:

[1] 范明,孟小峰.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2007.

第2篇:數(shù)據(jù)挖掘技術(shù)范文

[關(guān)鍵詞] 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘方法

隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價值的潛在知識,數(shù)據(jù)挖掘(Data Mining)技術(shù)由此應(yīng)運而生。

一、數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進而預測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程。

二、數(shù)據(jù)挖掘的方法

1.統(tǒng)計方法。傳統(tǒng)的統(tǒng)計學為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預測變量集的對數(shù)回歸、統(tǒng)計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。

2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實際應(yīng)用價值,要對這些規(guī)則要進行有效的評價,篩選有意義的關(guān)聯(lián)規(guī)則。

3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標準將其劃分成幾個組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數(shù)據(jù)的聚類趨勢進行檢驗。

4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數(shù)的方法,通過把實例從根結(jié)點排列到某個葉子結(jié)點來分類實例,葉子結(jié)點即為實例所屬的分類。樹上的每個結(jié)點說明了對實例的某個屬性的測試,該結(jié)點的每一個后繼分支對應(yīng)于該屬性的一個可能值,分類實例的方法是從這棵樹的根結(jié)點開始,測試這個結(jié)點指定的屬性,然后按照給定實例的該屬性值對應(yīng)的樹枝向下移動。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。

5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學習的數(shù)學模型基礎(chǔ)之上,能夠?qū)Υ罅繌碗s的數(shù)據(jù)進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應(yīng)能力的種種優(yōu)點。

6.遺傳算法。遺傳算法是一種受生物進化啟發(fā)的學習方法,通過變異和重組當前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個部分,來更新當前群體的一組假設(shè),來實現(xiàn)各個個體的適應(yīng)性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應(yīng)的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

8.支持向量機。支持向量機(SVM)是在統(tǒng)計學習理論的基礎(chǔ)上發(fā)展出來的一種新的機器學習方法。它基于結(jié)構(gòu)風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現(xiàn)已成為訓練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。

事實上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

三、結(jié)束語

目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。

第3篇:數(shù)據(jù)挖掘技術(shù)范文

關(guān)鍵詞:數(shù)據(jù)挖掘;聚類算法;關(guān)聯(lián)規(guī)則;決策樹;遺傳算法

中圖分類號:TP301文獻標識碼:A文章編號:1009-3044(2009)13-3331-02

1 引言

數(shù)據(jù)挖掘是一個多學科的交叉領(lǐng)域,這些學科包括數(shù)據(jù)庫技術(shù)、機器學習、統(tǒng)計學、模式識別、信息檢索、神經(jīng)網(wǎng)絡(luò)、基于知識的系統(tǒng)、人工智能、高性能計算和數(shù)據(jù)可視化等[1]。目前,對于數(shù)據(jù)挖掘方面的研究已經(jīng)取得了很大的進展,開發(fā)出了許多新的數(shù)據(jù)挖掘算法、系統(tǒng)和應(yīng)用。本文將先對數(shù)據(jù)挖掘的概念及實施步驟進行說明,然后將分類歸納數(shù)據(jù)挖掘中的各種常見算法,最后對數(shù)據(jù)挖掘目前的研究方向進行預測。

2 數(shù)據(jù)挖掘的概念及流程

2.1 數(shù)據(jù)挖掘的概念

簡單地說,數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中“挖掘”知識,即從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道、但又是潛在有用的信息和知識的過程。它是一種決策支持過程,可以從企業(yè)數(shù)據(jù)庫的大量數(shù)據(jù)中,挖掘出潛在的模式,預測客戶的行為,幫助企業(yè)的決策者做出正確的判斷,從而減少投資的風險,獲得更大的利潤。

2.2 數(shù)據(jù)挖掘的流程

一般來講,數(shù)據(jù)挖掘的整個過程由五個步驟組成:

1) 數(shù)據(jù)挖掘的最后結(jié)果是不可預測的,但是要探索的問題應(yīng)該是有預見的,為了數(shù)據(jù)挖掘而進行數(shù)據(jù)挖掘,是不可取的。因此,清晰地定義出業(yè)務(wù)問題,認清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的第一步,也是很重要的一步。

2) 數(shù)據(jù)準備[2],數(shù)據(jù)準備又可以分成數(shù)據(jù)選擇,數(shù)據(jù)預處理,數(shù)據(jù)轉(zhuǎn)化三個步驟。數(shù)據(jù)選擇,是從大量與業(yè)務(wù)對象有關(guān)的數(shù)據(jù)中選擇出適合進行數(shù)據(jù)挖掘的數(shù)據(jù);數(shù)據(jù)預處理,包括進行數(shù)據(jù)清洗,數(shù)據(jù)推測,數(shù)據(jù)轉(zhuǎn)換等。數(shù)據(jù)清洗,指的是清除掉一些明顯的噪聲數(shù)據(jù),提高數(shù)據(jù)的質(zhì)量;數(shù)據(jù)推測,是因為在前面兩步中,也許會出現(xiàn)數(shù)據(jù)不全的情形,所以進行適當?shù)耐扑?補齊所需的數(shù)據(jù);數(shù)據(jù)轉(zhuǎn)換,是將數(shù)據(jù)轉(zhuǎn)換成一個分析模型,這個分析模型是針對數(shù)據(jù)挖掘算法建立的,建立一個真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵;數(shù)據(jù)轉(zhuǎn)化,則是在做完前面的步驟以后,適當?shù)目s減即將進行分析的數(shù)據(jù)庫規(guī)模,以上這些工作會直接影響到數(shù)據(jù)挖掘時的效率和準確性,同樣很重要。

3) 數(shù)據(jù)挖掘,這是整個數(shù)據(jù)挖掘過程中最重要的一步,即使用適當?shù)臄?shù)據(jù)挖掘算法對剛才處理出的數(shù)據(jù)進行分析,進而得到可能的模式模型。根據(jù)不同數(shù)據(jù)的特點以及用戶不同的需求,對同樣的任務(wù),可以選用不同的算法,目前常見的算法包括聚類算法、關(guān)聯(lián)分析、分類算法、遺傳算法等。

4) 結(jié)果評價,通過上述步驟得到的模式模型,并不一定是真實有效的,甚至可能會是和實際情況完全相反的,所以還需要對得到的結(jié)果進行評價。這一步使用的方法包括用數(shù)據(jù)代入進行驗證,也可以根據(jù)常規(guī)的經(jīng)驗進行一些判斷,一般由數(shù)據(jù)挖掘具體操作而定。如果沒有得到合適的模式模型,就需要重新選擇數(shù)據(jù),甚至需要選用其他的數(shù)據(jù)挖掘算法,因此,數(shù)據(jù)挖掘的過程往往都是一個不斷反復的過程。

5) 知識同化,完成上述步驟后,如果得到了可以接受的模式模型,就需要進一步把得出的模型形象化,運用到所需的信息系統(tǒng)中去。

3 數(shù)據(jù)挖掘的常見算法

數(shù)據(jù)挖掘常用的分析方法包括聚類算法(Cluster Algorithm)、關(guān)聯(lián)規(guī)則(Association Rules)、決策樹算法(Decision Tree Algorithm)、遺傳算法(Genetic Algorithm)等。

3.1 聚類算法

聚類是一種常見的數(shù)據(jù)分析工具,其目的是把大量數(shù)據(jù)點的集合分成若干類,使得每個類中的數(shù)據(jù)之間最大程度的相似,而不同類中的數(shù)據(jù)最大程度的不同。常見的聚類算法主要包括層次聚類算法(Hierarchical Clustering Method)、分割聚類算法 (Partitioning Clustering Method)、基于密度的方法(Density-Based Methods)、基于網(wǎng)格的方法(Grid-Based Methods)等[3]。

1) 層次聚類算法,是通過將給定的數(shù)據(jù)集組織成若干組數(shù)據(jù),并形成一個相應(yīng)的樹狀圖,進行層次式的分解,直到某種條件滿足為止,具體又可分為“自底向上”和“自頂向下”兩種算法[4]。這兩種算法的思路正好相反,前者是將每個對象都作為一個原子聚類,再進行聚合,最后得到相應(yīng)的結(jié)果,而后者是將所有對象看成一個聚類,再進行分解。CURE算法、CHAMELEON算法、BIRCH算法等是比較常用的層次聚類算法。

2) 分割聚類算法,是先將數(shù)據(jù)集分成k個分組,每一個分組就代表一個聚類,然后從這k個初始分組開始,然后通過反復迭代的方法改變分組,使得每一次改進之后的分組方案都較前一次好,最終使同一分組中的記錄越來越近,不同分組中的記錄原來越遠,從而得到最優(yōu)解。使用這一思想的主要算法有K-means算法、K-medoids算法、CLARANS算法等。

3) 基于密度的方法與其它方法的最要區(qū)別在于:它不基于各種距離,而是從數(shù)據(jù)對象的分布密度出發(fā),將密度足夠大的相鄰區(qū)域連接起來,從而可以發(fā)現(xiàn)具有任意形狀的聚類,并能有效處理異常數(shù)據(jù),它的代表算法有DBSCAN算法、OPTICS算法、DENCLUE算法等。

4) 基于網(wǎng)格的方法則是從對數(shù)據(jù)空間劃分的角度出發(fā),利用屬性空間的多維網(wǎng)格數(shù)據(jù)結(jié)構(gòu),將數(shù)據(jù)空間劃分為有限空間的單元,以構(gòu)成一個可以進行聚類分析的網(wǎng)格結(jié)構(gòu)。該方法的主要特點是處理時間與數(shù)據(jù)對象的數(shù)目無關(guān),但與每維空間劃分的單元數(shù)相關(guān),而且,這種方法還與數(shù)據(jù)的輸入順序無關(guān),可以處理任意類型的數(shù)據(jù),但是聚類的質(zhì)量和準確性降低了,它的代表算法有STING算法[5]和CLIQUE算法等。

3.2 關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘研究的重要內(nèi)容,它描述了數(shù)據(jù)庫中一組對象與另一組對象之間存在的某種關(guān)聯(lián)關(guān)系。從大量商業(yè)記錄中挖掘有趣的關(guān)聯(lián)關(guān)系,有助于許多商務(wù)決策的制定,如分類設(shè)計、交叉購物等。關(guān)聯(lián)規(guī)則是形如A=>B的蘊涵式,表示形式如pen=>ruler [支持度=20%,置信度=60%],支持度和置信度分別反映規(guī)則的有用性和確定性,這條規(guī)則就意味著所有的顧客中有20%的人同時購買了鋼筆和直尺,而買了鋼筆的顧客的60%也買了直尺。在關(guān)聯(lián)規(guī)則中,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。如果一條關(guān)聯(lián)規(guī)則同時滿足最小支持度閾值和最小置信度閾值,就認為它是有趣的,并稱為強關(guān)聯(lián)規(guī)則。

關(guān)聯(lián)規(guī)則挖掘一般分為兩步:1) 找出所有頻繁項集,即滿足最小支持度的項集;2) 從頻繁項集中產(chǎn)生強關(guān)聯(lián)規(guī)則。最為著名的關(guān)聯(lián)規(guī)則挖掘算法就是R.Agrawal和R.Srikant于1994年提出的挖掘布爾關(guān)聯(lián)規(guī)則中頻繁項集的原創(chuàng)性算法Apriori。它使用一種稱作逐層搜索的迭代方法,k項集用于探索(k+1)項集。首先,通過掃描數(shù)據(jù)庫,累積每個項的計數(shù),并收集滿足最小支持度的項,找出頻繁1項集的集合。該集合記作L1。然后,L1用于找頻繁2項集的集合L2,L2用于找L3,如此下去,直到不能找到頻繁k項集。找每個Lk需要一次數(shù)據(jù)庫全掃描。

但是,Apriori算法也有其不足之處:1) 可能產(chǎn)生大量的候選集;2) 生成每個Lk都需要重復掃描數(shù)據(jù)庫。后來,陸續(xù)出現(xiàn)了一系列Apriori算法的改進算法,以及其他的關(guān)聯(lián)規(guī)則挖掘算法,比如RIApriori算法、Apriori-improve算法、FP-growth算法等,這大大提高了關(guān)聯(lián)規(guī)則挖掘的速度和準確性,也推動了關(guān)聯(lián)規(guī)則挖掘理論的進一步發(fā)展。

3.3 決策樹算法

決策樹是一種類似于流程圖的樹結(jié)構(gòu),每個內(nèi)部節(jié)點(非樹葉節(jié)點)表示在一個屬性上測試,每個分支代表一個測試輸出,而每個樹葉節(jié)點(或終節(jié)點)存放一個類標號。決策樹算法主要圍繞決策樹的兩個階段展開:第一階段,決策樹的構(gòu)建,通過遞歸的算法將訓練集生成一棵決策樹;第二階段,由測試數(shù)據(jù)檢驗生成的決策樹,消除由于統(tǒng)計噪聲或數(shù)據(jù)波動對決策樹的影響,來達到凈化樹的目的,得到一棵正確的決策樹。常見的決策樹算法主要有ID3算法[6]、C4.5算法、CART算法、SPRINT算法等。

3.4 遺傳算法

遺傳算法是基于進化理論,并采用遺傳結(jié)合,遺傳變異,自然選擇等設(shè)計方法的一種進化計算算法的優(yōu)化算法。進化計算算法的基礎(chǔ)是生物進化,隨著時間的流逝,進化出更好的或更適應(yīng)的個體。在數(shù)據(jù)挖掘中,遺傳算法可以用于評估聚類、關(guān)聯(lián)規(guī)則等算法的適合度。在應(yīng)用遺傳算法解決問題時,最困難的一步應(yīng)該是怎樣將問題建模成一組個體的集合,然后在計算中,首先假設(shè)一個初始模型,然后對其反復進行雜交技術(shù)和變異技術(shù)的算法,最后用適應(yīng)度函數(shù)確定初始集合中應(yīng)該保留的那個最優(yōu)個體。這個算法的優(yōu)點在于容易并行化,但是對問題進行建模很困難,雜交變異過程以及適應(yīng)度函數(shù)也很難確定。

4 結(jié)束語

隨著數(shù)據(jù)量的積累和數(shù)據(jù)庫種類的多樣化,數(shù)據(jù)挖掘的應(yīng)用前景非常的廣闊,從上面對各種常見算法的歸納可以看出,每種算法都有局限性,很難采用單一的方法解決相應(yīng)的問題,因此,多方法融合將成為數(shù)據(jù)挖掘未來的發(fā)展趨勢。

參考文獻:

[1] 韓家煒,堪博.數(shù)據(jù)挖掘:概念與技術(shù)[M].2版.范明,孟小峰,譯.北京:機械工業(yè)出版社,2007.

[2] 曾瑩,陳曉.數(shù)據(jù)挖掘及算法淺談[J].中國科技信息,2005(14):75.

[3] 鄒志文,朱金偉.數(shù)據(jù)挖掘算法研究與綜述[J].計算機工程與設(shè)計,2005,26(9):2304-2307.

[4] 賀玲,吳玲達,蔡益朝.數(shù)據(jù)挖掘中的聚類算法綜述[J].計算機應(yīng)用研究,2007(1):10-13.

[5] Wang W,Yang J,Muntz R.STING:A statistical information grid approach to spetial data mining[C].Twenty―third international conference on very large data bases,l997.

[6] Quinlan J R.Introduction of decision trees[J].Machine Leaming,1986(1):81-106.

第4篇:數(shù)據(jù)挖掘技術(shù)范文

關(guān)鍵詞:Web數(shù)據(jù)挖掘;挖掘過程;挖掘技術(shù)

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2009)15-3852-02

The Summary of Web Mining Technology

PAN Zheng-gao1,2

(1.School of Information and Computer,Hefei University of Technology,Hefei 230009,China;2.the Lab of Artificial Intelligence and Data Mining,Suzhou University,Suzhou 234000,China)

Abstract:WWW contains abundant information,as a enormous,extensive and global service center of information.Web Mining can be assumed speedinessly and effectively the information what we needed.This text introduce the types,procession and technologys of Web Mining,except the foreground of it's application.Those work based on the basic concept and characteristic of Web Mining.

Key words:Web Mining; Mining Course; Mining Technology

1 引言

隨著Internet的發(fā)展,Web信息迅速膨脹,如何從海量的Web信息中快速和準確地獲取有用信息已經(jīng)成為近幾年數(shù)據(jù)挖掘領(lǐng)域研究的熱點。Web上的數(shù)據(jù)與其他的數(shù)據(jù)相比較存在著明顯的特點,這些特點使得Web挖掘在方法和技術(shù)方面與傳統(tǒng)的數(shù)據(jù)挖掘有著顯著的不同。

2 Web數(shù)據(jù)挖掘的概念

Web數(shù)據(jù)挖掘(Web Mining),簡稱Web挖掘,是由Oren Etzioni在1996年首先提出的[1]。它是數(shù)據(jù)挖掘技術(shù)和Internet應(yīng)用研究相結(jié)合的研究領(lǐng)域。一般,對Web數(shù)據(jù)挖掘定義如下:Web數(shù)據(jù)挖掘是指Web從文檔結(jié)構(gòu)和使用的集合C中發(fā)現(xiàn)隱含的模式P。如果將C看作輸入,P看作輸出,則Web挖掘的過程就是從輸入到輸出的一個映射[2]。

Web挖掘是指從大量的Web數(shù)據(jù)中發(fā)現(xiàn)新穎的、潛在可用的及最終可以理解的知識(包括概念、模式、規(guī)則、規(guī)律、約束及可視化等形式)的非平凡過程。Web挖掘是數(shù)據(jù)挖掘技術(shù)和Internet應(yīng)用研究相結(jié)合的產(chǎn)物,其涉及的技術(shù)覆蓋了多個研究領(lǐng)域,包括數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計學、機器學習、神經(jīng)網(wǎng)絡(luò)等。

3 Web數(shù)據(jù)的特點[3]

1) 異構(gòu)數(shù)據(jù)庫環(huán)境。Web上的每一個站點就是一個數(shù)據(jù)源,每個數(shù)據(jù)源都是異構(gòu)的,因而每一站點的信息和組織都不一樣,這就構(gòu)成了一個巨大的異構(gòu)數(shù)據(jù)庫。

2) 分布式數(shù)據(jù)源。Web頁面散布在世界各地的Web服務(wù)器上,形成了分布式數(shù)據(jù)源。

3) 半結(jié)構(gòu)化。半結(jié)構(gòu)化是Web上數(shù)據(jù)的最大特點。Web上的數(shù)據(jù)非常復雜,沒有特定的模型描述,是一種非完全結(jié)構(gòu)化的數(shù)據(jù),稱之為半結(jié)構(gòu)化數(shù)據(jù)。

4) 動態(tài)性強。Web是一個動態(tài)性極強的信息源,信息不斷地快速更新,各站點的鏈接信息和訪問記錄的更新非常頻繁。

5) 多樣復雜性。Web包含了各種信息和資源,有文本數(shù)據(jù)、超文本數(shù)據(jù)、圖表、圖像、音頻數(shù)據(jù)和視頻數(shù)據(jù)等多種多媒體數(shù)據(jù)。

4 Web數(shù)據(jù)挖掘的分類

Web挖掘技術(shù)根據(jù)挖掘的方向一般分為三類:Web內(nèi)容挖掘,Web結(jié)構(gòu)挖掘和Web使用記錄的挖掘。

4.1 Web內(nèi)容挖掘(WCM,Web Content Mining)

Web內(nèi)容挖掘是指從大量的Web數(shù)據(jù)中發(fā)現(xiàn)信息、抽取知識的過程。這些Web數(shù)據(jù)的形式有Web頁面、Web頁面上各種鏈接所指向的內(nèi)容以及網(wǎng)絡(luò)數(shù)據(jù)庫里的數(shù)據(jù)等。從內(nèi)容方面,Web內(nèi)容挖掘可分為Web文本挖掘和Web多媒體挖掘,它們的不同在于提取的特征不同。從方法上,Web內(nèi)容挖掘可分為數(shù)據(jù)庫方法和信息抽取方法。

4.2 Web結(jié)構(gòu)挖掘(WSM,Web Structure Mining)

Web結(jié)構(gòu)挖掘是從Web的組織結(jié)構(gòu)、Web文檔結(jié)構(gòu)與其鏈接關(guān)系中挖掘潛在的知識和模式。通過對Web結(jié)構(gòu)的分析,可以發(fā)現(xiàn)頁面結(jié)構(gòu)和鏈接關(guān)系中所蘊涵的有用模式;也可以對頁面及其鏈接進行分類和聚類,發(fā)現(xiàn)權(quán)威頁面。有關(guān)這方面的算法研究成果有:Page-rank、HITS(Hyperlink-Induced Topic Search)及改進的HITS(將內(nèi)容信息加入到鏈接結(jié)構(gòu)中去)、Hub/authority(Kleinberg,1998)[4]。

4.3 Web使用挖掘(WUM,Web Usage Mining)

Web使用挖掘是應(yīng)用數(shù)據(jù)挖掘技術(shù)從Web數(shù)據(jù)中發(fā)現(xiàn)用戶訪問模式的過程[5]。它可以幫助我們提高Internet信息服務(wù)的質(zhì)量,改進Web服務(wù)器的系統(tǒng)性能和結(jié)構(gòu)。

5 Web數(shù)據(jù)挖掘過程

Web數(shù)據(jù)挖掘過程是一個完整的KDD過程,但是與傳統(tǒng)的數(shù)據(jù)和數(shù)據(jù)倉庫相比,Web上的信息是非結(jié)構(gòu)化或半結(jié)構(gòu)化的、動態(tài)的、并且是容易造成混淆的,所以很難直接以Web網(wǎng)頁上的數(shù)據(jù)進行數(shù)據(jù)挖掘,而必須經(jīng)過必要的數(shù)據(jù)處理。典型Web挖掘的處理流程如圖1所示,包括如下四個過程:

1) 查找資源:根據(jù)挖掘目的,從Web資源中提取相關(guān)數(shù)據(jù),構(gòu)成目標數(shù)據(jù)集,Web數(shù)據(jù)挖掘主要從這些數(shù)據(jù)通信中進行數(shù)據(jù)提取。其任務(wù)是從目標Web數(shù)據(jù)(包括Web文檔、電子郵件、電子文檔、新聞組、網(wǎng)站日志、網(wǎng)絡(luò)數(shù)據(jù)庫中的數(shù)據(jù)等)中得到數(shù)據(jù)。

2) 數(shù)據(jù)預處理:在進行Web挖掘之前對“雜質(zhì)”數(shù)據(jù)進行過濾,例如消除數(shù)據(jù)的不一致性;將多個數(shù)據(jù)源中的數(shù)據(jù)統(tǒng)一為一個數(shù)據(jù)存儲等。預處理數(shù)據(jù)的效果直接影響到挖掘算法產(chǎn)生的規(guī)則和模式。數(shù)據(jù)預處理主要包括站點識別、數(shù)據(jù)選擇、數(shù)據(jù)凈化、用戶識別和會話識別等。

3) 模式發(fā)現(xiàn):利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的及最終可以理解的信息和知識。常用的模式發(fā)現(xiàn)技術(shù)包括:路徑分析、關(guān)聯(lián)規(guī)則挖掘、時序模式發(fā)現(xiàn)、聚類和分類等技術(shù)。

4) 模式分析:利用合適的工具和技術(shù)對挖掘出來的模式進行分析、解釋、可視化,把發(fā)現(xiàn)的規(guī)則模式轉(zhuǎn)換為知識。

6 常用的數(shù)據(jù)挖掘技術(shù)

6.1 路徑分析技術(shù)

我們通常采用圖的方法來分析Web頁面之間的路徑關(guān)系。G=(V,E),其中:V是頁面的集合,E是頁面之間的超鏈接集合,頁面定義為圖中的頂點,而頁面間的超鏈接定義為圖中的有向邊。頂點v的入邊表示對v的引用,出邊表示v引用了其他的頁面,這樣形成網(wǎng)站的結(jié)構(gòu)圖,從圖中可以確定最頻繁的訪問路徑。路徑分析技術(shù)常用于進行改進站點的結(jié)構(gòu)。如70%的用戶訪問/company/product時,是從/company開始,經(jīng)過/company/new/company/products/company/product。此時可以將路徑放在比較顯著的地方,方便了用戶訪問,也提高了該產(chǎn)品的點擊率。

6.2 關(guān)聯(lián)規(guī)則技術(shù)

關(guān)聯(lián)規(guī)則挖掘技術(shù)主要用于從用戶訪問序列數(shù)據(jù)庫的序列項中挖掘出相關(guān)的規(guī)則,就是要挖掘出用戶在一個訪問期限(Session),從服務(wù)器上訪問的頁面文件之間的聯(lián)系,這些頁面之間并不存在直接的參引(Reference)關(guān)系。使用關(guān)聯(lián)規(guī)則可以發(fā)展很多相關(guān)信息或產(chǎn)品服務(wù)。例如:某信息A和B,同時被很多用戶瀏覽,則說明A和B有可能相關(guān)。同時點擊的用戶越多,其相關(guān)度就可能越高。系統(tǒng)可以利用這種思想為用戶推薦相關(guān)信息或產(chǎn)品服務(wù)。如當當電子書店就采用了這一模式用以推薦相關(guān)書目。當你選擇某本圖書時,系統(tǒng)會自動給你推薦信息,告知“很多讀者在購買此書時還購買的其他書目”。ACM數(shù)字圖書館也采用了這一思想,推出信息推薦服務(wù)“Peer to Peer”。

6.3 序列模式挖掘技術(shù)

序列模式數(shù)據(jù)挖掘技術(shù)就是要挖掘出交易集之間的有時間序列關(guān)系的模式。它與關(guān)聯(lián)挖掘技術(shù)都是從用戶訪問下的日志中尋找用戶普遍訪問的規(guī)律,關(guān)聯(lián)挖掘技術(shù)注重事務(wù)內(nèi)的關(guān)系,而序列模式技術(shù)則注重事務(wù)之間的關(guān)系。發(fā)現(xiàn)序列模式,便于預測用戶的訪問模式,有助于開展基于這種模式的有針對性的廣告服務(wù)。依賴于發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則和序列模式,能夠在服務(wù)器方動態(tài)地創(chuàng)立特定的有針對性的頁面,以滿足訪問者的特定需求。

6.4 聚類分類技術(shù)

分類規(guī)則可挖掘出某些共同的特性,而這一特性可對新添加到數(shù)據(jù)庫中的數(shù)據(jù)項進行分類。在Web數(shù)據(jù)挖掘中,分類技術(shù)可根據(jù)訪問用戶而得到個人信息、共同的訪問模式以及訪問某一服務(wù)器文件的用戶特征。而聚類技術(shù)則是對符合某一訪問規(guī)律特征的用戶進行用戶特征挖掘。發(fā)現(xiàn)分類規(guī)則可以識別一個特殊群體的公有屬性的描述,這種描述可以用于分類新的檢索。如政府機關(guān)的用戶一般感興趣的頁面是/company/product。聚類可以從Web訪問信息數(shù)據(jù)庫中聚集出具有相似特性的用戶群。在Web事務(wù)日記中聚類用戶信息或數(shù)據(jù)項能夠便于開發(fā)和執(zhí)行未來的市場戰(zhàn)略。這些事務(wù)信息可以用在:在找出用戶共同興趣后,進行合作式信息推薦,共同體的成員可以互相推薦新的滾動信息;自動給一個特定的用戶聚類發(fā)送銷售郵件,為用戶聚類動態(tài)地改變一個特殊的站點等。

7 Web挖掘的研究熱點[6]

在未來一段時間內(nèi),Web挖掘研究的焦點可能會集中到以下幾個方面:

1) 高性能Web搜索引擎。盡管搜索引擎性能已有了較大提高,但搜索引擎的最終目標是“理解用戶需求精確返回所需”,如何翻譯用戶的非專業(yè)搜索請求,實現(xiàn)自然語言處理,涉及興趣爬蟲、元搜索引擎、垂直搜索、移動搜索和多媒體搜索等方面的研究。

2) Web數(shù)據(jù)的特征描述與監(jiān)控。如何表示W(wǎng)eb文本內(nèi)容的特征數(shù)據(jù),如何表示和識別Web中的圖像、flash等多媒體數(shù)據(jù),進而進行網(wǎng)頁分類、內(nèi)容跟蹤、過濾和報警等,對于不良網(wǎng)站的監(jiān)控等有著積極意義。

3) Web數(shù)據(jù)的獲取與集成。包括Web文本特征的提取和表示,如何用一種廣泛兼容的半結(jié)構(gòu)化數(shù)據(jù)模型表示網(wǎng)頁;如何抽取動態(tài)網(wǎng)頁中的數(shù)據(jù);如何在分布的Web中獲取信息;如何在指定網(wǎng)頁中快速定位所需的數(shù)據(jù)區(qū);如何利用數(shù)據(jù)庫和數(shù)據(jù)倉庫技術(shù)查詢和存儲Web內(nèi)容等。

4) Web數(shù)據(jù)流挖掘。Web日志、cookie、點擊流等流式數(shù)據(jù)量巨大,如何識別和過濾爬蟲的訪問信息;如何有效收集和處理日志以外的訪問數(shù)據(jù);如何有效標識用戶、設(shè)置用戶會話時間等。

5) 安全與非法訪問檢測。如何評價Web數(shù)據(jù)信息本身的可靠和安全性;如何對Web內(nèi)容、郵件、各種日志和用戶訪問行為的分析,識別出威脅、欺詐、入侵、無用的數(shù)據(jù)和異常行為,從而構(gòu)建安全的網(wǎng)絡(luò)環(huán)境。

6) 個性化與安全隱患。如何跟蹤、學習和表達多變的用戶興趣及行為模式,在個性化服務(wù)中過濾信息,實現(xiàn)商業(yè)應(yīng)用,在提醒個性化服務(wù)時不侵犯用戶隱私等都是亟待決的問題。

7) 基于Web的模式分析技術(shù)和工具。如何將Web挖掘的結(jié)果在瀏覽器中可視化地表達,包括統(tǒng)計、關(guān)聯(lián)、聚類、分類等工具開發(fā)等。

8) Web挖掘的算法改進與質(zhì)量評估。由于Web數(shù)據(jù)本身的特點,使得Web挖掘不能照搬數(shù)據(jù)挖掘的理論和技術(shù),而需要對現(xiàn)有的算法等方面都進行改進。Web挖掘算法和挖掘系統(tǒng)的性能通常需要大量用戶的反饋,實際運行測試,因而缺乏有效的評價模式。

9) Web挖掘在社會領(lǐng)域的應(yīng)用。Web已經(jīng)是人類社會活動的一面鏡子,如何在Web中發(fā)現(xiàn)社會現(xiàn)象、問題和熱點的規(guī)律,為社會學家、經(jīng)濟學家、教育學者提供有價值的知識。

此外,分布式Web挖掘、語義Web挖掘、無線網(wǎng)絡(luò)下的Web挖掘、Web2.0時代的Web挖掘、多語言環(huán)境下的Web挖掘等是值得研究的方向。同時,Web挖掘技術(shù)應(yīng)用于具體領(lǐng)域的研究將持續(xù)受到關(guān)注,例如,銀行證券、企業(yè)ERP、醫(yī)療衛(wèi)生、農(nóng)業(yè)、電子商務(wù)、網(wǎng)絡(luò)教學、BLOG等。

8結(jié)束語

Web挖掘技術(shù)是一個新興的研究領(lǐng)域,對它的研究和應(yīng)用正在成為一個熱點。伴隨著Internet的快速發(fā)展,Web挖掘技術(shù)的研究和發(fā)展將會迎來更好的契機。

參考文獻:

[1]EtzioniO.The World Wide Web:Quagmire or goldmine[J]. Communication of the ACM, 1996, 39(11).

[2]王玉珍.Web數(shù)據(jù)挖掘的分析與探索[J].計算機發(fā)展與應(yīng)用,2003;(4).

[3]張藝雪.Web上的數(shù)據(jù)挖掘及應(yīng)用[J].信息科技,2007;(3)115-116.

[4]Wang K , Zhou S, Liew S C. Building hierarchical classifiers using class proximity [C]. In: proc of VLDB’97, Edinburgh, UK, 1999:363-374.

第5篇:數(shù)據(jù)挖掘技術(shù)范文

【關(guān)鍵詞】數(shù)據(jù)倉庫 數(shù)據(jù)挖掘 技術(shù) 應(yīng)用

信息時代背景下,傳統(tǒng)數(shù)據(jù)庫主要是面向事務(wù)并存儲在線交易的數(shù)據(jù)信息,但是無法為人們找到信息中隱藏的重要內(nèi)容。因此社會發(fā)展新形勢下,數(shù)據(jù)倉庫與挖掘技術(shù)應(yīng)運而生,并成為企業(yè)現(xiàn)代化發(fā)展的重要應(yīng)用技術(shù),不僅能夠提高數(shù)據(jù)信息管理能力,還能夠促進企業(yè)發(fā)展。因此加強對該課題的研究具有積極意義。

1 數(shù)據(jù)倉庫及數(shù)據(jù)挖掘技術(shù)概念

所謂數(shù)據(jù)倉庫技術(shù)設(shè)計靈感來自于傳統(tǒng)數(shù)據(jù)庫技術(shù),其主要是在計算機中實現(xiàn)數(shù)據(jù)存儲的一種技術(shù)。但是相比較傳統(tǒng)數(shù)據(jù)庫,二者存在本質(zhì)上的差別。數(shù)據(jù)倉庫的出現(xiàn)并未取代傳統(tǒng)數(shù)據(jù)庫,二者共存在信息時代,且發(fā)揮自身獨特的優(yōu)勢。數(shù)據(jù)庫主要存儲在線交易數(shù)據(jù),且盡量避免冗余,通常采取符合范式規(guī)則設(shè)計;而數(shù)據(jù)倉庫在設(shè)計過程中有意引入冗余,采取反范式方式實現(xiàn)設(shè)計目標。

而數(shù)據(jù)挖掘技術(shù)是在數(shù)據(jù)集合基礎(chǔ)之上,從中抽取隱藏在數(shù)據(jù)當中的有用信息的非平凡過程。這些信息表現(xiàn)形式呈現(xiàn)多樣化,如概念、規(guī)則等。它在具體應(yīng)用過程中,不僅能夠幫助決策者分析歷史與當前數(shù)據(jù)信息,還具有預見作用。就本質(zhì)上來看,數(shù)據(jù)挖掘過程也是知識發(fā)現(xiàn)的過程。數(shù)據(jù)挖掘技術(shù)是多個學科綜合的結(jié)果,對此其融合了多項技術(shù)功能,如聚類、分類及預測等,且這些功能并非獨立存在,而是存在相互依存關(guān)系。

2 數(shù)據(jù)倉庫與挖掘技術(shù)的應(yīng)用

2.1 數(shù)據(jù)倉庫技術(shù)的應(yīng)用

作為信息提供平臺,其從業(yè)務(wù)處理系統(tǒng)中獲得數(shù)據(jù),并以星型與雪花模型實現(xiàn)對數(shù)據(jù)的有效組織。一般情況下,它具體應(yīng)用主要表現(xiàn)在四個方面:

2.1.1 抽取數(shù)據(jù)信息

數(shù)據(jù)倉庫具有獨立性,在應(yīng)用中需要從事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源等介質(zhì)當中獲取數(shù)據(jù),并設(shè)置定時抽取,但需要合理控制操作時間、順序等,以提高數(shù)據(jù)信息有效性。

2.1.2 存儲和管理數(shù)據(jù)

作為數(shù)據(jù)倉庫的關(guān)鍵,數(shù)據(jù)存儲及管理模式直接決定其自身特性。因此該方面工作需要從技術(shù)特點入手,并積極解決對各項業(yè)務(wù)并行處理、查詢優(yōu)化等問題。

2.1.3 表現(xiàn)數(shù)據(jù)

數(shù)據(jù)表現(xiàn)作為數(shù)據(jù)倉庫的開端,集中在多位分析、數(shù)理統(tǒng)計等多個方面。其中多維分析是數(shù)據(jù)倉庫的核心,也是具體表現(xiàn)形式,而通過數(shù)據(jù)統(tǒng)計能夠幫助企業(yè)抓住機遇,實現(xiàn)經(jīng)濟效益最大化目標。

2.1.4 技術(shù)咨詢

數(shù)據(jù)倉庫的出現(xiàn)及應(yīng)用并不簡單,其是一個系統(tǒng)性的解決方案和工程。實施數(shù)據(jù)倉庫時,技術(shù)咨詢服務(wù)十分重要,是一個必不可少的部分,對此在應(yīng)用中,應(yīng)加強對技術(shù)咨詢的關(guān)注力度。

2.2 數(shù)據(jù)挖掘技術(shù)在各領(lǐng)域中的應(yīng)用

不同于傳統(tǒng)時代,社會各領(lǐng)域在參與激烈的市場競爭過程中,充分認識到數(shù)據(jù)對自身長遠發(fā)展戰(zhàn)略實現(xiàn)的重要性。因此數(shù)據(jù)挖掘技術(shù)在當前各行業(yè)發(fā)展中隨處可見。

2.2.1 應(yīng)用于醫(yī)學方面,提高診斷準確率

眾所周知,人體奧秘無窮無盡,遺傳密碼、人類疾病等方面都蘊含了海量數(shù)據(jù)信息。而傳統(tǒng)研究模式,單純依靠人工無法真正探索真正的秘密。而利用數(shù)據(jù)挖掘技術(shù)能夠有效解決這些問題,給醫(yī)療工作者帶來了極大的便利。同時,醫(yī)療體制改革背景下,醫(yī)院內(nèi)部醫(yī)療器具的管理、病人檔案資料整理等方面同樣涉及數(shù)據(jù),引進數(shù)據(jù)挖掘技術(shù),能夠深入分析疾病之間的聯(lián)系及規(guī)律,幫助醫(yī)生診斷和治療,以達到診斷事半功倍的目標,且為保障人類健康等提供強大的技術(shù)支持。

2.2.2 應(yīng)用于金融方面,提高工作有效性

銀行及金融機構(gòu)中涉及儲蓄、信貸等大量數(shù)據(jù)信息。利用數(shù)據(jù)挖掘技術(shù)管理和應(yīng)用這些數(shù)據(jù)信息,能夠幫助金融機構(gòu)更好地適應(yīng)互聯(lián)網(wǎng)金融時代的發(fā)展趨勢。提高金融數(shù)據(jù)完整、可靠性,為金融決策提供科學依據(jù)。金融市場變幻莫測,要想在競爭中提升自身核心競爭力,需要對數(shù)據(jù)進行多維分析和研究。在應(yīng)用中,特別是針對偵破洗黑錢等犯罪活動,可以采取孤立點分析等工具進行分析,為相關(guān)工作有序開展奠定堅實的基礎(chǔ)。

2.2.3 應(yīng)用于高校日常管理方面,實現(xiàn)高校信息化建設(shè)

當前,針對高校中存在的貧困大學生而言,受到自身家庭等因素的影響,他們學業(yè)與生活存在很多困難。而高校給予了貧困生很多幫助。對此將數(shù)據(jù)挖掘技術(shù)引入到貧困生管理工作中,能夠?qū)⑿?nèi)貧困生群體作為主要研究對象,采集和存儲在校生生活、學習等多方面信息,然后構(gòu)建貧困生認定模型,并將此作為基礎(chǔ)進行查詢和統(tǒng)計,為貧困生針對管理工作提供技術(shù)支持,從而提高高校學生管理實務(wù)效率,促進高校和諧、有序發(fā)展。

2.2.4 應(yīng)用于電信方面,實現(xiàn)經(jīng)濟效益最大化目標

現(xiàn)代社會發(fā)展趨勢下,電信產(chǎn)業(yè)已經(jīng)不僅限于傳統(tǒng)意義上的電話服務(wù)提供商、而將語言、電話等有機整合成為一項數(shù)據(jù)通信綜合業(yè)務(wù)。電信網(wǎng)、因特網(wǎng)等網(wǎng)絡(luò)融合已經(jīng)成為必然趨勢,并將成為未來發(fā)展的主要方向。在大融合影響下,數(shù)據(jù)挖掘技術(shù)應(yīng)用能夠幫助運營商業(yè)務(wù)運作,如利用多維分析電信數(shù)據(jù);或者采取聚類等方法查找異常狀態(tài)及盜用模式等,不斷提高數(shù)據(jù)資源利用率,更為深入地了解用戶行為,促進電信業(yè)務(wù)的推廣及應(yīng)用,從而實現(xiàn)經(jīng)濟效益最大化目標。

3 結(jié)論

根據(jù)上文所述,數(shù)據(jù)倉庫與挖掘技術(shù)作為一項新型技術(shù),在促進相關(guān)產(chǎn)業(yè)發(fā)展等方面占據(jù)十分重要的位置。因此在具體應(yīng)用中,除了要積極明確數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫之間的差別之外,還應(yīng)切實結(jié)合實際情況,積極引入數(shù)據(jù)挖掘技術(shù),充分挖掘和探索數(shù)據(jù)信息中的重要內(nèi)容,為制定科學決策提供支持,同時還應(yīng)加大對技術(shù)的深度研究,不斷提高技術(shù)應(yīng)用水平,從而為用戶帶來更大的利益。

參考文獻

[1]陳宏.淺談數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J].科技廣場,2011,09:90-93.

[2]崔愿星.淺析數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的應(yīng)用[J].內(nèi)江科技,2014,01:141-142.

[3]王慧.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘在醫(yī)院信息系統(tǒng)中的應(yīng)用[J].電腦開發(fā)與應(yīng)用,2014,01:76-78.

[4]靳鑫.淺析數(shù)據(jù)倉庫和數(shù)據(jù)挖掘[J].中國新通信,2012,11:29-31.

第6篇:數(shù)據(jù)挖掘技術(shù)范文

數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進而預測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程。

二、數(shù)據(jù)挖掘的方法

1.統(tǒng)計方法。傳統(tǒng)的統(tǒng)計學為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預測變量集的對數(shù)回歸、統(tǒng)計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。

2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實際應(yīng)用價值,要對這些規(guī)則要進行有效的評價,篩選有意義的關(guān)聯(lián)規(guī)則。

3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標準將其劃分成幾個組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數(shù)據(jù)的聚類趨勢進行檢驗。

4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數(shù)的方法,通過把實例從根結(jié)點排列到某個葉子結(jié)點來分類實例,葉子結(jié)點即為實例所屬的分類。樹上的每個結(jié)點說明了對實例的某個屬性的測試,該結(jié)點的每一個后繼分支對應(yīng)于該屬性的一個可能值,分類實例的方法是從這棵樹的根結(jié)點開始,測試這個結(jié)點指定的屬性,然后按照給定實例的該屬性值對應(yīng)的樹枝向下移動。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。

5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學習的數(shù)學模型基礎(chǔ)之上,能夠?qū)Υ罅繌碗s的數(shù)據(jù)進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應(yīng)能力的種種優(yōu)點。

6.遺傳算法。遺傳算法是一種受生物進化啟發(fā)的學習方法,通過變異和重組當前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個部分,來更新當前群體的一組假設(shè),來實現(xiàn)各個個體的適應(yīng)性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應(yīng)的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

8.支持向量機。支持向量機(SVM)是在統(tǒng)計學習理論的基礎(chǔ)上發(fā)展出來的一種新的機器學習方法。它基于結(jié)構(gòu)風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現(xiàn)已成為訓練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。

事實上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

三、結(jié)束語

目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。

參考文獻:

蘇新寧楊建林鄧三鴻等:數(shù)據(jù)挖掘理論與技術(shù)[M].北京:科學技術(shù)文獻出版社,2003

第7篇:數(shù)據(jù)挖掘技術(shù)范文

[關(guān)鍵詞] 數(shù)據(jù)挖掘 商業(yè)決策 數(shù)據(jù)分析

一、應(yīng)用數(shù)據(jù)挖掘技術(shù)支撐商業(yè)管理理念的實施

商業(yè)管理理論及理念的研究一直沒有停歇,那面是“二八原則”,這面又是“藍平長二”,無論是什么,其宗旨都是為使企業(yè)能在激烈的商業(yè)競爭中審時度勢,迅速出擊,知己知彼,百戰(zhàn)不殆。任何好的商業(yè)決策都必須及時、準確,有真實可靠的事實與數(shù)據(jù)為依據(jù)。商業(yè)組織如果感覺不靈敏,很容易陷入“夜半臨深池”的危險境地卻不自知,有先進的管理理念也無濟于事。面對日益復雜的競爭環(huán)境,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。

數(shù)據(jù)挖掘技術(shù)基于人工智能、機器學習、統(tǒng)計學等技術(shù),可高度自動化地從深層次上分析商業(yè)組織在運營過程中積累的海量業(yè)務(wù)數(shù)據(jù),抽取重要信息,使商業(yè)組織大大提高認知其組織內(nèi)外環(huán)境的能力,靈活應(yīng)對突發(fā)事件,迅速制定合理決策,使先進的商業(yè)管理理念落到實處。

二、數(shù)據(jù)挖掘功能及其所能解決的典型商業(yè)問題

1.關(guān)聯(lián)分析

關(guān)聯(lián)分析是從大量的數(shù)據(jù)中發(fā)現(xiàn)項集之間相關(guān)關(guān)系或因果結(jié)構(gòu)的數(shù)據(jù)分析方法。通過對大量銷售數(shù)據(jù)的分析,可以發(fā)現(xiàn)兩種或多種商品之間存在的關(guān)聯(lián)關(guān)系,據(jù)此可改變商品的擺放位置,制定捆綁銷售等策略。亞馬遜及當當?shù)荣徫锞W(wǎng)站在用戶選擇商品后及時給出的其他商品的推介就是利用關(guān)聯(lián)分析得到的。

2.分類與預測

分類與預測是通過對當前數(shù)據(jù)集合的描述以識別未知數(shù)據(jù)的歸屬或預測未來數(shù)據(jù)的發(fā)展趨勢。通過對大量銷售數(shù)據(jù)的分析,可以確定特定客戶的興趣、消費習慣、消費傾向和消費需求,進而推斷其下一步的消費行為,據(jù)此進行定向營銷和推送服務(wù),必將大大節(jié)省營銷成本,獲得良好的營銷收益。

3.聚類分析

聚類就是按照事物的某些屬性把事物聚集成類。聚類之前類的數(shù)量及類的特征都是未知的。應(yīng)用聚類技術(shù)能發(fā)現(xiàn)不同客戶群并刻畫出客戶群的特征,據(jù)此制定營銷策略和客戶服務(wù)策略,如超市根據(jù)客戶聚集地中心點制定班車路線,制定商品宣傳策略等。

4.孤立點分析

數(shù)據(jù)庫中包含的與其他數(shù)據(jù)行為或模型不一致的數(shù)據(jù)對象稱為孤立點,在數(shù)據(jù)庫中查找識別孤立點的技術(shù)即為孤立點分析。在銀行、電信等行業(yè)的業(yè)務(wù)數(shù)據(jù)中發(fā)現(xiàn)的孤立點可能預示著欺詐行為,盡早識別,可以為企業(yè)減少不必要的經(jīng)濟損失。另外可用于網(wǎng)絡(luò)的入侵檢測,生態(tài)系統(tǒng)的失調(diào)檢測,特殊病種檢測等。

5.時序演變分析

時序演變分析是建立事件或?qū)ο笮袨殡S時間變化的規(guī)律或趨勢的模型。據(jù)此方法利用股市交易信息可分析股市的波動趨勢,利用商業(yè)交易信息可分析出產(chǎn)品的銷量變化趨勢、目標市場發(fā)展趨勢等,利用天氣狀況數(shù)據(jù)可分析天氣的變化趨勢等。

6.文本信息抽取

文本信息抽取是從非結(jié)構(gòu)化的文本中提取重要信息的過程。利用該技術(shù)可獲取競爭情報,可從新聞等文本中動態(tài)抽取日期、地點和人物等信息,并借助關(guān)聯(lián)分析方法進一步識別出產(chǎn)品、企業(yè)、人、事件和地點之間的關(guān)系,使企業(yè)對競爭環(huán)境的感知更敏銳。

7.Web挖掘

Web挖掘是指從網(wǎng)絡(luò)環(huán)境中提取有價值信息的過程。如搜索引擎的應(yīng)用;如分析網(wǎng)站的參觀者和購買者的高頻率瀏覽路徑,以確定用戶對某產(chǎn)品的需求,發(fā)現(xiàn)用戶的個人喜好,發(fā)現(xiàn)用戶的去留傾向……據(jù)此可改變網(wǎng)頁的設(shè)置,為用戶提供個性化服務(wù),改變受歡迎產(chǎn)品的經(jīng)營和宣傳策略等。

三、數(shù)據(jù)挖掘流程及所面對的問題

數(shù)據(jù)挖掘流程可描述為“數(shù)據(jù)選擇數(shù)據(jù)預處理數(shù)據(jù)挖掘模式評估知識表示”。

數(shù)據(jù)挖掘首先根據(jù)分析目標從數(shù)據(jù)源中選取與業(yè)務(wù)相關(guān)的數(shù)據(jù)。數(shù)據(jù)源是存儲業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)庫或數(shù)據(jù)倉庫。選取的數(shù)據(jù)通常會存在不完整、含噪聲(錯誤數(shù)據(jù))、不一致等問題,需要預處理數(shù)據(jù)使數(shù)據(jù)適合于挖掘。在這一過程中元數(shù)據(jù)起了非常重要的作用。

數(shù)據(jù)挖掘之前必須選定數(shù)據(jù)挖掘模型,即先做出某種假定,關(guān)聯(lián)分析、聚類分析及分類與預測為不同的挖掘模型。分析商品銷售數(shù)據(jù)時假定其中某些商品具有相關(guān)性,則選擇關(guān)聯(lián)分析模型,若挖掘的結(jié)果找到了產(chǎn)品A的購買帶來產(chǎn)品B的購買則是具體的模式。最終需要評測這種模式是不是真實有效且對商業(yè)決策有指導意義(模型評估,利用興趣度度量加人的識別),保留有意義的模型,并用一種用戶容易理解的方式表達出來(知識表示)。

數(shù)據(jù)的選擇和預處理會直接影響數(shù)據(jù)挖掘的結(jié)果。另外任何一種挖掘模型和挖掘算法都不是萬能的,不同的商業(yè)問題需要用不同的方法去解決。對于特定的商業(yè)問題和特定數(shù)據(jù)可能有多種算法,需要評估以選取最佳算法。

四、總結(jié)

數(shù)據(jù)挖掘作為正在興起并得到廣泛應(yīng)用的信息技術(shù)具有巨大的商業(yè)價值,特別是在銀行、電信、保險、交通、網(wǎng)上商城、超市等商業(yè)領(lǐng)域都有很好的表現(xiàn)。數(shù)據(jù)挖掘技術(shù)可以組織并深層次分析企業(yè)積累的海量業(yè)務(wù)數(shù)據(jù),預測客戶行為,預測產(chǎn)品狀況,預測市場走勢,幫助決策者正確判斷即將出現(xiàn)的機會,調(diào)整策略,減少風險。因此利用數(shù)據(jù)挖掘技術(shù)必將大大提高商業(yè)組織利用信息的能力,使得信息更好地為決策服務(wù)。

但數(shù)據(jù)挖掘不是萬能的,在實際應(yīng)用中還要受到許多限制。有足夠的合適的數(shù)據(jù),選擇恰當?shù)哪P秃退惴ǎ袥Q策者的支持等都是有效應(yīng)用數(shù)據(jù)挖掘技術(shù)的必要條件。

參考文獻:

[1]李佩鈺等:藍平長二 商業(yè)理論洛陽紙貴,biz.省略

[2]欒世武:數(shù)據(jù)挖掘給企業(yè)應(yīng)用帶來什么,省略ki.省略

第8篇:數(shù)據(jù)挖掘技術(shù)范文

[關(guān)鍵詞]計算機;數(shù)據(jù);挖掘技術(shù)

中圖分類號:TP31 文獻標識碼:A 文章編號:1009-914X(2015)33-0244-01

計算機數(shù)據(jù)挖掘技術(shù)的產(chǎn)生是社會的一種進步,了解計算機數(shù)據(jù)挖掘?qū)ξ覀儊碚f非常的重要,計算機數(shù)據(jù)挖掘技術(shù)對于龐大的數(shù)據(jù)有著整理分析的作用,這不僅僅對于企業(yè)的工作產(chǎn)生了巨大的作用,還對日常工作 生活等也提供重要的幫助。

1 計算機數(shù)據(jù)挖掘的概念及對象

1.1 計算機數(shù)據(jù)挖掘的概念

計算機數(shù)據(jù)挖掘是在社會的發(fā)展進入了網(wǎng)絡(luò)信息時代之后產(chǎn)生的網(wǎng)絡(luò)衍生產(chǎn)品,計算機數(shù)據(jù)挖掘主要是通過一定的手段對企業(yè)內(nèi)部進行數(shù)據(jù)挖掘,然后通過一定的分析,對那些通過數(shù)據(jù)挖掘得到的數(shù)據(jù)進行整理,進而分析企業(yè)的市場以及企業(yè)的發(fā)展等等問題。計算機數(shù)據(jù)挖掘?qū)μ幱诰W(wǎng)絡(luò)信息時代之中的企業(yè)來說非常重要,它是處于網(wǎng)絡(luò)信息時代之中的企業(yè)長遠發(fā)展的助推器,作為處于信息時代的企業(yè)要抓住這個促進自己發(fā)展的大好契機。

1.2 計算機數(shù)據(jù)挖掘的對象

計算機數(shù)據(jù)挖掘具有一定的針對性,計算機數(shù)據(jù)挖掘的對象(目標數(shù)據(jù))并不是所有的數(shù)據(jù),它是具有選擇性的,計算機數(shù)據(jù)挖掘的對象主要是指企業(yè)中能夠揭示一些未發(fā)現(xiàn)的隱藏信息和企業(yè)中比較有意義和研究價值的數(shù)據(jù),明確這一點非常的重要,計算機數(shù)據(jù)挖掘的對象的選擇性是影響計算機數(shù)據(jù)挖掘效率的主要因素,對于一個沒有充分認識計算機數(shù)據(jù)挖掘?qū)ο蟮倪x擇性的企業(yè)來說,它的計算機數(shù)據(jù)挖掘的效率會比成熟的計算機數(shù)據(jù)挖掘的企業(yè)或者是充分認識到計算機數(shù)據(jù)挖掘的對象的選擇性的企業(yè)要低得多。同時,明確目標數(shù)據(jù)的類型也非常重要,它直接決定了要使用的數(shù)據(jù)挖掘技術(shù)和方法,大體上數(shù)據(jù)類型分為三類:記錄數(shù)據(jù),給予圖形的數(shù)據(jù)和有序的數(shù)據(jù)。

2 計算機數(shù)據(jù)挖掘的任務(wù)及過程

2.1 計算機數(shù)據(jù)挖掘的任務(wù)

計算機數(shù)據(jù)挖掘主要是對海量的數(shù)據(jù)進行挖掘和分析,必須經(jīng)過計算機數(shù)據(jù)準備和計算機數(shù)據(jù)規(guī)律尋找的固定過程,在計算機數(shù)據(jù)挖掘的過程中,計算機數(shù)據(jù)準備和計算機數(shù)據(jù)規(guī)律的尋找一個都不能少,我們要做好計算機數(shù)據(jù)挖掘的每一步,計算機數(shù)據(jù)挖掘的任務(wù)主要有對計算機數(shù)據(jù)挖掘的結(jié)果與企業(yè)的市場現(xiàn)狀進行一個具體的聯(lián)系、對計算機數(shù)據(jù)挖掘的結(jié)果進行一定的分類,對計算機數(shù)據(jù)挖掘的結(jié)果進行一定的變異分析。在處理計算機數(shù)據(jù)挖掘的任務(wù)時,我們要完成計算機數(shù)據(jù)挖掘的每一個任務(wù),首先,對計算機數(shù)據(jù)挖掘的結(jié)果與企業(yè)的市場現(xiàn)狀進行一個具體的聯(lián)系是計算機數(shù)據(jù)挖掘的根本任務(wù),而對計算機數(shù)據(jù)挖掘的結(jié)果進行一定的分類是計算機數(shù)據(jù)挖掘的主要任務(wù),最后對計算機數(shù)據(jù)挖掘的結(jié)果進行一定的變異分析是計算機數(shù)據(jù)挖掘的必要任務(wù)。

2.2 計算機數(shù)據(jù)挖掘的過程

計算機數(shù)據(jù)挖掘的過程具有一定的復雜性,計算機數(shù)據(jù)挖掘的基本過程:第一,對計算機數(shù)據(jù)的來源進行一定的分析。這一步非常的重要,一個完整的計算機數(shù)據(jù)挖掘的過程必須以這一步為基礎(chǔ),只有對計算機數(shù)據(jù)的來源進行一定的分析,我們才能夠進行下一步的操作;第二,從計算機數(shù)據(jù)的來源的分析結(jié)果中獲取一定的信息,然后我們要對計算機數(shù)據(jù)的來源的分析結(jié)果進行研究,在研究的過程中,我們要查閱相關(guān)的專業(yè)知識和專業(yè)的研究數(shù)據(jù)挖掘的技術(shù),只有具備了相關(guān)的專業(yè)知識和專業(yè)的研究數(shù)據(jù)挖掘的技術(shù),我們才能夠更好地對計算機數(shù)據(jù)進行挖掘;第三,對計算機數(shù)據(jù)挖掘的信息進行一定的整合,檢查出不太合理的相關(guān)信息;第四,數(shù)據(jù)挖掘的實施。根據(jù)挖掘具體任務(wù)選擇相應(yīng)的數(shù)據(jù)挖掘?qū)嵤┧惴ǎ坏谖澹Y(jié)果評估與整理。在完成實施階段后,要對數(shù)據(jù)挖掘結(jié)果進行評估和整理,完成整個數(shù)據(jù)挖掘的過程。

3 計算機數(shù)據(jù)挖掘的技術(shù)應(yīng)用挑戰(zhàn)

計算機數(shù)據(jù)挖掘最大的應(yīng)用領(lǐng)域就是商業(yè)領(lǐng)域,它能夠為商業(yè)機構(gòu)提供欺詐偵查和客戶市場分類等數(shù)據(jù)。在這個高速發(fā)展的信息時代,網(wǎng)絡(luò)是商業(yè)發(fā)展的主要推動因素,我們要使計算機數(shù)據(jù)挖掘在商業(yè)上的應(yīng)用領(lǐng)域更廣。

3.1 在金融企業(yè)的應(yīng)用及重要作用

金融企業(yè)是具有一定風險的企業(yè),其重要的就是要對投資的風險做出評估,這樣,才能在我們金融企業(yè)進行投資時把風險降到最低。這時,金融企業(yè)就利用計算機數(shù)據(jù)挖掘技術(shù)對我們的投資項目進行評估預測。如:在企業(yè)收購股票時,就要根據(jù)這只股票歷史走向的數(shù)據(jù)做,從而做出評估,在做出較為精準的判斷和選擇。在金融業(yè)涉及到借貸款的問題時,企業(yè)要根據(jù)貸款對象日常的誠信做出調(diào)查,然后再進行數(shù)據(jù)的挖掘統(tǒng)計,從而判斷出貸款對象是屬于低風險還是高風險。由此可見,計算機數(shù)據(jù)挖掘技術(shù)對金融企業(yè)的投資、貸款有著重要的作用。

3.2 電子商務(wù)企業(yè)的應(yīng)用

電子商務(wù)企業(yè)最注重的便是網(wǎng)站的瀏覽量和點擊率及與客戶的成交單子的數(shù)量。企業(yè)如何提高網(wǎng)站的瀏覽量和點擊率和用戶的交易數(shù)量就成了問題的核心。電子商務(wù)企業(yè)可以根據(jù)用戶在瀏覽網(wǎng)頁時的收藏物品的情況、購物車的情況、成交記錄的情況進行物品的推薦。這就需要應(yīng)用技術(shù)數(shù)據(jù)挖掘技術(shù)對用戶的一系列情況做出數(shù)據(jù)的整合。通過數(shù)據(jù)的分析推薦的商品,及時客戶最終沒有購買,也會增加該物品的瀏覽量,這也使得我們電子商務(wù)的瀏覽量得到提升,從而增加企業(yè)在該行業(yè)的競爭力。

3.3 企業(yè)競爭的應(yīng)用

社會經(jīng)濟在不斷的發(fā)展進步,隨著而來的相同企業(yè)的數(shù)量也在不斷的增加,如何在眾多相同的企業(yè)里脫穎而出是所有企業(yè)思考的問題。一個企業(yè)除了要具有自己的特色之外,還要充分了解對手的情況,這時,就需要我們的企業(yè)利用計算機數(shù)據(jù)挖掘技術(shù)對競爭企業(yè)進行系統(tǒng)的分析調(diào)差,這樣,才能做到充分了解對手。吸取競爭對手的長處,在看到企業(yè)的短處時,也要使自己的企業(yè)避免相似的問題出現(xiàn)。所以,計算機數(shù)據(jù)挖掘技術(shù)在企業(yè)相互競爭時起著不可忽視的重大作用。

3.4 計算機數(shù)據(jù)挖掘技術(shù)面臨的挑戰(zhàn)

數(shù)據(jù)挖掘技術(shù)面臨的最大挑戰(zhàn)就是隱私的保護和數(shù)據(jù)的安全性問題。當數(shù)據(jù)在不同的抽象級別視角去考察的時候,數(shù)據(jù)挖掘?qū)﹄[私和數(shù)據(jù)安全就構(gòu)成了威脅。它威脅到保持數(shù)據(jù)安全和防止干涉隱私的目標的實現(xiàn)。

4 結(jié)語

社會的科技在不斷的發(fā)展進步,而計算機數(shù)據(jù)挖掘技術(shù)在我們的社會生活中的不同領(lǐng)域都發(fā)揮著其最大的作用。計算機數(shù)據(jù)挖掘技術(shù)將會在各個領(lǐng)域得到廣泛的應(yīng)用,并對人類的活動產(chǎn)生深遠的影響。

參考文獻

第9篇:數(shù)據(jù)挖掘技術(shù)范文

一、海量數(shù)據(jù)挖掘關(guān)鍵技術(shù)隨時代而變化

所謂海量數(shù)據(jù)挖掘,是指應(yīng)用一定的算法,從海量的數(shù)據(jù)中發(fā)現(xiàn)有用的信息和知識。海量數(shù)據(jù)挖掘關(guān)鍵技術(shù)主要包括海量數(shù)據(jù)存儲、云計算、并行數(shù)據(jù)挖掘技術(shù)、面向數(shù)據(jù)挖掘的隱私保護技術(shù)和數(shù)據(jù)挖掘集成技術(shù)。

1.海量數(shù)據(jù)存儲

海量存儲系統(tǒng)的關(guān)鍵技術(shù)包括并行存儲體系架構(gòu)、高性能對象存儲技術(shù)、并行I/O訪問技術(shù)、海量存儲系統(tǒng)高可用技術(shù)、嵌入式64位存儲操作系統(tǒng)、數(shù)據(jù)保護與安全體系、綠色存儲等。

海量數(shù)據(jù)存儲系統(tǒng)為云計算、物聯(lián)網(wǎng)等新一代高新技術(shù)產(chǎn)業(yè)提供核心的存儲基礎(chǔ)設(shè)施;為我國的一系列重大工程如平安工程等起到了核心支撐和保障作用;海量存儲系統(tǒng)已經(jīng)使用到石油、氣象、金融、電信等國家重要行業(yè)與部門。發(fā)展具有自主知識產(chǎn)權(quán)、達到國際先進水平的海量數(shù)據(jù)存儲系統(tǒng)不僅能夠填補國內(nèi)在高端數(shù)據(jù)存儲系統(tǒng)領(lǐng)域的空白,而且可以滿足國內(nèi)許多重大行業(yè)快速增長的海量數(shù)據(jù)存儲需要,并創(chuàng)造巨大的經(jīng)濟效益。

2.云計算

目前云計算的相關(guān)應(yīng)用主要有云物聯(lián)、云安全、云存儲。云存儲是在云計算(cloud computing)概念上延伸和發(fā)展出來的新概念,是指通過集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務(wù)訪問功能的一個系統(tǒng)。

當云計算系統(tǒng)運算和處理的核心是大量數(shù)據(jù)的存儲和管理時,云計算系統(tǒng)中就需要配置大量的存儲設(shè)備,那么云計算系統(tǒng)就轉(zhuǎn)變成為一個云存儲系統(tǒng),所以云存儲是一個以數(shù)據(jù)存儲和管理為核心的云計算系統(tǒng)。

3.并行數(shù)據(jù)挖掘技術(shù)

高效率的數(shù)據(jù)挖掘是人們所期望的,但當數(shù)據(jù)挖掘的對象是一個龐大的數(shù)據(jù)集或是許多廣泛分布的數(shù)據(jù)源時,效率就成為數(shù)據(jù)挖掘的瓶頸。隨著并行處理技術(shù)的快速發(fā)展,用并行處理的方法來提高數(shù)據(jù)挖掘效率的需求越來越大。

并行數(shù)據(jù)挖掘涉及到了一系列體系結(jié)構(gòu)和算法方面的技術(shù),如硬件平臺的選擇(共享內(nèi)存的或者分布式的)、并行的策略(任務(wù)并行、數(shù)據(jù)并行或者任務(wù)并行與數(shù)據(jù)并行結(jié)合)、負載平衡的策略(靜態(tài)負載平衡或者動態(tài)負載平衡)、數(shù)據(jù)劃分的方式(橫向的或者縱向的)等。處理并行數(shù)據(jù)挖掘的策略主要涉及三種算法:并行關(guān)聯(lián)規(guī)則挖掘算法、并行聚類算法和并行分類算法。

4.面向數(shù)據(jù)挖掘的隱私保護技術(shù)

數(shù)據(jù)挖掘在產(chǎn)生財富的同時也隨之出現(xiàn)了隱私泄露的問題。如何在防止隱私泄露的前提下進行數(shù)據(jù)挖掘,是信息化時代各行業(yè)現(xiàn)實迫切的需求。

基于隱私保護的數(shù)據(jù)挖掘是指采用數(shù)據(jù)擾亂、數(shù)據(jù)重構(gòu)、密碼學等技術(shù)手段,能夠在保證足夠精度和準確度的前提下,使數(shù)據(jù)挖掘者在不觸及實際隱私數(shù)據(jù)的同時,仍能進行有效的挖掘工作。

受數(shù)據(jù)挖掘技術(shù)多樣性的影響,隱私保護的數(shù)據(jù)挖掘方法呈現(xiàn)多樣性。基于隱私保護的數(shù)據(jù)挖掘技術(shù)可從4個層面進行分類:從數(shù)據(jù)的分布情況,可以分為原始數(shù)據(jù)集中式和分布式兩大類隱私保護技術(shù);從原始數(shù)據(jù)的隱藏情況,可以分為對原始數(shù)據(jù)進行擾動、替換和匿名隱藏等隱私保護技術(shù);從數(shù)據(jù)挖掘技術(shù)層面,可以分為針對分類挖掘、聚類挖掘、關(guān)聯(lián)規(guī)則挖掘等隱私保護技術(shù);從隱藏內(nèi)容層面,可以分為原始數(shù)據(jù)隱藏、模式隱藏。

5.數(shù)據(jù)挖掘集成技術(shù)

數(shù)據(jù)挖掘體系框架由三部分組成:數(shù)據(jù)準備體系、建模與挖掘體系、結(jié)果解釋與評價體系。其中最為核心的部分是建模與挖掘體系,它主要是根據(jù)挖掘主題和目標,通過挖掘算法和相關(guān)技術(shù)(如統(tǒng)計學、人工智能、數(shù)據(jù)庫、相關(guān)軟件技術(shù)等),對數(shù)據(jù)進行分析,挖掘出數(shù)據(jù)之間內(nèi)在的聯(lián)系和潛在的規(guī)律。大體上,數(shù)據(jù)挖掘應(yīng)用集成可分為幾類:數(shù)據(jù)挖掘算法的集成、數(shù)據(jù)挖掘與數(shù)據(jù)庫的集成、數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的集成、數(shù)據(jù)挖掘與相關(guān)軟件技術(shù)的集成、數(shù)據(jù)挖掘與人工智能技術(shù)的集成等。

二、海量數(shù)據(jù)挖掘應(yīng)用廣泛但深度不足

2011年中國數(shù)據(jù)挖掘軟件市場規(guī)模達接近2億元,2012-2014年還將快速增長。從數(shù)據(jù)挖掘應(yīng)用行業(yè)上看,國內(nèi)大多數(shù)的用戶都來自電信、銀行、保險、稅務(wù)、政府等領(lǐng)域。應(yīng)用主題主要包含:消費者行為分析、信用評分與風險管理、欺詐行為偵測、購物籃分析等方面。目前,國內(nèi)數(shù)據(jù)挖掘應(yīng)用仍停留在初級階段,行業(yè)企業(yè)大規(guī)模的運用數(shù)據(jù)挖掘技術(shù)尚需時日。

1.國內(nèi)數(shù)據(jù)挖掘應(yīng)用可分為3個層次

從數(shù)據(jù)挖掘應(yīng)用層次上看,大體可以分為三個層次:第一層次是把挖掘工具當作單獨的工具來用,不用專門建設(shè)系統(tǒng);第二層次則是把數(shù)據(jù)挖掘模塊嵌入到系統(tǒng)中,成為部門級應(yīng)用;第三層次是企業(yè)級應(yīng)用,相當于把挖掘系統(tǒng)作為整個企業(yè)運營的中央處理器。目前,國內(nèi)的數(shù)據(jù)挖掘應(yīng)用的企業(yè)基本處于第一層次,偶爾某些企業(yè)用戶能夠做到第二層次。

2.國內(nèi)有代表性的數(shù)據(jù)挖掘行業(yè)應(yīng)用情況簡評

(1)通信業(yè):國內(nèi)應(yīng)用數(shù)據(jù)挖掘的企業(yè)還是以通信企業(yè)(移動、聯(lián)通、電信)為首,應(yīng)用的深度和廣度都處于領(lǐng)先地位。

(2)互聯(lián)網(wǎng)企業(yè):隨著電子商務(wù)的普及,各大商務(wù)網(wǎng)站已經(jīng)大規(guī)模使用數(shù)據(jù)挖掘技術(shù),并且迅速從中取得商業(yè)價值。例如,國內(nèi)很多網(wǎng)上商城已經(jīng)開始使用數(shù)據(jù)挖掘技術(shù)進行客戶聚類或者商品關(guān)聯(lián)推廣。另外,搜索引擎企業(yè)使用數(shù)據(jù)挖掘技術(shù)的需求也非常迫切。

(3)政府部門:我國政府部門中使用數(shù)據(jù)挖掘技術(shù)比較領(lǐng)先的是稅務(wù)系統(tǒng)。數(shù)據(jù)挖掘在電子政務(wù)中的應(yīng)用,更多的涉及到報表填制、數(shù)據(jù)統(tǒng)計。

(4)國內(nèi)金融行業(yè):操作型數(shù)據(jù)挖掘應(yīng)用在國內(nèi)金融行業(yè)應(yīng)用廣泛,尤其是信貸評審領(lǐng)域。中小型銀行數(shù)據(jù)挖掘需求將是未來金融行業(yè)數(shù)據(jù)挖掘市場的主要增長點。未來5年時間里,數(shù)據(jù)挖掘應(yīng)用在金融行業(yè)仍將高速發(fā)展。

主站蜘蛛池模板: 久久福利视频导航 | 国产在线精品成人一区二区三区 | 亚洲草逼视频 | 亚洲天堂久久新 | 国产极品在线观看视频 | 在线免费观看国产 | 深入敌后免费高清完整版在线观看 | 国产精品综合一区二区三区 | 土地公土地婆免费观看全集 | 亚洲系列在线 | 日本xxxxx高清免费观看 | 日本高清不卡在线 | 欧美超强性xxxxx | 国产女人好爽好多水 | 欧美成人一级片 | 国产精品免费看 | 99热热久久这里只有精品8 | 日韩亚洲天堂 | 国产欧美精品三区 | 久热免费在线观看 | 国产女人综合久久精品视 | 韩国伦理妈妈的朋友在线观看 | 手机看片精品高清国产日韩 | 巨大挺进湿润黑人粗大视频 | 精品午夜久久福利大片免费 | 国产女在线 | 久久精品国产99国产精偷 | 一区高清 | 色香视频首页 | 一级特黄aaa大片在线观看视频 | 日韩黄色一级 | 亚洲精品另类 | 亚洲在成人网在线看 | 失乐园在线播放 | 亚洲美女性生活视频 | 国产欧美日韩精品a在线观看高清 | 免费人成黄页在线观看1024 | 国产精品亚洲精品影院 | 亚洲一级理论片 | 中文字幕一区在线播放 | 色国产在线视频一区 |