資料間 隱含關係 的 挖掘 與 展望

Posted on December 7, 2011
Filed Under Analysis_and_predictions, Business, Economy, Health, Innovation, Inspiration, Leadership, Political, Self_improvement, Tools, essential_Information | Leave a Comment

資料間 隱含關係 的 挖掘 與 展望

沈清正、陳仕昇1

高鴻斌、張元哲、陳家仁、黃琮盛2

陳彥良3

1. 中央大學資訊管理系博士班
2. 中央大學資訊管理系碩士班
3. 中壢市中央大學資訊管理系教授,Tel: 03-4267266, Fax:03-4254604,
e-mail:ylchen@im.mgt.ncu.edu.tw
有關本文各事宜,請聯絡陳彥良

摘 要

資料挖掘指由大量資料中擷取出有價值之知識,亦即將資料轉換成知識的行為。這些資料包括一般交易資料或多媒體資料,而知識則是資料間隱含關係的具體表達與呈現。因為資料挖掘能協助企業取得知識並創造競爭優勢,故引起廣大的重視,也促成了許多新的研究方法、系統或雛形的發展,而成為一個快速成長的領域。因此要在短短的文章中提供完整廣泛的研究現況回顧與展望是一個極困難的目標。故本文從資料庫研究者的觀點,對於最近發展的資料挖掘技術提供一個合理廣泛的報告。對於目前現有的資料挖掘方法和資料挖掘系統,本文根據〝資料間隱含關係〞的不同,提出了八種不同的資料隱含關係類別,分別是資料關聯性、順序性、結構性、週期性、類似性、有趣性、個人性、合用性,對每一種資料關係,我們將介紹其定義、應用狀況、研究現況和其研究展望。本文除了可幫助讀者了解資料挖掘領域的現況外,也提供了有用的資料挖掘分類並介紹了資料挖掘的比較性研究。

一、 序論

近來,資料產生和資料收集方面的技術有非常快速的進展。許多商業產品廣泛使用了條碼、許多企業和政府的交易皆已電腦化,這使得電腦成為資料收集的主要工具,也因此產生了大量的交易資料。同時,數以百萬計的資料庫正被使用在企業管理、政府管理、科學和工程的資料管理和許多其它的應用上。因為資料庫能力的提升,讓資料和資料庫產生爆發性的成長,如何能有智慧且自動的將資料轉換成為有用的資訊及知識,便成為資料庫應用的前瞻目標,所以資料挖掘逐漸地成為一個重要的研究領域。
資料挖掘指由大量資料中擷取出有價值之知識,亦即將資料轉換成知識的行為。這些資料包括一般交易資料或多媒體資料,而知識則是資料間隱含關係的具體表達與呈現。對於目前現有的資料挖掘方法和資料挖掘系統,本文根據〝資料間隱含關係〞的不同,提出了八種不同的資料關係類別,分別是資料關聯性、順序性、結構性、週期性、類似性、有趣性、個人性、合用性,對每一種資料關係,我們會先介紹其定義,接著再談到研究現況,最後談到研究展望。

二、 資料關聯性

資料關聯性之研究即挖掘關聯規則(association rule),是最重要的資料挖掘問題之一。它的目的是要從銷售的交易資料庫中,發現項目(item)間的關聯。若在許多交易中,我們發現某些項目的出現會引發其他項目的出現,這樣的關聯關係,即可以用關聯規則的型式加以表達。例如:牛奶麵包。
在探討關聯規則的挖掘之前,我們必須先了解最小support和最小confidence的概念,最小support界定一個規則必須涵蓋的最少資料數目,最小的confidence則界定這個規則的預測強度。規則的support和confidence可以評估規則是否有趣,當挖掘演算法所找出的規則滿足使用者訂定的最小support和confidence的門檻時,這個規則才算成立。
傳統的Apriroi關聯規則挖掘演算法 [5]有兩個階段,第一階段是找出所有超過最小support的項目集合(即大項目集合large itemset),第二階段再從大項目集合找出關聯規則。其中第一個步驟決定了整個作業的效能,它佔了作業的大部分時間,所以在探討關聯規則的挖掘時,均將焦點放在如何有效率的找出大項目集合,這方面過去所用的改進方法有使用hashing技術 [53]、使用sampling方法 [74]、使用Partition資料庫的技術 [64]、使用closed itemset lattice [57]、使用item clique [42] 及使用FP-tree [34]。
關聯規則有許多種類,不過我們大體上可以將它分成以下三類[33]:
1. 以屬性值的型態為基礎:
如果我們所關注的只是item是否出現,這種便稱為布林值的關聯規則(Boolean association rule),例如「牛奶麵包 (support=2%,confidence=60%)」即屬於這類關聯規則。如果我們也一併關注item的購買單位數,這種便稱為有重複項目的關聯規則(association rule with repeated items) [1],例如「2單位牛奶3單位麵包 (support=2%,confidence=60%)」即屬於這類關聯規則。如果我們所要描述的規則其項目或屬性是一個數值,這種就稱為數量關聯規則(quantitative association rule)。但因為數量關聯規則的可能性太多,所以我們必須把數量值切割成不同的區間(可以事先就切好,或根據資料分布情況來切割,或根據語意、模糊函數、資訊含量等不同方式切割),才有辦法產生關聯規則。如下面的例子,X是代表消費者的一個變數。
年齡(X,”40…45″)^收入(X,”7萬…8萬)購買(X,海外基金)
2. 以規則中所涵蓋的資料維度為基礎:
如果在關聯規則中的項目或屬性僅參照單一的維度時,我們稱之為單一維度關聯規則(single dimensional association rule),例如我們將「牛奶麵包」的關聯規則寫成「購買(X,”牛奶”購買(X,”麵包”)),則其著眼的是「購買」這個維度。反之,如果關聯規則中的項目或屬性參照兩個以上維度時,便稱為複合維度關聯規則(multidimensional association rule),例如上述定量的關聯規則中的例子,便包含了「年齡」、「收入」以及「購買」等三個維度。
3. 以規則中所涵蓋的抽象層級為基礎:
如果在關聯規則中的項目或屬性可以屬於不同的概念層級,例如「年齡(X,”中年”)購買(X,”味全果汁牛奶”)」(“中年”對於年齡而言屬於較高層級概念,但”味全果汁牛奶”對於購買項目而言屬於較低層級概念),則稱這類規則為跨層級關聯規則(multilevel association rule)。反之,如果沒有參照到不同層級的項目或屬性規則,則稱為單一層級關聯規則(single-level association rule)。
挖掘關聯規則的研究至今已算相當完整,然而不論是哪一種方式,在尋找large itemsets的過程中,所花費的時間成本均相當可觀,因此針對一個經常異動的資料庫作關聯規則的維護,是頗為重要的問題,也就是如何以增量(Incremental)方式來局部調整frequent itemsets,使關聯規則保持正確性,並避免重新進行整個挖掘程序所需花費的成本。以Apriroi演算法為基礎的增量維護技術已經有研究提出來[16],然而其他方式的增量模式則仍有許多研究空間可以發揮。另一方面,如何在線上迅速獲得關聯規則也是一個重要的議題,因為現存的large itemset計算演算法常以離線或批次的方法進行,它給定一個使用者指定的support門檻,之後資料庫必須再次讀取才產生所有的large itemset。然而,一般的使用者都無法事先知道該如何選擇合適的support門檻,如果選擇了一個不合適的support門檻,往往造成最後產生的關聯規沒有用。這方面的研究可以用建立Lattice並計算lower和upper bound的方式來進行。

三、 資料順序性

最常見的資料順序性研究的問題是要從交易記錄中尋找有趣的循序樣式(Sequential Pattern),循序樣式的特點在於樣式中每個項目之間是有順序性的,因此在尋找循序樣式時,我們會有一個用以決定項目先後次序的衡量方式(如時間),所有的項目或項目集合依據該衡量方式在一維的方向上呈現順序排列,而尋找循序樣式就是要在這些循序排列的資料中找到有趣的規則;以顧客的購買順序為例,若我們發現有許多人在購買A物品後,會再購買D物品,這就是一種循序樣式。
順序性研究是一個很有價值的研究方向,因為資料庫中的交易資料通常是有時間上的順序性,如在零售交易資料庫中交易發生的時間、時間序列資料庫中事件發生的時間、以及網站日誌中請求/回覆發生的時間等,如果在對這些資料進行挖掘時,能把順序性的考量納入,一方面可以在產生挖掘結果時去蕪存菁,另一方面其所呈現的資訊將會更具有意義。
目前順序性資料挖掘的研究與應用主要可概分為四大類,第一類是在銷售記錄資料庫的挖掘中,將交易發生時間的順序列入考量,以期得到跨交易的顧客購買模式,上文所舉的例子就是這一類的挖掘應用,這類的研究主要在挖掘方法,如[6,7, 83],其中[7]可以避免反覆的讀取資料庫,[83]則強調處理較長的循序樣式的能力,另外[44]可以對所得的循序樣式進行漸進式的更新維護,[54]則改善尋找循序樣式時進行序列的比對的成本,[26,41,84]則是一些結合本類挖掘技術與其他領域的應用,例如應用於資料挖掘系統、計畫管理、資料庫系統等。
順序性資料挖掘的第二類是在時間序列資料庫中尋找相似的循序樣式,或是於時間序列資料庫中進行相似性的查詢;因為時間序列資料庫的應用十分廣泛,所以順序性挖掘也被大量的應用,例如在股價歷史資料庫中挖掘各股股價變動的相似樣式、在氣象資料中尋找符合某相似(循序)樣式的記錄、電信網路的警報分析[35]、在疾病資料中挖掘時間序列樣式等;目前這一類的順序性挖掘研究包括了一般化的時間序列樣式的挖掘演算法[3,24,48]、關鍵技術的改良[80]、特別化的時間序列挖掘與應用[4,10,35]。
順序性資料挖掘的第三類是於WWW的環境中尋找使用者的路徑尋訪樣式,我們可以將使用存取網頁的日誌合併、拆解成許多的路徑序列,然後從中挖掘相似的路徑尋訪樣式,目前這類的挖掘研究包括了一般化的WWW路徑尋訪樣式挖掘[15,19,82,71],其中[71]將挖掘的範圍擴大到一個提供多項服務的環境,另外因為WWW的日誌資料異於一般挖掘所處理的交易資料,因此本類研究還包括了挖掘程序中的前置處理以及挖掘系統的架構[20,21,27]。
除了上述的三類,因為文字挖掘(Text Mining)也是處理循序文字資料,並應用所得的循序樣式,因此我們將之視為順序性資料挖掘的第四類,本類主要是於文字資料庫中挖掘文字序列樣式,研究的方向包括了一般化的挖掘演算法[39]、特殊化的挖掘系統與挖掘效率的改良[38,79]、文字序列樣式的應用[2,12,62]。
我們將資料順序性研究的領域劃分為四個議題,這四個議題從一般化的挖掘演算法、特殊化的挖掘演算法、效率相關的關鍵計算技術,到特殊的應用範例都已經有了一個完整的研究脈胳,然而相較於尋找大項目集合的交易資料挖掘,順序性資料挖掘在尋找大項序列時,會需要更多的計算成本與空間成本,因此發展更有效率的挖掘演算法是上述四個議題共同的未來發展方向,效率的改善一方面可以減少所需處理的候選樣式,另一方面則可以降低過濾候選樣式的計算成本,這此而言,目前的演算法尚有的改進空間;另外由於序列的特性,循序樣式有趣性的衡量,以及在預防資訊過量的考量下,挖掘系統與使用者的互動,也都是值得注意的發展方向。在四個議題之中,第三類使用者尋訪樣式挖掘必需有資料準備的前置處理動作,以將使用者存取日誌中的資料轉換成進行挖掘的記錄,因此前置處理與整個挖掘架構的有效性也是可能的研究方向。

四、 資料結構性

資料結構性的研究可視為資料順序性研究的延伸,在資料的性質上,順序性研究所要挖掘的資料具有序列的結構,也就是記錄與記錄之間可以以序列的結構加以組織,而在所欲求得的樣式上,順序性研究希望發掘可以反映這類資料特性的循序樣式,當我們將順序性研究的範圍加以擴大 – 不再將組織資料的結構限定於單純的序列時,便可算是資料結構性研究的範圍,也因為結構性研究所要處理的資料,其記錄間所形成的結構已不限於序列,所以本類研究所要挖掘的樣式更為多樣化,所需要的挖掘成本與挖掘的困難度都將會較循序樣式的挖掘來的高。
在許多情況下,交易資料庫中的記錄與記錄間是具有某些關係的,例如人口普查資料庫中,人與人之間會因為血緣、地域、社交等各種因素而互相牽連,我們可以根據這些關係將各筆記錄組織起來形成具有複雜結構的資料,而結構性研究的目的就是要從這種呈現複雜結構的資料中,挖掘常見的次結構;如果我們更廣意的解釋結構性研究的範圍,而不將組成樣式的最小單位限制於有良好定義、格式的交易資料庫記錄,則凡是資料的本身具有結構的特性(如由網頁構成的WWW分散式資料提供環境、由染色體構成的基因等),或資料之間具有關聯(如呈現樹狀的階層式文件集合、具有地理相關性的氣象資料等),我們都可以研究存在於這些資料之中的子結構 – 也就是挖掘存在於結構化資料中的結構樣式(Structural Pattern,或拓撲樣式,Topological Pattern [76]),藉由結構樣式,我們可以對資料的特性進行更有效的分析或對現象進行更準確的預測。
結構化研究的應用並沒有一個很明確的範圍限制,只要語意上符合在結構化的資料中挖掘結構樣式者,就可以算是本類研究的應用,結構化的研究可以從兩個方向來討論,一種是一般化結構樣式的(通用)挖掘方法的研究,如[18,76,77],一種是於特殊(結構的)資料上進行挖掘的研究,如[13,45,61,77]。
在通用型的挖掘方法研究中,[76]先從結構化資料中抽取一部份的樣本,並從中尋找結構樣式,然後再用全部的資料去評估樣式的優劣。[77]是要從一群半結構化物件(semistructured object)中進行結構樣式的挖掘,本文所指的半結構化物件每個都是一個圖型結構,而所謂的半結構指得是每個物件的圖型結構並沒有一定的輪廓(schema),挖掘的目地就是從這些圖型結構中找出發生次數超出使用者限定的最小值的子結構(結構樣式)。[18] 提出一個在具有圖型結構的資料庫上進行結構樣式挖掘的系統,在這個系統中,結構樣式就是整個圖型結構資料中共同的子結構,而樣式的評估是依據其能「壓縮」原有圖型結構資料的程度。
而在特殊結構的挖掘研究中,[45]將每個使用者於存取日誌中留下的記錄轉換成較不會失去資訊的樹狀結構,然後在這些樹狀結構中,挖掘常出現的子結構(tree-like topology pattern)以了解使用者的尋訪模式。[13]先從相關的網頁資料中萃取出代表有用的資訊、但型式並不一定的半結構資料,然後再對這些半結構資料進行挖掘以了解網站的資訊結構並幫助資訊的擷取。[61]是要從多個關聯表格中挖掘關聯樣式(relational pattern),這些關聯表格彼此的參考關係必需形成一個單一路徑的樹,同時因為這樣的參考關係,這些表格中的記錄會組成多個樹狀結構,而所要挖掘的關聯樣式就是常出現於這些樹狀結構中的子結構。 [63]雖然並非尋找結構樣式,但其內容為結構樣式的應用,該篇論文試圖以圖型結構表現軟體的原始碼與資料,和使用者所設定的模組內部的限制和模組間的限制,然後使用Apriori演算法去進行圖型之間的結構樣式的比對,以期在模組內高內聚、模組間低耦合的原則下還原軟體的架構。
在上述的研究中,[13,77]會因為所處理的結構化資料在結構上會有不一致,或是所得的結構樣式本身會包括了多種不同的拓撲結構,而用「半結構化(semi-structured)」來說明其研究的對象,然而在此我們一律從廣意的結構化來看待之,不過必需了解的是,因為半結構化會有結構不規則的性質,因此無論在挖掘方法或挖掘的效率都比較容易面臨挑戰。
從上段的文獻上可以發現目前資料結構性的研究尚處於發展的初期,相較於資料挖掘的其他領域,非序列性之結構性研究的相關著作與探討都是較為少量的;在一般化的結構挖掘方法研究上,也可以發現應用於大量資料上時,會有效率的問題,而在特殊結構資料的挖掘上,目前的研究相較於結構資料的多樣化則可以提醒我們還有很多發揮的空間,因此挖掘方法效率的改良,和結構性研究的多樣化應用(如生物資訊等)都是未來值得努力的方向;另外由於結構的多樣化,所得到的樣式通常會比其他領域來的大量,因此樣式有趣性的衡量以及挖掘系統的客制化也都是尚待努力的議題。

五、 資料週期性

什麼是週期性分析?週期性分析是找出週期性樣式(periodic patterns)的分析方法,也就是由時間資料庫中,挖掘出循環性(recurring patterns)時間樣式。
挖掘週期性樣式的議題,我們大致可分為三類:
1. 完全週期性樣式
完全週期性樣式,是指週期中的每一時間點都會具有週期性行為。例如:每一年內的情人節,玫瑰花的銷售會增加。
2. 部分週期性樣式
部份週期性樣式,是指週期中允許僅有部份的時間點具有週期性行為;部份週期性相對於完全週期性是較寬鬆的,但它卻是真實世界中,更常發生的。例如:珍在早上7:00~7:30通常閱讀「時代雜誌」。此處並不保證她一定會閱讀「時代雜誌」,但她通常會如此做。
3. 週期性關聯規則
「週期性關聯規則」就是在規律的時間區間中,達到限定的最小support和最小confidence的關聯規則,這種關聯規則並不一定在整個時間中都成立,而是可以在特定週期、特定時間區間內才會成立,例如:「若週末的下午茶在下午3:00 – 5:00時段銷售良好的話,則晚餐也將在下午7:00 – 9:00消費良好」。
完全週期性分析的技術,已被使用在信號分析與統計的研究上,其中最著名的方法是FFT(Fast Fourier Transformation),其將時間資料轉換為頻率資料,以方便提供分析使用。
然而目前用來挖掘關聯規則的演算法,並沒有辦法直接用以挖掘週期性關聯規則,為了利用目前現有的演算法,其中的一個方法是擴充Itemset,將之加入時間屬性,並將資料庫中的交易資料,依相同的時間屬性加以分類成相同的區塊(Segment),但是這並不是好的方法,因為這有可能會找出非週期性關聯規則,而且無法找出任意週期長度的關聯規則。
大多數用以挖掘部份週期性樣式的研究和週期性關聯規則的研究,採用類似Apriori演算法的方法,如:[6]提出的Apriori-like演算法,挖掘連續性樣式(Sequence patterns);然而限制式方法(Constraints Method),也被提出在用以處理連續性樣式與部份週期性樣式的處理過程上。[51]提出了兩種演算法用以解決週期性關聯規則的方式。
目前在週期性方面的研究仍嫌不足,特別是這些演算法大多根據陳舊的Apriori演算法修改而來的,所以一個可能的研究方向就是我們如何根據最近的non-Apriori演算法來發展較有效率的週期性演算法。此外,因為不一定只有時間才會有週期,有可能其他的屬性也會有週期性的行為,例如空間,所以如何在非時間屬性上挖掘週期性行為應該是值得深入探究。

六、 資料類似性

資料挖掘的技術中,有一種是以一個樣式(pattern)為基準,去找出與它相似的資料。通常使用者要預先先定義搜尋目標序列(target sequence)和一個允許差異度,之後再找出資料庫中跟目標序列相似度在允許差異度範圍之間的序列。利用找尋相似的樣式可以應用在商業上,例如以股市的交易價格而言,可用各種的財務指標及走勢圖找出相似的樣式,擬定投資策略;以便利商店地點的設置而言,可以找出相似條件的地理區域來設置據點。
在時間或空間資料庫上找尋相似的樣式的操作,[14]將其分為兩類:
物件相關相似查詢(object-relative similarity query),使用者需先指定目標物件和允許差異距離,然後找出所有與目標物件的距離在範圍內的物件。
全部相似查詢(all-pair similarity query),使用者需先指定允許差異距離,然後找出所有兩兩物件間的距離落在範圍內的物件對(pair of objects)。
一般度量相似的方式主要用統計上的歐幾里德距離(Euclidean distance)及相關(correlation),兩個序列的歐幾里德距離的定義如下:設{ xi }是目標序列,{ yi }是資料庫中的序列,n是xi, yi的長度,則{ xi }和{ yi }的相似性定義成

兩序列間的相似性定義如下:設{xi}是目標序列,{yi}是資料庫中的序列,n是xi, yi的長度,i=1,…,N+n-1。

在[3]中利用Parseval定理,使用Discrete Fourier Transform (DFT)將時間序列轉換成頻率序列,這樣的轉換不但可以保證距離不會改變,且因為頻率序列的前幾個頻率通常已足以代表整個頻率序列,所以可以只針對這幾個頻率作索引來找尋時間序列中的相似樣式,這種方式的找尋速度比循序掃描的速度快;[24]中提出一個有效率的索引方式來找出序列中與目標序列相似的子序列,它將每一個資料序列對應到特徵空間上多維矩形的集合,這些多維矩形的集合以傳統空間儲取的方式如R*-tree來索引,並使用sliding window用於序列上粹取它的特性,將序列作相似性的比對,這種方式可以比循序掃描節省序列比對的時間而且不會漏掉任何子序列的比對並可減少空間使用的overhead;[25]將找尋相似樣式的方法應用到多媒體的資料上,它將一個物件使用k feature-extraction 函數到某些k維的空間,再使用spatial access methos(SAMs),找出相似的樣式;[4]提出更好的方式只要兩時間序列的子序列不重疊且依時間順序排列,就可以作相似性的比對,也就是說這種作法,可以將兩時間序列中其中之一的振幅(amplitude)作適當的比例的放大或縮小並將它的offset作調整來找尋其相似處,此外子序列在比對時不需用時間軸來排列。[9]利用dynamic time warping的方式來找尋在時間序列資料中的相似樣式,使[25]產生的結果更好。[43]提出了一種階層式的演算法HierarchyScan用物件相關相似查詢來找資料庫中很長的序列中的樣式,它使用相關係數來作相似性的度量且消除了每次比對序列時就要產生序列全部的子序列的需要,提升搜尋相似序列的效率。[55]使用了不同以往歐幾里德距離的time warping distances來度量子序列的相似程度,且避免了找尋相似子序列時false dismissals的情況,但它的時間複雜度是資料中序列平均長度的平方,[54]使用特徵粹取(feature extraction)及分類為基礎建立generalized suffix tree (GST)來作來作索引,並以lower-bound distance function來作有效的查詢處理,加上Aligned subsequence matching的技術將序列中的子序列與目標序列的比對時間複雜度降到線性時間。
樣式相似性就像是專家系統的case-based reasoning,可以提供提供許多的商業用途,讓使用者找尋到相似的樣式,作為制定某些決策的參考。從先前的研究來看,許多的研究讓樣式相似性的比對更有效率,但我們可以發現過去比較著重於線性且連續性的資料作探討,未來可將這些技術再作拓展,包括(1)研究平面及3D的樣式相似性比對,因為現在的科技環境,有許多的資料都是由影像、聲音合成,如果能從中挖掘出知識,將比過去發現的更豐富;(2)由於平面及3D的資料比較複雜,所以必須再提升在平面及3D的樣式相似性比對的效率;(3)在實際生活上資料有許多都不能量化,因此將物件的屬性為非數值性資料時如何作數值化,以便作相似性的比較。

七、 資料有趣性

當利用資料挖掘的技術從資料庫中挖掘出許多的知識和規則時,由於產生的知識、規則的數量很多,但其中的有些的知識、規則對使用者而言是具有重覆性的、直覺的或無意義的,因此必須制定某些度量的標準去刪除,這個度量的標準稱為有趣性(interesting)。
利用規則的有趣性,可以針對使用者的需要,找出使用者真正有興趣的規則,避免使用者在眾多的規則中不知道那些是對他是有意義的規則,節省使用者分析規則的時間。以關聯規則為例,在[52]提到在[11]中有30000筆的人口普查資料,產生的關聯規則超過20000條,如此多的規則,若沒有用有趣性來篩選規則,這些找出來的規則將沒有任何的用途。
在規則有趣性的研究方面,[65]中將規則(rule)的有趣性分成objective和subjective兩類。objective是以在處理資料的過程中規則的結構及基本的資料為基礎,根據support或confidence等方式來測量有趣性,例如在[60]定義一個RI(rule-interest)函數規則的有趣性,例如有A和B兩個絛件,利用RI函數可以判定A、B間的相關性是正相關、負相關或無關。在[28]中為了讓找出的有趣規則有更好的品質,針對RI函數又提出了用disjunct size、the imbalance of the class distribution、attribute cost、misclassification costs、asymmetry in classification rules的五個因素來彌補RI函數在測量有趣性的規則時所產生的偏差。所謂的disjunct size指的是符合某一規則的前提(antecedent)的資料筆數,the imbalance of the class指的是在度量規則時,對不同類的資料數量造成的誤差,attribute cost指的是對每個資料屬性的考慮,misclassification costs指是對規則的有趣性要考慮到分錯類時的成本,asymmetry in classification rules指的是對規則的前題和結論(consequent)對稱性的考慮。而[52]利用使用者的認知建立belief並針對已經挖掘到的出乎意外(unexpectedness)的規則作知識的修正,再來找出乎意外的資料樣式。它的演算法產生的關聯規則比Apriori演算法的關聯規則少很多也且也避免產生如Apriori產生的不相關或顯而易見的規則。在[11]中提出一個概念,利用partial order解決了最佳化規則的問題,找出最有趣的規則(most interesting rule )這種規則含蓋了由support、confidence、gain、laplace value、conviction、lift、entropy gain、gini和chi-squared value等方式找出的規則,在實務上,使用者找出可以輕易的看看這個規則數量不多的最佳的規則所構成的集合,不會迷失在數量龐大的規則中。Subjective是以處理資料的過程中規則的結構及資料為基礎,並且根據使用者指定的“有趣規則樣式“(interesting pattern)來測量規則的有趣性,在[66]對Subjective有趣性的測量又分為actionable和unexpected,actionable指的是能讓使用者採取某些行動的規則,例如平均每個子公司的獲利率是30%,但有一個子公司 C的獲利率是10%,則就管理者而言,子公司C就是會引起管理者有所行動去提醒、鼓勵子公司C。 利用actionable的衡量方式,可以讓使用者就目前的現況,看出那些地方可以再改善。unexpected指的是利用belief能讓使用者覺得驚訝的規則,例如每個子工廠的產品良率一般都是98%到99%之間,確有一家子工廠D的產品良率只有50%,那子工廠C就是超乎管理者預期,令管理者訝異的子工廠。以關聯規則為例,[36]指出並不是所有有高信度及高支持度的規則就是有趣的,因為有些規則的意義可能重覆或是意料中,有些沒有意羲規則是由不相關的屬性所構成,因此[36]讓使用者建立一些有趣及無趣的關聯規則,再去產生樣式表示式當作template,找出有趣的關聯規則。[47]可讓使用者依他個人過去的知識及感覺輸入他期望的規則,再加上fuzzy的技術找出有趣的規則後,依使用者定義的有趣性的大小作排序,此外並可讓使用者定義意外的規則樣式,分析其差異。
規則的有趣性的研究目的在提供更具商業價值的知識給決策者,並可以讓決策支授系統的功能更加完備。先前有許多的研究針對不同的情況,針對規則的有趣性作定義,並找出有趣的規則,未來的發展包含(1)根據不同的領域定義各種不同的有趣性規則,讓使用者針對他的需要去挑選他自己感興趣的規則,包括主觀、客觀的,讓他覺得驚訝、會採取某些行動自然的規則。(2)將已發現的規則,利用如專家系統的rule base,將已發現的規則儲存起來,並可以用已發現的規則用來作推理,供使用者作查詢。(3)提升現有各種發現有趣性規則的演算法的效率,更迅速的提供給使用者想獲得的知識。

八、 資料個人性之研究

資料個人性的研究是因應資訊的爆炸,為幫助使用者過濾資訊,及網路的興起,使E-commerence的一對一行銷取代傳統大量行銷變成可能,而一對一的行銷時每個人的需求不同,所以需要個人化的服務。
資料個人性之研究的意義在於經過對使用者的瞭解、辨識後,能從大量的資訊中,以適當的方式提供與使用者最相關,或使用者有興趣的資訊給使用者,避免資訊過量,讓使用者被不相干的資訊淹沒,個人化系統的主要元件如下圖[68]。提供個人化資訊的方法有兩大類[81],一為content based approach,它是以該使用者過去的行為為基礎,所提供的資訊與使用者過去的喜好相類似,例如使用者過去曾經租過恐怖片,則提供他有關恐怖片的新片資訊給他。另一種為collaborative filtering approach,此方法是先識別過去其他的使用者與使用者之間是否有相似的偏好,若有相似,再提供此類使用者過去的偏好給使用者,例如從使用者的行為中發現他為高收入族群,則提供使用者高收入族群較偏好的商品資訊。也有的作法是將兩者結合使用[68]。
data mining的許多技術都可運用在提供個人化資訊,例如clustering可以幫助使用者及內容(content)的辨識,關聯規則可以找出內容間的關聯等等。

圖一:個人化系統的架構

上述的兩類方法都有其缺點,collaborative filtering的缺點是開始時需要大量的使用者參與及只能用於同質性高的商品,而content based approach則為建議的能力較差,因為受限於過去使用者的資料,兩者以collaborative filtering較常被採用。
目前有關資料個人性的應用與研究大多是建立在WWW的環境上,對web log配合著使用者相關知識進行挖掘,例如運用在遠距教學上,可以依據學生的能力,提供符合學生程度的資訊[73]。挖掘出使用者的行為模式,使網站能客製化,針對不同使用者動態產生不同的連結[23]。
在電子商務的應用方面,使用rough set的技術運用在客戶關係管理(CRM)上,可以進行一對一的服務,快速回應顧客不同的需求[17]。結合neural network及cluster的技術,可以幫助企業對不同的顧客群,有效的進行目標行銷及直效行銷[56]。
另外也有以使用者的相關資料、過去的操作紀錄,配合問答式的使用者介面,提供使用者更有興趣的資訊[72]。GRAS則結合collaborative filtering與content based,可以不限於文字,在多媒體資料庫上提供個人化資訊[68]。
資料個人性之研究未來的展望可分為三個方向,第一是效率的問題,因為個人化的服務必須是即時的服務,而且系統同時可能有多人使用,加上資料量十分龐大,所以如何即時、有效率的提供資訊是最基本的要求。
第二是延展性(scalability),在collaborative filtering中一個重要的議題是如何動態且即時的決定使用者所相對應的族群,因為同一個人在不同的時間的行為模式可能不同,例如某個使用者平常只買技術性書籍,而當他要買小說送朋友時,應該將使用者與喜愛小說的族群相對應,而非買技術性書籍的族群,並以小說族群的慣用行為模式提出建議,不用重新比對使用者的檔案、興趣,再產生對應的族群來提供建議。
第三是品質,衡量我們給使用者的個人化資訊的品質,深受我們如何決定使用者是與哪一個族群相似所影響,因此如何建立一個好的類似函數或衡量標準,以判定兩個使用者的偏好相近到可以歸入同一個族群,及兩個item是否有足夠相似的特性能被歸類到相同的類別,是改善個人化資訊品質最基本的方法。
另外在多篇相關研究中都有參考一些AI的技術,所以結合AI的相關技術可能也是未來的研究方向之一。

九、 資料合用性

通常在資料庫中挖掘規則或樣式時,所得出的結果不是不夠而是太多,以至於使用者很難負荷,而且其中大多數結果對使用者而言,並不具有趣性(uninteresting),使用者必須進一步的篩選,才能找到他所要的資訊。因此若能在挖掘前先指定所要產生規則的型式,則可以大幅度減少所產生的規則或樣式,使用者也比較有可能去作進一步的分析,也因為有效的限制範圍,進而提昇挖掘的效能,因此這一類型的研究在於如何制約規則的型式及過濾方法,使其達成資料挖掘步驟更有效率(efficient)與產生的結果更有用(effective)的目標。
本類型的研究是以限制為基礎的資料挖掘(Constraint-based data mining ) 方法,強調使用者的介入挖掘過程是必要的步驟,唯有使用者才知道他所想獲得的資訊,研究學者希望提供使用者在挖掘步驟之前、之間,能有效且正確的限制各種條件與範圍的方法,使其快速、正確取得想要的知識。
就本類型研究“限制”一詞的定義,其中最主要的精神是以各種方法有效的減少搜尋範圍,卻不影響結果的正確性,換句話,就是提供使用者對挖掘正確的結果具有聚焦(focus)的能力,而這種能力建立在使用者現有的知識基礎上,因此研究學者提出強化傳統資料挖掘方法的方式,讓使用者可以將其現有的知識加入挖掘的過程中,去協助發覺所需的知識,這種方式事實上與人類一般學習過程極為相識,那就是在己知的知識基礎上探討未知的知識,有效的知識的建立方法是建在己有的知識上,並不應是每次都由零開始的挖掘過程,所以“限制”就是以己知的知識限定並控制挖掘的過程的方法。
其實限制的想法早就存在開始資料挖掘的方法中,如門檻值( threshold ) 的限制的應用到經常發生的樣式(frequent pattern)的發覺過程中,用其過濾不明顯的樣式,以減少後續的搜尋空間與時間的花費,以利有效樣式的取得。
但是,傳統資料挖掘的方法中只提供使用者少許限制能力,這些方法就像是黑箱作業一樣[49,50],就如在關聯性法則的挖掘時,使用者只能在開始提供門檻值,以後就看資料挖掘的方法了,其過程使用者完全使不上力,雖然如此,傳統資料挖掘方法的門檻值就是一種限制的觀念,我們可以將這類的方法視為本類型研究的第一階段,之後有學者發現這些問題,開始有些研究[22,46,66,70]使用已知樣版(pattern)與述詞(predicate)加入資料挖掘方法中作為篩選的指標,可有效限制挖掘過程資料範圍與挖掘方向,以提昇挖掘效率與結果的有用性,這一類的方法較第一階段明顯改進,因為研究者發現以己知的知識限定挖掘過程可明顯獲取所需新的知識,因此我們將這類的方法視為本類型研究的第二階段。
如果細心觀察可以發現所有的資料挖掘方法就是以各種限制在巨量的資料中取得知識的方法,然而部分的研究[49,50]提出現行的資料挖掘模式常有的三大問題:
1. 缺乏使用者探究與控制的機能
應將資料挖掘方法的黑箱打開,並提供使用者回饋的機能,使系統可以結合使用者回饋,作進一步的修正。
2. 缺乏聚焦的能力
使用者在其腦中對要挖掘現象可能己有定見,系統應提供多元的機會讓使用者有聚焦的能力,將資源可以聚焦的導入挖掘步驟中使其能快速且正確的取得想要的知識。
So, all that cost will be the part of the MRP of the cheapest generic cialis . A hopeless or helpless attitude on life is the low cialis cheapest libido of men. Most possibly they are black advertising propaganda to hurt tadalafil’s viagra generika name. If you are a male, you should be familiar with this warning that is usually written on medicine packs. cheap cialis 3. 對關係的概念過於僵化
類似關聯性法則門檻值應不限於支持度(support)與信賴度(confidence)的使用,如相關度(correlation)也可以應用,而在挖掘步驟不同階段門檻值應有調整的空間,並可以混用各種衡量關係的尺規,使挖掘過程更有彈性,這類的減少僵化研究己有相當多的研究報告[31,40,49,69] 。
明顯的,現在的資料挖掘觀念已不只是知識的取得而已,應是提供使用者與系統互動並介入控制挖掘的過程的管道,也應提供問題聚焦的能力與提供使用不同的關係概念尺規的能力,藉以快速且正確的縮小搜尋範圍,同時快速取得有用的知識。
事實上近來的本類型研究方向,就是以上述的問題作為研究的主題進行探討,我們將其視為本類型研究的第三階段,而為了近一步對研究方向與定位作說明,研究學者就限制[32]而言,將其區分為五大項:
1. 知識型態限制(Knowledge type Constraints) :
限制所挖掘知識的類型,如關聯性規則、資料分類性規則或資料群聚性規則
2. 資料限制(Data Constraints) :
資料庫與其資料來源的選擇或篩選
3. 維度/層度限制(Dimension/level Constraints) :
指定挖掘過程中要使用哪些的資料維度(dimension)或指定觀念階層(concept hierarchy)的層度(level)
4. 有趣性限制(Interestingness Constraints) :
如支持度與信賴度的限制就是有趣性限制
5. 規則限制(Rule Constraints) :
規範所要挖掘規則的型式,這類限制的例子有metarule或指定規則中最多包含的項目數
其中以第3,4,5項限制有較多的研究文獻,主要的原因是1,2項是在挖掘步驟之前運用,第3,4,5項是在挖掘步驟之間運用,也就是原始黑箱部分,情況較為渾沌也因此比較有研究價值,如第3項相關的有資料項限制的研究文獻[70],又如第4項相關的有支持度與相關度限制的研究文獻[8,70,78],最後第五項規則限制,又可以區分出幾項特徵所以有較多的研究文獻進行探討,下一段為其內容明細說明。
在規則限制的格式中,運用的方式可區分為兩種類型[32]:
1. 規則型式限制(rule form constraint):
如P(x,y)Q(x,w)  Takes(x,”database system”)
2. 規則內容限制(rule content constraint):
如sum(price)>1000sum(price)<=avg(price)
規則內容限制可分為單邊受限型,如上面例子的第一項,雙邊受限型,如上面例子的第二項,因為規則內容限制加入聚合函數(aggregation)與集合關係,在不同的聚合函數與集合關係、不同資料的內容與不同邏輯比較式的組合下會有不同的規則內涵變化,因此就單邊受限型的研究就是在釐清上述組合的變化所導出規則內涵變化結果,其研究討論在下段說明,而雙邊受限型而言,兩邊都是聚合函數會因資料的變化發生交互影響,因而發生內涵的變化,己有學者加以研究[37]。
文獻中將規則內容限制的涵義細分為下列限制類型:
1. 非單調(antimonotone) 限制[32,37,50,49]
如果一項目集合(itemset)不滿足此限制,則其超集合(superset)也不會滿足。例如count(I)  10 或 min(J.price)  500 為非單調
2. 單調(monotone) 限制[29]
如果一項目集合滿足此限制,則其超集合也會滿足。為非單調限制的相反,如max(J.price) 50
3. 簡潔的(succinct) 限制[32,37,50,49]
不需要計算support就可以將滿足此一限制的所有項目集合列出來,如max(J.price) 50
4. 可變換的(convertible) 限制[58,59]
某些的限制雖然不屬前三者,但若我們將項目集合中的項目按某種次序加以排序,它便可以變成非單調限制或單調限制,如avg(J.price)50,我們若把項目按照價格由小到大排序,則這個限制便成為非單調限制,因為若J不滿足此一限制,則我們再加入一價格更貴的項目,一定也不會滿足
5. 不可變換(inconvertible) 限制
以上皆不滿足者,如sum(s.price) 50
因為規則內容限制運用了聚合函數與集合關係,在實際上可讓使用者能進一步有效限制過濾資料,上述的研究明顯想在以前較棘手的(tough)較灰色地帶,且不易釐清的部分中分離出明顯可用的理論思維。
進一步的可能研究方向有,一﹒為對規則內容限制進一步的分離出明顯可用的理論思維,二﹒為結合不同的限制類型進行整合,如有趣性限制與規則限制整合的研究[29],三﹒將資料合用性之研究的思維運用到不同的知識型態限制上,如群聚性規則上[75],四﹒提出新的或結合現有的方法,使其能提供使用者與系統互動並介入控制挖掘的過程的管道,同時能提供問題聚焦的能力與提供使用不同的關係概念尺規的能力,藉以快速且正確的縮小搜尋範圍,同時快速取得使用者合用的知識的方式,都是本類研究可發展的方向。

十、 結論

資料挖掘是一個快速成長的領域,最近有許多新的研究報告、新系統或雛形的發展。因此要在短短的文章中提供廣泛的資料挖掘方法的概論是一個極難的目標。這篇文章是從資料庫研究者的觀點,對於最近發展的資料挖掘技術提供一個合理廣泛的報告。事實上,在作者原先的規劃中,擬探討十二種的資料隱含關係,但因為文章篇幅的限制,我們並未把資料的群聚性、分類性、歸納性、跨界性等另外四種資料隱含關係納入文章中;此外也因為篇幅的限制,對於本文中的八種資料關係的討論也都有所縮減,為了彌補此一缺憾,我們把完整的內容放在網站http://www.mgt.ncu.edu.tw/~ylchen/datamining.html供有興趣的讀者參考。
由於資料挖掘方法的多樣性,最近有許多不同的資料挖掘系統和雛形被發展,當中有些是從大型資料庫中成功的挖掘知識,也有一些是由機器學習和統計學方面的研究者所完成的。此外,資料倉儲系統和資料挖掘工具的整合在這些系統中也普遍的出現,幾乎已成為一個趨勢。除了資料庫研究者外,在許多其它的領域中,對於資料挖掘和發現知識上,也都有相當豐富的成果。例如:統計學方面的學者已經發展了許多有利於資料挖掘的技術。歸納邏輯方法在邏輯方法上是屬於快速成長的子領域,其與資料挖掘是緊密關聯的。也有許多研究在探討視覺化資料挖掘技術和如何把挖掘出來的結果予以視覺化。
  如同許多年輕和大有可為的領域,資料挖掘仍然面對許多的挑戰和未解決的問題,這些問題可以產生新的研究議題,做更多的研究。除了可以針對不同種類的資料庫如:主動式資料庫、物件導向式資料庫、時間和空間資料庫、多媒體資料庫進行更多的探討外,在網際網路資訊系統的資料挖掘;發現知識的應用;如何和專家系統或專家知識整合;資料挖掘中保證安全性和隱私權保護的方法,這些都是重要的研究。此外,目前資料挖掘的研究大多偏重技術面且評估的指標也都著重於方法的效率,非常缺少管理面的研究探討如資料挖掘關鍵成功要素、導入程序、對組織的衝擊與影響、對學習行為與創新的影響等議題。

參考文獻

1. 陳彥良、凌俊青、許秉瑜,在包裹式資料庫中挖掘數量關連規則,accepted in 資訊管理學報。
2. R. Agrawal, R. J. Bayardo Jr. and R. Srikant., "Athena: Mining-based Interactive Management of Text Databases," IBM Research Report RJ10153, July 1999.
3. R. Agrawal, C. Faloutsos and A. Swami: "Efficient Similarity Search in Sequence Databases," in Lecture Notes in Computer Science 730, Springer Verlag, 1993, pp. 69-84.
4. R. Agrawal, K. Lin, H. S. Sawhney and K. Shim: "Fast Similarity Search in the Presence of Noise, Scaling, and Translation in Time-Series Databases," Proc. of the 21st Int'l Conference on Very Large Databases, Zurich, Switzerland, Sep. 1995.
5. R. Agrawal and R. Srikant, "Fast Algorithms for Mining Association Rules," Proc. of the 20th Int'l Conference on Very Large Databases, Santiago, Chile, Sep. 1994.
6. R. Agrawal, R. Srikant: "Mining Sequential Patterns," Proc. of the Int'l Conference on Data Engineering (ICDE), Taipei, Taiwan, March 1995.
7. R. J. Bayardo Jr." Efficiently Mining Long Patterns from Databases," In Proc. of the 1998 ACM-SIGMOD Int'l Conf. on Management of Data, 1998, 85-93.
8. R. J. Bayardo Jr., R. Agrawal and D. Gunopulos, "Constraint-Based Rule Mining in Large, Dense Databases", Proc. of the 15th Int'l Conf. on Data Engineering, Sydney, Australia, March 1999.
9. D. J. Berndt and J. Clifford, “Finding Patterns in time Series: A Dynamic Programming Approach,” Advances in Knowledge Discovery 1996, AAAI MIT Press.
10. C. Bettini, X. S. Wang, S. Jajodia and J-L. Lin, "Discovering Frequent Event Patterns With Multiple Granularities In Time Sequences," IEEE Transactions on Knowledge and Data Engineering, Vol. 10, No. 2, 1998, pp. 222-237.
11. S. Brin, R. Motwani, J. D. Ullman, S. Tsur, “Dynamic Itemset Counting And Implication Rules For Market Basket Data,” SIMOD, 1997, pp. 255-264.
12. S. Chakrabarti, B. Dom, R. Agrawal and P. Raghavan, "Using Taxonomy, Discriminants, and Signatures for Navigating in Text Databases", Proc. of the 23rd Int'l Conference on Very Large Data Bases, Athens, Greece, August 1997.
13. E. Chen and X. Wang, "Semi-Structured Data Extraction And Schema Knowledge Mining," Proceedings. 25th EUROMICRO Conference, Volume: 2, 1999, pp. 310 -317.
14. M-S. Chen, J. Han and P. S. Yu, “Data Mining:An Overview from a Database Perspective,” IEEE Transactions on Knowledge and Data Engineering, Vol. 8, No. 6, 1996, pp. 866-883.
15. M-S. Chen, J-S. Park and P. S. Yu, ``Efficient Data Mining for Path Traversal Patterns,'' IEEE Trans. on Knowledge and Data Engineering, Vol. 10, No. 2, April 1998, pp. 209-221.
16. D. Cheung, S. D. Lee and B. Kao, "A General Incremental Technique For Maintaining Discovered Association Rules," in the Proceedings of the Fifth International Conference On Database Systems For Advanced Applications (DASFAA '97), Melbourne, Australia, March 1997.
17. I-J, Chiang and T. Y. Lin, "Using Rough Sets to Build-up One to One Customer Services," The 24th Annual International Computer Software and Applications Conference, 2000, pp. 463-464.
18. D. J. Cook and L. B. Holder, "Graph-Based Data Mining," IEEE Intelligent Systems, Vol. 15, No. 2, 2000, pp. 32-41.
19. R. Cooley, B. Mobasher and J. Srivastava, "Web Mining: Information and Pattern Discovery on the World Wide Web," in Proceedings of the 9th IEEE International Conference on Tools with Artificial Intelligence (ICTAI'97), Nov. 1997.
20. R. Cooley, B. Mobasher and J. Srivastava, "Grouping Web Page References into Transactions for Mining World Wide Web Browsing Patterns," Proceedings of the 1997 IEEE Knowledge and Data Engineering Exchange Workshop (KDEX-97), Nov. 1997.
21. R. Cooley, B. Mobasher and J. Srivastava, "Data Preparation for Mining World Wide Web Browsing Patterns," Journal of Knowledge and Information Systems, Vol. 1, No. 1, 1999.
22. V. Dhar and A. Tuzhulin, "Abstract-Driven Pattern Discovery In Databases", IEEE Transactions on Knowledge and Data Engineering, Vol. 5, No. 6, 1993, pp. 926-938
23. S. Dua, E. Cho, S. S. Iyengar, "Discovery Of Web Frequent Patterns And User Characteristics From Web Access Logs: A Framework For Dynamic Web Personalization," Proceedings. 3rd IEEE Symposium on Application-Specific Systems and Software Engineering Technology, 2000, pp. 3-8.
24. C. Faloutsos, M. Ranganathan and Y. Manolopoulos, "Fast Subsequence Matching in Time-Series Databases," SIGMOD Conference 1994, pp. 419-429.
25. C. Faloutsos and K-I. Lin, “FastMap: A Fast Algorithm for Indexing, Data-Mining and Visualization of Traditional and Multimedia Datasets,” SIGMOD Conference 1995, pp.163-174.
26. L. Feng, H. Lu and A. Wong, "A Study Of Database Buffer Management Approaches: Towards The Development Of A Data Mining Based Strategy," 1998 IEEE International Conference on Systems, Man, and Cybernetics, Vol. 3, 1998 .
27. T. Feng and K. Murtagh, "Towards Knowledge Discovery From WWW Log Data," Proc. International Conference on Information Technology: Coding and Computing, 2000, pp. 302-307.
28. A. A. Freitas, “On Rule Interestingness Measures,” Knowledge-Based Systems, Vol 12, 1999, pp. 309-315.
29. G. Grahne, L.V.S. Lakshmanan and X.Wang, "Efficient Mining Of Constrained Correlated Sets", Proc. Of the 16th International Conference on Data Engineering, 2000, pp. 512 -521.
30. J. Han, G. Dong G. and Y. Yin, “Efficient Mining of Partial Periodic Patterns in Time Series Database,” 15th International Conference on Data Engineering, 1999, pp. 106-115.
31. J. Han and Y. Fu, " Mining Multiple-Level Association Rules In Large Databases ", IEEE Transactions on Knowledge and Data Engineering, Vol. 11, 1999, pp. 798 -805.
32. J. Han, L. V. S. Lakshmanan and R. T. Ng, " Constraint-Based, Multidimensional Data Mining'', Computer, Vol. 32, 1999, pp. 46-50.
33. J. Han and M. Kamber, Data mining: Concepts and Techniques, Academic Press, 2001.
34. J. Han, J. Pei and Y. Yin, "Mining Frequent Patterns without Candidate Generation," Proc. 2000 ACM-SIGMOD Int. Conf. Management of Data (SIGMOD'00), Dallas, TX, May 2000, pp. 1-12.
35. M. Klemettinen, H. Mannila and H. Toivonen, “Interactive Exploration Of Interesting Findings In The Telecommunication Network Alarm Sequence Analyzer (TASA),” Information and Software Technology, Vol. 41, No. 9, June 1999, pp. 557-567.
36. M. Klemettinen, H. Mannila, P. Ronkainen, H. Toivonen and A. I. Verkamo, “Finding Interesting Rules for Large Sets of Discovered Association Rules,” Proc. of the Third International Conference on Information and Knowledge Management, Gaithersburg, Maryland, 1994, pp. 401-407
37. L. V. S. Lakshmanan, R. Ng, J. Han and A. Pang, " Optimization of Constrained Frequent Set Queries with 2-Variable Constraints,'' Proc. 1999 ACM-SIGMOD Conf. on Management of Data (SIGMOD'99), 1999, pp. 157-168.
38. J. Lee, D. Grossman, O. Frieder and M. C. McCabe, "Integrating Structured Data And Text: A Multi-Dimensional Approach," Proc. International Conference on Information Technology: Coding and Computing, 2000, pp. 264-269.
39. B. Lent, R. Agrawal and R. Srikant, "Discovering Trends in Text Databases", Proc. of the 3rd Int'l Conference on Knowledge Discovery in Databases and Data Mining, Newport Beach, California, August 1997.
40. B. Lent. A. Swami and J. Widom, "Clustering Association Rules," Proc. of the Thirteenth International Conference on Data Engineering, Birmingham, UK, April 1997, pp. 220-231.
41. N. Lesh, M. J. Zaki and M. Oglhara, "Scalable Feature Mining For Sequential Data," IEEE Intelligent Systems, Vol. 15, No. 2, 2000, pp. 48-56.
42. S. Li, H. Shen and L. Cheng, "New Algorithms For Efficient Mining Of Association Rules," Information Sciences, Vol. 118, No. 1-4, Sep. 1999, pp. 251-268.
43. C-S. Li, P. S. Yu, and V. Castelli, “HierarchyScan: A Hierarchical Similarity Search Algorithm for Databases of Long Sequences,” Proc. of the Twelfth International Conference on Data Engineering, New Orleans, Louisiana, 1996, pp. 546-553.
44. M-Y Lin and S-Y Lee, "Incremental Update On Sequential Patterns In Large Databases," Proc. Of the Tenth IEEE International Conference on Tools with Artificial Intelligence, 1998, pp. 24-31.
45. X. Lin, C. Liu, Y. Zhang and X. Zhou, "Efficiently Computing Frequent Tree-Like Topology Patterns In A Web Environment," Proc. Technology of Object-Oriented Languages and Systems, 1999.
46. B. Liu, W. Hsu and S. Chen, " Using General Impressions to Analyze Discovered Classification Rules," Proc. of the Third International Conference on Knowledge Discovery and Data Mining, 1997, pp. 31-36.
47. B. Liu, W. Hsu, L-F. Mun and H-Y. Lee, “Finding Interesting Patterns Using User Expectations,” IEEE Transactions on Knowledge and Data Engineering, Vol. 11, No. 6, 1999, pp. 817-832
48. H. Mannila, H. Toivonen, and A. I. Verkamo, "Discovery Of Frequent Episodes In Event Sequences," Data Mining and Knowledge Discovery, No. 1, Nov. 1997, pp. 259-289.
49. R. Ng, L. V. S. Lakshmanan, J. Han and T. Mah, " Exploratory Mining via Constrained Frequent Set Queries,'' Proc. Of 1999 ACM-SIGMOD Conf. on Management of Data (SIGMOD'99), Philadelphia, PA, June 1999, pp. 556-558.
50. R. Ng, L. V. S. Lakshmanan, J. Han and A. Pang, " Exploratory Mining and Pruning Optimizations of Constrained Associations Rules,'' Proc. of 1998 ACM-SIGMOD Conf. on Management of Data, 1998, pp. 13-24.
51. B. Ozden, S. Ramaswamy and A. Silberschatz, “Cyclic Association Rules,” International Conference on Data Engineering, April 1998.
52. B. Padmanabhan and A. Tuzhilin, “Unexpectedness As A Measure Of Interestingness In Knowledge Discovery,” Decision Support Systems, 1999, Vol. 27, pp. 303-318
53. J-S. Park, M-S. Chen and P. S. Yu, ``Using a Hash-Based Method with Transaction Trimming for Mining Association Rules,'' IEEE Trans. on Knowledge and Data Engineering, Vol. 9, No. 5, Oct. 1997, pp. 813-825.
54. S. Park, D. Lee and W. W. Chu, "Fast Retrieval Of Similar Subsequences In Long Sequence Databases," Proc. 1999 Workshop on Knowledge and Data Engineering Exchange, 1999, pp. 60-67.
55. S. Park, W. W. Chu, J. Yoon and C. Hsu, “Efficient Searches For Similar Subsequences Of Different Lengths In Sequence Databases,” Proc. 16th International Conference on Data Engineering, 2000, pp. 23-32.
56. S. Park "Neural Network and Customer Grouping in E-commerce: A Framework Using Fuzzy ART Research Challenges,” Proc. Of Academia/Industry Working Conference, 2000, pp. 331-336.
57. N. Pasquier, Y. Bastide, R. Taouil and L. Lakhal, "Efficient Mining Of Association Rules Using Closed Itemset Lattices," Information Systems, Vol. 24, No. 1, March 1999, pp. 25-46.
58. J. Pei, J. Han and L. V. S. Lakshmanan, "Mining Frequent Itemsets with Convertible Constraints,'' Proc. 2001 Int. Conf. on Data Engineering (ICDE'01), Heidelberg, Germany, April 2001.
59. J. Pei and J. Han ,"Can We Push More Constraints into Frequent Pattern Mining? '', Proc. 2000 Int. Conf. on Knowledge Discovery and Data Mining (KDD'00), Boston, MA, August 2000.
60. G. Piatetsky-Shapiro, “Discovery, Analysis, and Presentation of Strong Rules,” Knowledge Discovery in Databases, AAAI/MIT Press, 1991.
61. T. M. Saar, P. Nava, R. Gadi and P. Avi, "Mining Relational Patterns From Multiple Relational Tables," Decision Support Systems, Vol. 27, 1999, pp. 177-195.
62. K. Sadakane and H. Imai,"Text Retrieval By Using K-Word Proximity Search," 1999 International Symposium on Database Applications in Non-Traditional Environments, pp. 183-188.
63. K. Sartipi, K. Kontogiannis and F. Mavaddat, "A Pattern Matching Framework For Software Architecture Recovery And Restructuring," 8th International Workshop on Program Comprehension, 2000, pp. 37-47.
64. A. Savasere, E. Omiecinski and S. Navathe, "An Efficient Algorithm for Mining Association Rules in Large Databases," Proc. Int'l Conf. Very Large Data Bases, Zurich, Switzerland, Sep. 1995, pp. 432-444.
65. A. Silberschatz and A. Tuzhilin, “On Subjective Measures of Interestingness in Knowledge Discovery,” First International Conference on Knowledge Discovery and Data Mining, August 1995.
66. A. Silberschatz, and A. Tuzhilin, “What Makes Patterns Interesting in Knowledge Discovery Systems,” IEEE Transactions on Knowledge and Data Engineering, Vol. 8, No. 6, 1996, pp. 970-974.
67. C. Silverstein, S. Brin and R. Motwani, " Beyond Market Baskets: Generalizing Association Rules to Dependence Rules," Data Mining and Knowledge Discovery, Vol. 2, 1998, pp. 39-68.
68. G. Specht and T. Kahabka, "Information Filtering and Personalization in Databases using Gaussian Curves," 2000 International Database Engineering and Applications Symposium, pp. 16-24.
69. R. Srikant and R. Agrawal ," Mining Generalized Association Rules," Proc. of the 21st Int'l Conference on Very Large Databases, Zurich, Switzerland, Sep. 1995.
70. R. Srikant, Q. Vu and R. Agrawal, "Mining Association Rules with Item Constraints," Proc. of the 3rd Int'l Conference on Knowledge Discovery in Databases and Data Mining, Newport Beach, California, August 1997.
71. S. Srinivasa and M. Spiliopoulou, “Modeling Interactions Based On Consistent Patterns,” International Conference on Cooperative Information Systems, 1999, pp. 92-101.
72. K. Sumi, Y. Sumi, K. Mase, S-I. Nakasuka and K. Hori, "Takealook: Personalizing Information Presentation According to User’s Interest Space," 1999 IEEE Conference on Systems, Man, and Cybernetics, pp. 354-359.
73. C. Tang; R. W. H. Lau, L. Qing, Y. Huabei, L. Tong and D. Kilis, "Personalized Courseware Construction Based On Web Data Mining," Proceedings of the First International Conference on Web Information Systems Engineering, Vol. 2, 2000, pp. 204-211.
74. H. Toivonen, "Sampling Large Databases For Association Rules," The 22th International Conference on Very Large Databases (VLDB'96), Mumbay, India, Sep. 1996, pp. 134-145.
75. A. K. H. Tung, J. Han, L. V. S. Lakshmanan and R. T. Ng, " Constraint-Based Clustering in Large Databases,'' Proc. 2001 Int. Conf. on Database Theory (ICDT'01), London, U.K., Jan. 2001.
76. J. T-L. Wang, G. W. Chirn, T. G. Marr, B. Shapiro, D. Shasha and K. Zhang, "Combinatorial Pattern Discovery For Scientific Data: Some Preliminary Results," Proceedings of ACM SIGMOD, 1994, pp. 115-125.
77. K. Wang and H. Liu. "Discovering Structural Association Of Semistructured Data," IEEE Transactions on Knowledge and Data Engineering, Vol. 12, No. 3, 2000, pp. 353-371.
78. K. Wang, Y. He and J. Han, "Mining Frequent Itemsets Using Support Constraints,'' Proc. 2000 Int. Conf. on Very Large Data Bases, Cairo, Egypt, Sept. 2000.
79. S. M. Weiss, C. Apte, F. J. Damerau, D. E. Johnson, F. J. Oles, T. Goetz and T. Hampp, "Maximizing Text-Mining Performance," IEEE Intelligent Systems, Vol. 14, No. 4, 1999, pp. 63-69.
80. B-K. Yi, N. D. Sidiropoulos, T. Johnson, H. V. Jagadish, C. Faloutsos, and A. Biliris, "Online Data Mining For Co-Evolving Time Sequences," Proc. 16th International Conference on Data Engineering 2000, pp. 13-22.
81. P. S. Yu, "Data Mining And Personalization Technologies," the 6th International Conference on Database Systems for Advanced Applications, 1999, pp. 6-13.
82. O. R. Zaiane, M. Xin and J. Han, "Discovering Web Access Patterns and Trends by Applying OLAP and Data Mining Technology on Web Logs," Proc. Advances in Digital Libraries Conf. (ADL'98), Santa Barbara, CA, April 1998, pp. 19-29.
83. M. J. Zaki, "Efficient Enumeration of Frequent Sequences," 7th International Conference on Information and Knowledge Management, Washington DC, Nov. 1998, pp 68-75.
84. M. J. Zaki, N. Lesh and M. Ogihara, "PlanMine: Predicting Plan Failures using Sequence Mining," Artificial Intelligence Review, special issue on the Application of Data Mining, 1999.

Comments

Leave a Reply

You must be logged in to post a comment.

  • About

    This is an area on your website where you can add text.
    This will serve as an informative location on your website, where you can talk about your site.

  • Admin

  • web traffic analysis
  • Wordpress
  • The eval base64_decode function inside old footer.php has been removed and updated!