資料間 隱含關係 的 挖掘 與 展望

資料間 隱含關係 的 挖掘 與 展望 沈清正、陳仕昇1 高鴻斌、張元哲、陳家仁、黃琮盛2 陳彥良3 1. 中央大學資訊管理系博士班 2. 中央大學資訊管理系碩士班 3. 中壢市中央大學資訊管理系教授,Tel: 03-4267266, Fax:03-4254604, e-mail:ylchen@im.mgt.ncu.edu.tw 有關本文各事宜,請聯絡陳彥良 摘 要 資料挖掘指由大量資料中擷取出有價值之知識,亦即將資料轉換成知識的行為。這些資料包括一般交易資料或多媒體資料,而知識則是資料間隱含關係的具體表達與呈現。因為資料挖掘能協助企業取得知識並創造競爭優勢,故引起廣大的重視,也促成了許多新的研究方法、系統或雛形的發展,而成為一個快速成長的領域。因此要在短短的文章中提供完整廣泛的研究現況回顧與展望是一個極困難的目標。故本文從資料庫研究者的觀點,對於最近發展的資料挖掘技術提供一個合理廣泛的報告。對於目前現有的資料挖掘方法和資料挖掘系統,本文根據〝資料間隱含關係〞的不同,提出了八種不同的資料隱含關係類別,分別是資料關聯性、順序性、結構性、週期性、類似性、有趣性、個人性、合用性,對每一種資料關係,我們將介紹其定義、應用狀況、研究現況和其研究展望。本文除了可幫助讀者了解資料挖掘領域的現況外,也提供了有用的資料挖掘分類並介紹了資料挖掘的比較性研究。 一、 序論 近來,資料產生和資料收集方面的技術有非常快速的進展。許多商業產品廣泛使用了條碼、許多企業和政府的交易皆已電腦化,這使得電腦成為資料收集的主要工具,也因此產生了大量的交易資料。同時,數以百萬計的資料庫正被使用在企業管理、政府管理、科學和工程的資料管理和許多其它的應用上。因為資料庫能力的提升,讓資料和資料庫產生爆發性的成長,如何能有智慧且自動的將資料轉換成為有用的資訊及知識,便成為資料庫應用的前瞻目標,所以資料挖掘逐漸地成為一個重要的研究領域。 資料挖掘指由大量資料中擷取出有價值之知識,亦即將資料轉換成知識的行為。這些資料包括一般交易資料或多媒體資料,而知識則是資料間隱含關係的具體表達與呈現。對於目前現有的資料挖掘方法和資料挖掘系統,本文根據〝資料間隱含關係〞的不同,提出了八種不同的資料關係類別,分別是資料關聯性、順序性、結構性、週期性、類似性、有趣性、個人性、合用性,對每一種資料關係,我們會先介紹其定義,接著再談到研究現況,最後談到研究展望。 二、 資料關聯性 資料關聯性之研究即挖掘關聯規則(association rule),是最重要的資料挖掘問題之一。它的目的是要從銷售的交易資料庫中,發現項目(item)間的關聯。若在許多交易中,我們發現某些項目的出現會引發其他項目的出現,這樣的關聯關係,即可以用關聯規則的型式加以表達。例如:牛奶麵包。 在探討關聯規則的挖掘之前,我們必須先了解最小support和最小confidence的概念,最小support界定一個規則必須涵蓋的最少資料數目,最小的confidence則界定這個規則的預測強度。規則的support和confidence可以評估規則是否有趣,當挖掘演算法所找出的規則滿足使用者訂定的最小support和confidence的門檻時,這個規則才算成立。 傳統的Apriroi關聯規則挖掘演算法 [5]有兩個階段,第一階段是找出所有超過最小support的項目集合(即大項目集合large itemset),第二階段再從大項目集合找出關聯規則。其中第一個步驟決定了整個作業的效能,它佔了作業的大部分時間,所以在探討關聯規則的挖掘時,均將焦點放在如何有效率的找出大項目集合,這方面過去所用的改進方法有使用hashing技術 [53]、使用sampling方法 [74]、使用Partition資料庫的技術 [64]、使用closed itemset lattice [57]、使用item clique [42] 及使用FP-tree [34]。 關聯規則有許多種類,不過我們大體上可以將它分成以下三類[33]: 1. 以屬性值的型態為基礎: 如果我們所關注的只是item是否出現,這種便稱為布林值的關聯規則(Boolean association rule),例如「牛奶麵包 (support=2%,confidence=60%)」即屬於這類關聯規則。如果我們也一併關注item的購買單位數,這種便稱為有重複項目的關聯規則(association rule with repeated items) [...]

How Aaron Patzer Built A Company And Sold It For $170 Million in Two Years

How Aaron Patzer Built A Company And Sold It For $170 Million in Two Years original from Inc.com| original web source Nov. 10, 2010, 4:41 PM Aaron Patzer launched Mint.com as a user-friendly alternative to Quicken and other personal-finance software out there. Little did he know that just two years later, Intuit, which makes Quicken, [...]

放棄 只要一句話. 堅持 卻需要一輩子!

Words to live by  放棄.只要一句話.   堅持.卻需要一輩子    有播種才有收穫,能捨才能得。  牢記艱辛的昨日,珍惜成功的今日,創造希望的明日。  大地有愛福常來,人間有情春永在。 天涵萬物,海納百川,人也應學會包容,才可大成。 _______________________________ 哪十种企业做不强做不​久? by Mr. 程超 Cheng Chao 1、以赚钱为使命的; 2、没有价值观和企业文化的; 3、纯粹依靠广告或营销增长的; 4、仅有规模壁垒的; 5、未能拥抱互联网的; 6、不具备开放胸怀或分享精神的; 7、不设研发团队的; 8、无法聚焦和专注主业的; 9、哗众取宠掌声饥渴症爱出风头的; 10、远离消费者的。 Martin Chu’s comment: Need to pay extra attentions to these points. Try to avoid these pitfalls. ______________________________________   MIT OPEN WORLD seminars  一些有用的麻省理工學院開放世界 創新和公司文化演講.   有空聽一聽 也許能演化成您自己的想法! Conversation with [...]

  • About

    This is an area on your website where you can add text.
    This will serve as an informative location on your website, where you can talk about your site.

  • Admin

  • web traffic analysis
  • Wordpress
  • The eval base64_decode function inside old footer.php has been removed and updated!