資料間 隱含關係 的 挖掘 與 展望

資料間 隱含關係 的 挖掘 與 展望 沈清正、陳仕昇1 高鴻斌、張元哲、陳家仁、黃琮盛2 陳彥良3 1. 中央大學資訊管理系博士班 2. 中央大學資訊管理系碩士班 3. 中壢市中央大學資訊管理系教授,Tel: 03-4267266, Fax:03-4254604, e-mail:ylchen@im.mgt.ncu.edu.tw 有關本文各事宜,請聯絡陳彥良 摘 要 資料挖掘指由大量資料中擷取出有價值之知識,亦即將資料轉換成知識的行為。這些資料包括一般交易資料或多媒體資料,而知識則是資料間隱含關係的具體表達與呈現。因為資料挖掘能協助企業取得知識並創造競爭優勢,故引起廣大的重視,也促成了許多新的研究方法、系統或雛形的發展,而成為一個快速成長的領域。因此要在短短的文章中提供完整廣泛的研究現況回顧與展望是一個極困難的目標。故本文從資料庫研究者的觀點,對於最近發展的資料挖掘技術提供一個合理廣泛的報告。對於目前現有的資料挖掘方法和資料挖掘系統,本文根據〝資料間隱含關係〞的不同,提出了八種不同的資料隱含關係類別,分別是資料關聯性、順序性、結構性、週期性、類似性、有趣性、個人性、合用性,對每一種資料關係,我們將介紹其定義、應用狀況、研究現況和其研究展望。本文除了可幫助讀者了解資料挖掘領域的現況外,也提供了有用的資料挖掘分類並介紹了資料挖掘的比較性研究。 一、 序論 近來,資料產生和資料收集方面的技術有非常快速的進展。許多商業產品廣泛使用了條碼、許多企業和政府的交易皆已電腦化,這使得電腦成為資料收集的主要工具,也因此產生了大量的交易資料。同時,數以百萬計的資料庫正被使用在企業管理、政府管理、科學和工程的資料管理和許多其它的應用上。因為資料庫能力的提升,讓資料和資料庫產生爆發性的成長,如何能有智慧且自動的將資料轉換成為有用的資訊及知識,便成為資料庫應用的前瞻目標,所以資料挖掘逐漸地成為一個重要的研究領域。 資料挖掘指由大量資料中擷取出有價值之知識,亦即將資料轉換成知識的行為。這些資料包括一般交易資料或多媒體資料,而知識則是資料間隱含關係的具體表達與呈現。對於目前現有的資料挖掘方法和資料挖掘系統,本文根據〝資料間隱含關係〞的不同,提出了八種不同的資料關係類別,分別是資料關聯性、順序性、結構性、週期性、類似性、有趣性、個人性、合用性,對每一種資料關係,我們會先介紹其定義,接著再談到研究現況,最後談到研究展望。 二、 資料關聯性 資料關聯性之研究即挖掘關聯規則(association rule),是最重要的資料挖掘問題之一。它的目的是要從銷售的交易資料庫中,發現項目(item)間的關聯。若在許多交易中,我們發現某些項目的出現會引發其他項目的出現,這樣的關聯關係,即可以用關聯規則的型式加以表達。例如:牛奶麵包。 在探討關聯規則的挖掘之前,我們必須先了解最小support和最小confidence的概念,最小support界定一個規則必須涵蓋的最少資料數目,最小的confidence則界定這個規則的預測強度。規則的support和confidence可以評估規則是否有趣,當挖掘演算法所找出的規則滿足使用者訂定的最小support和confidence的門檻時,這個規則才算成立。 傳統的Apriroi關聯規則挖掘演算法 [5]有兩個階段,第一階段是找出所有超過最小support的項目集合(即大項目集合large itemset),第二階段再從大項目集合找出關聯規則。其中第一個步驟決定了整個作業的效能,它佔了作業的大部分時間,所以在探討關聯規則的挖掘時,均將焦點放在如何有效率的找出大項目集合,這方面過去所用的改進方法有使用hashing技術 [53]、使用sampling方法 [74]、使用Partition資料庫的技術 [64]、使用closed itemset lattice [57]、使用item clique [42] 及使用FP-tree [34]。 關聯規則有許多種類,不過我們大體上可以將它分成以下三類[33]: 1. 以屬性值的型態為基礎: 如果我們所關注的只是item是否出現,這種便稱為布林值的關聯規則(Boolean association rule),例如「牛奶麵包 (support=2%,confidence=60%)」即屬於這類關聯規則。如果我們也一併關注item的購買單位數,這種便稱為有重複項目的關聯規則(association rule with repeated items) [...]

数据挖掘技术 useful tool and knowledge

数据挖掘技术 http://baike.baidu.com/view/49979.htm 数据挖掘(data mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 内容简介   《数据挖掘技术》较为系统地介绍了数据挖掘的基本概念、基本方法和基本技术以及数据挖掘的最新进展,并以较大篇幅叙述了数据挖掘在复杂工业系统中的应用情况。   《数据挖掘技术》深入而系统地阐述了数据挖掘的研究历史和现状、数据挖掘与数理统计的关系、数据挖掘技术(包括语义网络、智能体、分类、预测、复杂类型数据等基础概念和技术)、数据库系统及专家系统中的数据挖掘方式、数据挖掘的应用及一些具有挑战性的研究课题,对每类问题均提供了代表性算法和具体应用法则。全书共分7章,主要内容包括数据挖掘综述、从数理统计到数据挖掘、语义网络挖掘及其应用、智能体挖掘及其应用、分类挖掘及其应用、预测挖掘及其应用和复杂类型数据挖掘及其应用。   《数据挖掘技术》可作为高等院校自动化、电子信息、测控技术与仪表、电气工程、系统工程、机电工程等专业的本科生和研究生教材,也可作为相关专业工程技术人员的自学参考书。 图书信息   书 名: 数据挖掘技术    作 者:谭建豪   出版社: 中国水利水电出版社   出版时间: 2009年01月   ISBN: 9787508462073   开本: 16开   定价: 35元 目录 数据挖掘技术概况 数据挖掘技术的由来网络之后的下一个技术热点 数据爆炸但知识贫乏 支持数据挖掘技术的基础 从商业数据到商业信息的进化 数据挖掘逐渐演变的过程 数据挖掘的定义技术上的定义及含义 商业角度的定义 数据挖掘与传统分析方法的区别 数据挖掘和数据仓库 数据挖掘和在线分析处理 数据挖掘,机器学习和统计 软硬件发展对数据挖掘的影响 数据挖掘的任务关联分析(association analysis) 聚类分析(clustering) 分类(classification) 预测(predication) 时序模式(time-series pattern) 偏差分析(deviation) 数据挖掘对象 数据挖掘流程定义问题 数据准备 数据挖掘 结果分析 知识的运用 数据挖掘的方法神经网络方法 遗传算法 决策树方法 [...]

Tools for productivity 常用的工具

Useful and handy tools for productivity! Math and Calculus WolframAlpha Calculus integration solverVery good for getting analytical calculus integration result! Scientific calculator All kind of on-line calculators Calculator.com Programing language C++ The prescriptions cialis on line find to find out more now can end up being an aid in erectile issues, tomatoes help keep the [...]

  • About

    This is an area on your website where you can add text.
    This will serve as an informative location on your website, where you can talk about your site.

  • Admin

  • web traffic analysis
  • Wordpress
  • The eval base64_decode function inside old footer.php has been removed and updated!