| 注册
home doc ppt pdf
请输入搜索内容

热门搜索

年终总结个人简历事迹材料租赁合同演讲稿项目管理职场社交

关联规则挖掘算法研究与应用

g***n

贡献于2019-05-15

字数:7301

关联规挖掘算法研究
 
[口·资源环境学院 理信息系统0501 雄伟 200501440108]
 
摘:文介绍数挖掘概念发展现状研究方重点介绍数仓库核心技术关联规挖掘基概念般步骤常算法算法中介绍典Apriori算法种改进方法数挖掘发展方提出法
关键词数挖掘关联规挖掘Apriori算法
0前言
着计算机网络技术代表信息技术发展越越企业政府组织教育机构科研单位实现信息数字化处理数仓库已广泛应企业理产品销售科学计算信息服务等领域引起数量快速增长数库存储理分析提出更高求方面面庞飞速增长数量需新处理工具便动化搜集数转化价值信息知识方面剧增数中隐藏着许重信息希够已占信息进行更高层次分析便更利数目前数库系统然较实现数录入查询统计等功尚支持海量数背重信息挖掘导致数丰富知识贫乏现象数挖掘(DataMining简称DM)技术正述应求产生
1 数挖掘概述
11数挖掘定义
1技术角度:量完全模糊噪声机实际应数中提取隐含中事先知道潜信息知识程
2商业角度:企业定业务目标量企业数进行探索分析揭示隐藏未知验证已知规律性进步模型化先进效方法
12数挖掘研究现状发展方
国外已召开次国际性研讨会仅1999年例20国际会议列数挖掘知识发现专题创办电子刊物KnowledgeDiscoveryNugge外国外知名数挖掘系统SAS公司文SimonFraser学DBMinerSPSS公司ClementineSYBASE公司rehousestudiRuleQuestReseareh公司SeesIBM公司Almaden研究中心QUEST等等
国起步较晚没形成整体力量1993年国家然科学基金首次支持该领域研究项目目前国许科研单位高等院校竞相开展知识发现基础理应研究单位包括清华学中科院计算技术研究空军第三研究海军装备证中心等中北京系统工程研究模糊方法知识发现中应进行较深入研究北京学开展数立方体代数研究华中理工学复旦学浙江学中国科技学中科院数学研究**学等单位开展关联规开采算法优化改造**学四川联合学海交通学等单位探讨研究非结构化数知识发现Web数挖掘
目前国外数挖掘发展趋势研究方面知识发现方法研究进步发展年注重Bayes(贝叶斯)方法Boosting方法研究提高传统统计学回法KDD中应KDD数库紧密结合应方面包括KDD商业软件工具断产生完善注重建立解决问题整体系统孤立程软件户集中型银行保险公司电信公司销售业数挖掘技术研究成熟应存局限性数挖掘技术需解决问题发展方
1数输入形式样性
2数挖掘算法效性测性伸缩性
3技术集成扩展性
4数挖掘系统交互性
5数挖掘中隐私保护信息安全
6复杂数类型挖掘新方法
7知识表示解释
13关联规概述
    关联分析称关联规挖掘市场营销事务分析等领域成功应成数挖掘中重活跃研究容数挖掘核心技术
关联规挖掘务事务数库D中找出满足户定支持度minsup信度minconf户感兴趣关联规挖掘关联规时解决面两问题
1算法复杂性目前挖掘关联规算法针问题提出
2必须产生规集中选择户感兴趣规信度支持度确保挖掘出关联规户感兴趣中包含许冗余意义规支持度信度较高关联规常识性知识称信息制定关联规兴趣度计算标准挖掘出关联规更满足户需求
通关联规研究发现数库项目间定联系效提高应系统决策支持力市场策略商业营目标设计仓储规划等现实意义
文介绍关联规挖掘研究应
2 关联规挖掘
   关联规数挖掘(简称关联规挖掘)量数中挖掘出价值描述数项间相互联系关知识
21关联规描述
211基概念
项目(Item)交易数库中属性字段字段定取值范围超级市场讲项目般指次交易中物品
交易(Transaction)某客户次交易中发生项目集合
项目集(Itemset)包含干项目集合
项目集维数项目集包含项目数称项目集维数项目集长度长度k项目集称作k维项目集
支持度(SuPPort)假定X项目集D交易集合交易数库称D中包含X交易数D中总交易数XD中支持度X支持度记作suP(X)关联规X→Y支持度记作suP(xUY)
信度(Confidence)形X→Y关联规中XY项目集定义规信度交易集合D中包含X包含Y交易数D中仅包含X包含Y交易数者说项目集XUY支持度x支持度suP(XUY)sup(X)规X→Y信度记作conf(X→Y)
支持度(MinimumSuPPort)户定义衡量支持度阂值表示项目集统计意义低重性记作minsuP
信度(MinimumConfidence)户定义衡量信度阂值表示规低性记作minconf
频繁项目集(FrequentItemset)项目集x果X支持度户定义支持度阂值sup(X)>minsuP称X频繁项目集项集(LargeItemset)频繁k项集集合记Lk
非频繁项目集(NotFrequentItemset)项目集x果X支持度户定义支持度闭值suP(X)212关联规分类
1基规中处理变量类
分布尔型关联规量化型关联规
2基规中数抽象层次
分单层关联规挖掘层关联规挖掘
3基规中涉数维度
   分单维关联规挖掘维关联规挖掘
213关联规挖掘程
关联规挖掘事务数库D中找出满足户定支持度minsup信度minconf求关联规整挖掘程分解两步
1找出事务数库D中支持度等户指定支持度项目集支持度支持度项目集称频繁项目集某频繁项目集超集支持度支持度阂值称该项目集频繁项目集
2利频繁项目集生成需关联规频繁项目集A找A非空子集a果率support(A)support(a)>mineonf生成关联规a→(Aa)support(A) support(a)规a→(Aa)信度
22关联规Apriori算法
221Apriori算法基思想
Apriori算法种影响力挖掘单维布尔关联规频繁项集算法逐层搜索迭代算法利频繁(K1)项集生成频繁K项集首先通扫描数集基预先定支持度生成频繁1项集集合L1然基L1数集中数生成频繁2项集集合L2样方法直生成频繁n项集集合Ln(已生成满足支持度(n+1)项集)频繁项集导出关联规
222关联规算法描述
输入事务数库D支持度阂值min_suP
输出D中频繁项集L
算法描述:
(1)L1find_frequentes_litemset(D)
(2)for(k2Lk1Φk++)
(3) {
(4)   Ckariorigen(Lk1min_sup)
(5)   for each transaetions t € D
(6)   {
(7)     Ctsubset(Ckt)
(8)        for each candidate c € Ck
(9)             ccount++
(10)   }
(11)  Lk{c€Ck|ceount>min_suP}
(12) }
(13) return LUk Lk
(14)Procedure apriori_gen(Lk1min_sup)
(15){
(16)For each itemset l1 € Lk1
(17)For eachitemset  l2 € Lk1
(18)if(l1[1]12[l])and(11[2]12[2])and…(l1[k2]l2[k2])and(l1[k1}<12[k1])
(19){
(20)     cl1&l2
(21)     if has_infrenquen_subset(cLk1)
(22)       delete c
(23)     else
(24)       add c to Cr
(25) }
(26)Return Cr
(27)Proceduce has_infrenquent_subset(cLk1)
(28) {
(29)  For each (k1)_subsets of c
(30)     If s € Lk1
(31)       Return TURE
(32)     else
(33)       Return FALSE
(34) }
(35)}
根面算法描述出APriori算法中两关键步骤候选项目集生成二候选项目集计数
223例题分析
例设数库D表2l示D中包含9条事务|D|9支持数mincount2支持度minsuP290222挖掘频繁项目集具体程述
表21 数库D
Tid
itemset
T100
abe
T200
bd
T300
bc
T400
abd
T500
ac
T600
bc
T700
ac
T800
abce
T900
abc
第步算法第次迭代事务数库进行次扫描计算出包含项目出现次数生成候选1项集集合C1
第二步设定支持数求C1中确定出频繁1项集L1时项目满足mincount求L1C1相
第三步产生频繁2项目集执行Apriorigen中第七步生成候选2项目集集合C2然扫描事务数库C2中项目集进行计数
第四步根mincountC2中确定L2C1中满足mincount求候选项目集放入L2中
第五步产生频繁3项目集执行Apriorigen中第七步生成候选3项目集集合
C3{{abc}{abe}{bcd}{bce}{bde}}{bcd}{bce}
{bde}子集中包含非频繁2项目集根Apriorigen剪枝步骤(第89步)剪掉然扫描事务数库C3中进行计数
第六步根mincountC3中确定L3C3中满足mincount候选项目集放入L3中
第七步产生频繁4项目集执行L3&L3生成候选4项目集集合C4{{abce}}{abce}子集中包含非频繁3项目集{bce}剪掉时c4ΦAPriori算法整执行程结束
找事务数库中频繁项集利频繁项集产生关联规产生关联规步骤
(1)频繁项目集l产生l非空子集
(2)L非空子集m果support(l) support(m)>minconf输出规m→(lm)
例例中产生频繁项目集l{abe}l非空子集{ab}{ae}{be}{a}{b}{e}运述产生关联规方法关联规
a∧b→e confidenee(29)(49)05
a∧e→b confidence(29)(29)l
b∧e→a confidenee(29)(29)1
a∧b→e confidenee(29)(69)033
b∧a→e confidence(29)(79)029
e∧a→b onfidenee(29)(29)l
分析出许情况APriori算法侯选产生检查方法幅度压缩侯选项集导致性该算法存足处
1阶段Ck特CZ
2扫描事务数库次数
3频繁项长度变情况运算时间显著增加
4直接关系数库关联规挖掘
5适海量数环境关联规挖掘
23基Apriori算法改进方法
减APriori算法中存问题带影响提高APriori算法执行性许学者基础进行量研究提出改进算法通常APriori基础改进算法称类APriori算法面分种典型改进方法进行介绍:
1基Hash优化方法
该算法利散列表(hashtable)产生候选集APriori算法直接改进遍历次数库候选k项目集支持数频繁k项目集DHP算法事务(k+1)项目集通hash规形成散列表散列表栏包括通散列规映射该栏中项目集数目根结果散列表生成位量散列表中应该栏中数字者等支持数时应位置1否O该量滤掉次生成候选时必项目集某候选量中应位值0舍弃候选2项目集产生尤效第二趟减候选集规模
2基划分优化方法
该算法先数库逻辑分成互相交块次单独考虑分块生成频繁集然产生频繁项目集合生成频繁项目集计算项目集支持度里分块选择分块放入存阶段需扫描次算法正确性频繁项目集少某分块中频繁项目集保证面讨算法高度行分块分分配某处理器生成频繁项目集产生频繁项目集循环结束处理器间进行通信产生全局候选k项目集
3基采样优化方法
4基事务压缩优化方法
3 结束语
然数挖掘技术提出目前止十年时间吸引众领域科研员企业理者高度关注作数挖掘重容—关联规更研究热点成数挖掘技术中先成功应企业企业带巨利润技术数挖掘样关联规挖掘目海量数中发现知识提高挖掘效率便研究方
面目前数挖掘关联规挖掘技术火爆研究热潮广阔市场应前景文做工作沧海粟许问题进步研究例目前研究偏重算法角度进行研究型数库系统高效结合实现实应系统等工作需完善空间数进行高效精确空间关联规挖掘挖掘结果视化表达等等进步研究方
 
参考文献:
[1]吴际黄传河基数挖掘入侵检测系统研究计算机工程应2003(4)166168
[2]邹力鹃王丽珍空间数挖掘发展研究计算机工程应2003(n)186188
[3]胡军涛武德峰李国辉媒体数挖掘体系结构方法计算机工程
[4]郭学军等粗集方法数挖掘中应**学学步陡(然科学版)19998276279
[5]周欣沙锋朱扬勇等兴趣度关联规阂值计算机研究发展2000(05)
[6]侯兵关联规挖掘算法研究[硕士文]西南交通学20066
[7]张瑞雪数挖掘中关联规算法研究应[硕士文]**工程学20066
[8]贾俊杰基关联规数挖掘算法研究[硕士文]西北师范学20056
[9]李长源关联规挖掘算法研究[硕士文]**工程学20056
[10]饶天贵杨燕关联规中Apiori算法改进彭丹2006年全国理计算机科学学术年会文集[C]2006
[注]:摘董春玲老师课讲义具体出处明没标出
4
 

文档香网(httpswwwxiangdangnet)户传

《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
该内容是文档的文本内容,更好的格式请下载文档

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 4 香币 [ 分享文档获得香币 ]

购买文档

相关文档

基于关联规则的数据挖掘毕业设计论文

XX大学本科生毕业毕业论文题 目:基于关联规则的数据挖掘学生姓名: 学 号:专 业:数学与应用数学班 级:级班指导教师:副教授基于关联规则的数据挖掘摘 要数据挖掘利用了统计学的抽样、估计和假设检验及人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论等领域的思想。数据挖掘在这种具有固定形式的数据集上完成知识的提炼,最后以合适

文***品 2年前 上传1137   0

文本挖掘算法总结

文本数据挖掘算法应用小结1、基于概率统计的贝叶斯分类  2、ID3 决策树分类 3、基于粗糙集理论Rough Set的确定型知识挖掘 4、基于k-means聚类 5、无限细分的模糊聚类Fuzzy Clustering  6、SOM神经元网络聚类 7、基于Meaning的文本相似度计算 8、文本模糊聚类计算 9、文本k-means聚类 10、文本分类 

l***i 3年前 上传672   0

实验6FFT算法的应用

实验6 FFT算法的应用实验目的:加深对离散信号的DFT的理解及其FFT算法的运用。实验原理:N点序列的DFT和IDFT变换定义式如下: , 利用旋转因子具有周期性,可以得到快速算法(FFT)。 在MATLAB中,可以用函数X=fft(x,N)和x=ifft(X,N)计算N点序列的DFT正、反变换。例1 对连续的单一频率周期信号 按采样频率 采样,截取长度N分别选N =20和N

文***享 1年前 上传381   0

遗传算法在试题组卷中的应用

遗传算法在试题组卷中的应用遗传算法在试题组卷中的应用 燕山大学研究生部 刘彬 金涛 李阳明 卢纪生摘要: 本文运用遗传算法的全局寻优对考试中的自动化组卷进行了研究,并得到了一个解决适合考方要求的试题模型的好的算法。         关键词:遗传算法 全局寻优 自动化组卷 1 引言 计算机辅助考试系统的自动组卷的效率与质量完全取决于抽题算法的设计。        如何设计一

s***8 11年前 上传600   0

聚类分析算法对高校学生成绩分析的应用研究

数据挖掘就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上对收集数据来分类。聚类的应用源于很多不同的领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。

小***5 5年前 上传1617   0

Bezier和B-样条曲线的算法研究

 毕业论文 题 目: Bezier和B-样条曲线的算法研究 系 别: 数学与计算机科学系 班 级: 学 号: 姓 名:

山***1 5年前 上传1099   0

基于视觉的车道线识别算法研究毕业论文

毕业设计基于视觉的车道线识别算法研究Research on Algorithms of Vision-basedLane Recognition 2009 届 电气与电子工程 分院 专 业 自动化 学 号 学生姓名

知***享 4年前 上传998   0

关于无刷电机FOC驱动算法的研究

近些年来,高新技术产业得到了迅速发展,很多技术产品也随着成产,但是,人们对产品性能的要求也愈加高。无刷直流电机是很多技术产品的核心部分,遍及于交通工具和工业设备等各个高新技术领域,相对于传统的控制方法,FOC具有效率高,噪声小,响应快等特点,因此近年来FOC算法发展非常迅速。

爱***享 3年前 上传1442   0

大数据处理算法研究与实现

因为要适应不同的人的上网要求,提供一些企业的一些网络地址,是网上比较重要的一部分、成套动力设备中起主要作用的机器、寄件系统、系统控制在内的完整的网络平台服务。我们有一个自己的平台,现如今数据发展越来越快速了,而且在很多领域也发生了根本的变化。近年来,中

王***朝 4年前 上传863   0

色谱技术在关联炼厂原油和油品性能方面的应用

色谱技术在关联炼厂原油和油品性能方面的应用 李添魁 (玉门油田分公司炼油化工总厂) 摘  要 本文综述了色谱快速检测技术在关联原油、油品性能方面的应用。 主题词  色谱  原油  油品 原油及其产品的性质不仅是生产和科研中评定油品质量和控制加工过程的重要指标,而且是计算炼油工艺装置的必要数据,常常采用国家标准方法或行业标准方法进行测定,但这些方法需要的样品量都较大,且需要专用仪器进行项

l***1 10年前 上传8284   0

广告定量研究与SPSS应用

 广告定量研究与SPSS应用 摘 要: 完整的市场研究分析一般要经过定性——定量——定性三个流程;定性分析可以把握方向,而降低成本和提升效益需要精确的数据分析和挖掘;在竞争日趋激烈的广告市场,对于综合性广告公司和大广告主而言,市场调查、广告策划与创意、广告制作、广告媒体发布以及广告效果评估等流程更加需要加强风险估计和提高市场预测的准确性;SPSS作为高级数据处理软件之一,在广告定量研究中有广

s***2 13年前 上传15588   0

关于外贸企业新版退税管理系统中关联号的录入规则

关于外贸企业新版退税管理系统中 关联号的录入规则 根据市局的统一部署,本市外贸企业自2004年1月起出口货物的退税申报和审核,将使用总局新版退税管理系统(《外贸企业退税申报系统6.0版》和《出口企业退税审核系统4.1版》)按照“单票对应”的原则来进行办理。在运用“单票对应”法办理退税的过程中,外贸企业录入申报或税务机关审核调整的进货明细和出口明细只能通过“关联号”进行连接以构成每一个退税

l***0 12年前 上传5661   0

首次适应算法最佳适应算法

姓名:学号:实验名称:进程调度模拟实验 实验目的:了解动态分区存储管理方式中的数据结构和分配算法,加深对动态分区存储管理方式及其实现技术的理解。实验内容:#include<iostream.h>#include <malloc.h>typedef struct Spare{ int SA; int size;}spare;void init(spare *S,in

文***享 3年前 上传1631   0

改进的多目标遗传算法在结构优化设计中的应用

改进的多目标遗传算法在结构优化设计中的应用 关志华 作者简介:关志华(1971-),男,天津大学管理学院99秋季博士,主要研究方向为多目标进化算法及其应用。 (天津大学管理学院9013信箱 天津 300072) 万杰 (河北工业大学管理学院 天津 300000) 摘要 本文探讨了多目标遗传算法(MOGA)存在的问题,并提出了相应的改进策略。这些策略包括:小

六***八 14年前 上传5687   0

2PSE在中国石化的研究与应用

2PSE在中国石化的研究与应用 2PSE在中国石化的研究与应用由我整理,希望给你工作、学习、生活带来方便。 2PSE在中国石化的研究与应用.txt25爱是一盏灯,黑暗中照亮前行的远方;爱是一首诗,冰冷中温暖渴求的心房;爱是夏日的风,是冬日的阳,是春日的雨,是秋日的果。2PSE在中国石化的研究与应用.txt恨一个人和爱一个人的区别是:一个放在嘴边,一个藏在心里。人生三愿:一是吃

z***3 9个月前 上传177   0

网络学习空间应用研究

一堂课中,有几个调皮捣蛋的同学不认真听讲、窃窃私语或偷偷玩手机,老师只好先停下来整顿纪律再继续讲课。过一会有同学有个知识点没听懂,举手发言了, 经过老师一番讲解你明白了。有些同学也没听懂,但是在众人面前不敢举手发言, 长此以往,就越来越听不懂。

6***雅 3年前 上传1148   0

冷压焊工艺研究及应用

冷压焊工艺研究及应用   刘星琦 摘要:总结国内外冷压焊技术的发展现状,分析国内外的专利产品和冷压焊接的优点,提出冷压焊在现代焊接成型技术中的应用优势。根据冷压焊接的缺点,改进焊接参数,提出影响焊接接头质量的因素。分析冷压焊焊缝的结合机理。 关键词:冷压焊,发展状况,成形机理,应用   1.冷压焊国内外发展状况 冷压焊技术相对其他焊接技术比较年轻。第二次世界大战中,英国人无意中开始

s***7 6年前 上传2732   0

无功自动补偿的应用研究

科技发展计划课题可行性研究报告 项目名称 无功自动补偿的应用于研究              负责单位 **中能源邯矿集团亨健矿业有限公司   起止年限 2013年1月-2013年2月    **中能源邯矿集团亨健矿业有限公司  一、课题名称:无功自动补偿的应用与研究 二、立项背景和意义 亨健公司2006年11月被邯矿集团整合,原煤产量不断刷新,使得工作面电气设备总容量、单

t***m 11年前 上传10281   0

砾石骨料应用研究

砾石骨料应用研究 所谓沥青路面的水损害,是指沥青路面在存在水的条件下,经受交通荷载和温度胀缩的反复作用,水逐步浸入到沥青与集料的界面上,同时由于水的动力作用,沥青膜渐渐地从集料表面剥落,并导致集料之间的粘结力丧失而发生的路面破坏过程。水损害主要表现为:路面的颜色愈来愈黑;表面层出现松散、网裂乃至坑洞,松散的集料表面光溜溜的,集料与沥青膜剥离,这是典型水损害现象[3]。沥青混凝土路面水损害的机理

s***8 9年前 上传7214   0

WBS在项目管理中的应用研究

WBS在项目管理中的应用研究  摘要:本文主要介绍了项目管理及WBS的概念,并说明了WBS在项目管理中的应用,并且举例进行分析,并结合Project软件得出的分析结果。  关键词:项目管理 WBS  一、项目管理定义  项目管理是通过项目经理和项目组织的努力运用系统理论和方法对项目及其资源进行计划组织协调控制旨在实现项目的特定目标的管理方法体系。项目管理最重要的特点是使管理工作按

a***a 10年前 上传812   0

粒子群算法(优化算法)毕业设计论文

 毕 业 论 文 题 目 粒子群算法及其参数设置 专 业 信息与计算科学 班 级 学 号 学 生 指导教师

文***品 5年前 上传1472   0

灰色关联分析在国际工程承包项目风险评估中的应用

灰色关联分析在国际工程承包项目风险评估中的应用摘要 结合国际工程承包的实际情况,提出了国际工程项目风险评价指标体系,运用灰色关联分析技术和定性指标的模糊隶属度理论相结合,定量评估项目风险。案例研究表明,此法具有较好的应用价值。 关键词 国际工程风险评估   前言   加入WTO以后,越来越多的施工企业希望参与国际工程项目的承包,在激烈的市场竞争中寻求发展和壮大。然而,国际工程项目承包是一项高

s***r 10年前 上传454   0

基于内点法的电力系统最优潮流算法研究毕业论文

 本科毕业设计 题 目 基于内点法的电力系统最优潮流算法研究 XX大 学 毕 业 设 计(论文) 题目: 基于内点法的电力系统最优潮流算法研究   XX大学电气工程学院 20XX年X月X

z***u 5年前 上传2048   0

基于模糊PID算法的双闭环直流调速系统仿真研究

XX学院毕业设计(论文) 基于模糊PID算法的双闭环直流调速系统仿真研究 学 生:学 号:专 业:电气工程及其自动化班 级:指导教师: XX学院自动化与电子信息学院摘 要 直流双闭环调速系统具有调速范围广、精度高、动态性能好和易于控制等优点,所以在电气传动系统中得到了

z***u 3年前 上传892   0

智能家居系统——网络结构搭建与算法研究

智能家居系统设计——网络结构搭建与研究智能家居系统设计——网络结构搭建与研究摘 要在全球智能化发展的浪潮下,利用先进网络技术、控制技术、布线技术、计算机等技术的智能家居系统的出现,正是对在此浪潮下的人们想要追求更高质量生活品质的体现。智能家居系统依照人体工程学原理,不仅融合了消费者需求,还有机结合了日常家庭生活中的如安全防御、温度调节、湿度调节、灯光调节、气体检测等多种功

平***苏 2年前 上传560   0