收藏本站
收藏 | 论文排版

Web信息提取及知识发现方法研究

陈红叶  
【摘要】: 本文主要研究了Web信息的提取及数据库中的知识发现方法。论文的主要内容有: 首先,本文广泛综合吸收了国内外有关数据挖掘(DM)与知识发现(KDD)方面的学术研究成果,并根据所研究的课题,针对数据挖掘在Web上的应用,介绍了其基本的方法、步骤、算法以及所面临的问题等。Web作为巨大的数据源,从Web中提取知识是本文研究的一个主要问题。本文讨论了对于HTML页面,利用信息提取技术,将半结构化数据转化为结构化数据,存储于传统的数据库中,利用基于数据库的数据挖掘算法提取有用的知识,这是一种离线式Web数据挖掘方式;另一种是在线方式,将Web信息提取技术与数据挖掘算法结合为一体,直接对提取的数据进行挖掘。 其次,阐述从数据库中提取有用知识的预处理过程和分类模式挖掘算法。在数据的预处理方面,主要研究粗集理论、数据聚类、概念树、语言场等预处理方法。在挖掘模型与算法的选取中,分类是一种重要的知识发现方法,它能以简洁的模型预测新到达对象的类别。主要介绍基于粗集理论的分类规则提取。此外,由于Web上的数据信息是一典型的动态数据源,本文还以分类规则挖掘为主题讨论动态数据环境下的决策树构造方法。 最后,在上述理论方法研究的基础上,研究开发了农产品市场行情信息的提取与知识发现系统。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 吕鸣剑;;数据挖掘在知识工程中的应用研究[J];电脑知识与技术;2011年23期
2 邓松;王映龙;何火娇;罗东平;袁威;;粗糙集在销售决策系统中的应用[J];计算机技术与发展;2011年09期
3 周涛;;关联规则算法综述[J];才智;2011年16期
4 任艳青;陈培颖;胡蓉;刘禹;;科技期刊的知识服务系统——以《自动化学报》知识服务平台为例[J];中国科技期刊研究;2011年05期
5 郭凌辉;;知识发现(KD)研究热点与前沿的信息可视化分析[J];图书馆理论与实践;2011年08期
6 李良;米智伟;向新;;基于BSC的高校战略管理驾驶舱系统研究[J];计算机工程与设计;2011年09期
7 张丽虹;李强标;;基于数据仓库的城市规划决策支持系统的研究和应用[J];微计算机信息;2011年08期
8 晁永生;刘海江;;关联规则在提取典型焊接类型中的应用[J];高技术通讯;2010年06期
9 孙丽梅;李晶皎;孙焕良;;基于动态k近邻的SlopeOne协同过滤推荐算法[J];计算机科学与探索;2011年09期
10 王玲;陈兵林;刘善军;姬长英;;基于图像特征选择识别田间籽棉品级[J];农业工程学报;2011年07期
11 张大勇;张兆心;李乔;;基于广义粗糙集的知识约简方法研究[J];高技术通讯;2010年04期
12 李丽娜;王俊玲;陈国权;;船舶拟人智能避碰决策理论的集成机器学习策略[J];信息与控制;2011年03期
13 于华;贾俊芳;;基于邻域粒化的数值信息系统的知识约简[J];电脑开发与应用;2011年09期
14 吴佳妮;;基于知识管理的图书馆管理策略研究[J];科技创业月刊;2011年09期
15 李毅;龚建华;周洁萍;李文航;王伟星;汪东川;徐逍峰;;协同虚拟地理实验系统设计与初步试验[J];高技术通讯;2010年04期
16 范少萍;郑春厚;;行为心理视阈下基于知识网格技术的用户知识获取模式构建[J];山东图书馆学刊;2011年03期
17 冀玉静;李军莲;李芳;;UMLS共现概念判定方法研究[J];医学信息学杂志;2011年07期
18 曾德华;郑晓齐;;智能决策支持系统框架研究[J];中国电化教育;2011年06期
19 白亮;刘海涛;老松杨;凌云翔;;视频情报分析体系研究[J];火力与指挥控制;2011年06期
20 郑燕玲;;一种基于信息熵的空间聚类算法[J];微电子学与计算机;2011年08期
中国重要会议论文全文数据库 前10条
1 王仲远;艾静;孟小峰;;一种数据驱动的Wrapper自动生成与维护方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 牛丽萍;袁晓洁;于士涛;李志梁;窦志成;;异构数据集成中包装器Wrapper的设计[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 杨光飞;党延忠;;不完美数据中的知识发现研究综述[A];第六届(2011)中国管理学年会——商务智能分会场论文集[C];2011年
4 谷明哲;王海燕;孟小峰;;一种基于预定义模式的Wrapper维护方法[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
5 董伯儒;林少培;王永文;;工程建设MIS中的知识发现和深化[A];中国土木工程学会计算机应用分会第七届年会论文集[C];1999年
6 张世海;刘晓燕;涂庆;欧进萍;王光远;;知识发现及其在高层结构智能选型中应用[A];计算机技术在工程建设中的应用——第十二届全国工程建设计算机应用学术会议论文集[C];2004年
7 万家华;刘冰;江早;;知识发现中的可视化技术[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
8 赵荣珍;杨娟;黄显华;;粗糙集理论的故障知识发现及其工程应用模式研究[A];第十二届全国设备故障诊断学术会议论文集[C];2010年
9 董伯儒;林少培;王永文;;工程建设MIS中的知识发现和深化[A];中国土木工程学会计算机应用分会第七届年会土木工程计算机应用文集[C];1999年
10 段培俊;周东岱;;数据挖掘研究综述[A];2003年中国智能自动化会议论文集(下册)[C];2003年
中国博士学位论文全文数据库 前10条
1 谢宗霞;太阳宁静区磁场流场特性知识发现的方法研究[D];哈尔滨工业大学;2010年
2 张云中;基于形式概念分析的Folksonomy知识发现研究[D];吉林大学;2012年
3 杨立;基于领域知识的知识发现研究[D];中国科学院研究生院(软件研究所);2005年
4 陈元;基于分类模型的知识发现过程研究[D];国防科学技术大学;2002年
5 李初民;基于网络管理数据库中性能数据的知识发现(KDD)研究[D];重庆大学;2001年
6 李刚;知识发现的图模型方法[D];中国科学院软件研究所;2001年
7 谢志鹏;基于概念格模型的知识发现研究[D];合肥工业大学;2001年
8 吴涛;构造性知识发现方法研究[D];安徽大学;2003年
9 刘刚;数据挖掘技术与分类算法研究[D];中国人民解放军信息工程大学;2004年
10 汤永川;关于不确定性推理理论与知识发现的研究[D];西南交通大学;2002年
中国硕士学位论文全文数据库 前10条
1 陈红叶;Web信息提取及知识发现方法研究[D];合肥工业大学;2002年
2 薛静;专家信息管理系统在CRM中的研究与应用——基于java技术的构架[D];西北工业大学;2001年
3 迟庆云;基于决策树的分类算法研究和应用[D];山东师范大学;2005年
4 王益玲;基于DCS实时信息的智能故障诊断系统的研究与设计[D];南京工业大学;2003年
5 李长源;关联规则挖掘算法研究[D];哈尔滨工程大学;2005年
6 郭国印;数据挖掘技术的研究及其在PLM中的应用[D];西北工业大学;2005年
7 谷宏群;数据挖掘中可视化方法研究[D];武汉大学;2005年
8 梁利莉;数据挖掘技术在CRM中的应用研究[D];首都经济贸易大学;2005年
9 刘娟;中药药对的量化分析与知识发现[D];成都中医药大学;2005年
10 黄律;基于粗糙集的多分类器组合及其在知识发现中的应用研究[D];长沙理工大学;2005年
中国重要报纸全文数据库 前10条
1 重庆 王小煜;TCP_Wrapper防火墙的安装与配置[N];电脑报;2001年
2 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
3 中国科学院计算技术研究所 刘毅勇 何雄 李金山 廖浩均 孟亮 邓柱中;空间数据挖掘:变数据为知识[N];计算机世界;2005年
4 胡虎;突出信息化贡献水平 处理好三个关系[N];人民邮电;2007年
5 陈志楠;挖掘“不为人知的艺术”[N];科技日报;2009年
6 尤红梅;蔡雪晴:优势在于执行[N];中国企业报;2004年
7 汤天浩;人工智能技术:未来船舶系统的灵魂[N];中国船舶报;2005年
8 涂序彦 陈泓娟;在网络信息海洋中淘金[N];计算机世界;2001年
9 马炳厚;知识开发的创新成果[N];科技日报;2005年
10 本报记者  胡其峰;科技信息资源如何助力自主创新[N];光明日报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978