收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

海量短语信息挖掘技术的研究与实现

王永恒  
【摘要】: 互连网和信息技术的飞速发展造成海量的数据积累,其中很大一部分是短文数据,如文章摘要和聊天室的会话。对海量的短文数据进行自动的分析和挖掘,从中获取有价值的隐含知识,已经成为一项迫切的需求。与普通文档不同,短文中关键词出现的次数很少,传统的基于词频的文本挖掘技术在处理短文数据时很难得到可接受的准确度。同时,面对几百GB甚至TB级的海量数据,传统的文本挖掘算法变的很低效甚至根本无法运行。 本文在对海量短语信息挖掘的研究现状和面临的挑战进行深入分析的基础上,以海量数据处理系统项目为背景、以开发高准确度和高可伸缩性的海量短语信息挖掘算法为目标,在海量短语信息数据库中的频繁词集挖掘、分类、聚类等方面开展了深入的研究。为了提高挖掘算法的准确度主要采用了基于语义的方法。为了提高算法的性能和可伸缩性主要采用了并行化的方法。本文的贡献主要包括以下方面: 1.针对海量短文本数据库中的频繁词集挖掘所面临的挑战,提出了一个top-k频繁词集挖掘的并行算法parTFT。该算法使用了一种新颖的逻辑纵向数据划分方法来确保top-k频繁词集挖掘能够在各数据分区中并行执行。同时在每个挖掘结点通过启发策略来裁剪H-struct的header table,从而提高算法的性能。实验结果表明该算法在进行海量短文数据库中的频繁词集挖掘时具有比同类算法更好的性能和可伸缩性。parTFT算法的相关成果发表在第六届Web时代信息管理大会(WAIM2005)上,SCI检索号BDG49。 2.针对短语信息分类中的低准确度问题,提出了一个基于语义的短文分类算法SDCS。该算法使用文本语义特征图来表示语义信息,并通过K-近邻(KNN)的思想来进行短文分类。实验结果表明该算法在处理大规模短文数据时,性能和准确度都超过了其它的短文分类算法。相应的成果已投计算机研究与发展杂志。 3.在对短文本聚类面临的挑战进行分析的基础上,针对不同的应用需求提出了基于频繁词集的短文本聚类算法FTSDC和基于密度的短文本聚类算法DSDC。FTSDC首先根据频繁词集进行初始簇划分,然后利用语义信息进行簇优化。DSDC使用语义信息来计算样本距离,基于共享近邻(SNN)图来进行基本聚类,并通过数据抽样和子图划分来实现并行聚类。实验结果表明两种方法在准确度和可伸缩性上都比类似的算法有一定的提高。FTSDC的相关成果发表在WISE2006的研讨会“基于Web的海量信息处理(WMDP2006)”上,SCI检索号BFF82。DSDC的相应成果已投软件学报。 4.针对基于语义信息的文本挖掘中准确度仍然有待提高以及语义信息不易管理和交换的问题,定义了领域本体并给出了其构建方法,并在此基础上提出了基于频繁词集和领域本体的聚类方法OFSDC,以及基于密度和领域本体的聚类方法DFSDC。实验结果表明基于领域本体的文本挖掘方法能够更好地利用语料中的语义信息,从而获得更高的准确度。OFSDC的相关成果发表在VLDB2006的研讨会“数据库和信息系统中基于本体的技术(ODBIS2006)”上,SCI检索号待查。 5.在对并行数据挖掘的体系结构进行研究的基础上,提出了基于CORBA的海量短语信息并行挖掘体系结构,并在大规模事务处理中间件StarTPMonitor的背景下实现了海量短语信息挖掘引擎。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张燕,黄英;浅析网络信息挖掘[J];情报理论与实践;2003年06期
2 王世铎;李燕军;;在情报信息工作中网络信息挖掘的应用[J];计算机安全;2006年11期
3 沐士光;;网络信息挖掘探讨[J];玉溪师范学院学报;2006年09期
4 肖萌;肖敏;周鹭;;浅谈网络信息挖掘[J];网络财富;2009年06期
5 张永娟;林春红;孙继林;陈恒;;生命科学文献信息挖掘初探[J];图书情报工作网刊;2010年08期
6 黄晓斌;谭颖骞;;网络信息挖掘方法的效果评价[J];情报理论与实践;2011年06期
7 常恒;;信息挖掘方法的改进与探究[J];电子测试;2013年16期
8 张应利,何斌;基于物元可拓性的潜信息挖掘[J];数学的实践与认识;2001年05期
9 徐圆;朱群雄;;可拓性的信息挖掘与检测技术[J];计算机与应用化学;2007年04期
10 貌学良;;基于分割视窗技术的故障信息挖掘研究[J];计算机工程与设计;2007年09期
11 ;第七届全国搜索引擎和网上信息挖掘学术研讨会[J];智能系统学报;2008年06期
12 陈玮丽;张文建;;信息挖掘在航空探测数据处理方面的应用[J];网络安全技术与应用;2012年06期
13 朱金霞;周跃进;;网络信息挖掘在竞争情报工作中的应用[J];江苏科技信息;2013年06期
14 陈泓婕,杨炳儒,谢永红;基于信息挖掘的智能决策支持系统结构模型[J];计算机应用研究;2002年11期
15 吴锋;樊银亭;;网上外贸客户信息挖掘的基础研究[J];商场现代化;2006年30期
16 王娜;;网络信息挖掘障碍浅析[J];沈阳教育学院学报;2006年04期
17 雷耀波;冯兵;廖俐;;大型超市的客户管理与信息挖掘[J];福建电脑;2007年03期
18 ;第7届全国搜索引擎和网上信息挖掘学术研讨会征文通知 2009年5月22—24日,大连[J];计算机研究与发展;2008年11期
19 ;第七届全国搜索引擎和网上信息挖掘学术研讨会征文通知[J];小型微型计算机系统;2008年10期
20 ;第七届全国搜索引擎和网上信息挖掘学术研讨会征文通知[J];小型微型计算机系统;2008年11期
中国重要会议论文全文数据库 前8条
1 李燕军;王世铎;;网络信息挖掘在情报信息工作中的应用[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
2 胥永康;岳筱玲;;浅谈网络信息挖掘应用技术[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
3 赵文兵;尤定华;;基于图形理解框架的地理信息挖掘方法[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
4 谭嘉星;;网络信息挖掘在电子商务系统中的应用[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
5 周丰;;指挥控制系统模型的分析与扩展[A];2014第二届中国指挥控制大会论文集(上)[C];2014年
6 邱鹍;封化民;宋国森;;基于启发式规则的多媒体主题信息挖掘[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
7 安伦;周斌;贾焰;;在线Web挖掘中的计算资源动态平衡[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
8 ;第2届全国搜索引擎和网上信息挖掘学术研讨会征文通知[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
中国博士学位论文全文数据库 前6条
1 杜阿宁;互联网舆情信息挖掘方法研究[D];哈尔滨工业大学;2007年
2 余轶军;Web访问信息挖掘若干关键技术的研究[D];浙江大学;2006年
3 李四明;基于智能Agent的网上农业信息挖掘研究[D];中国农业大学;2003年
4 王实;基于Web访问信息挖掘的推荐方法研究[D];中国科学院研究生院(计算技术研究所);2001年
5 王永恒;海量短语信息挖掘技术的研究与实现[D];国防科学技术大学;2006年
6 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
中国硕士学位论文全文数据库 前10条
1 宗彩慧;基于神经网络的网络信息挖掘的研究与应用[D];大连海事大学;2010年
2 魏勤勤;在线交互与学习平台中个性化信息挖掘研究[D];西安电子科技大学;2009年
3 忻超;互联网应用数据建模分析和信息挖掘[D];北京邮电大学;2013年
4 刘微;宽带网络用户信息挖掘[D];北京邮电大学;2011年
5 戴霖;网络舆情信息挖掘关键技术研究与应用[D];浙江工商大学;2011年
6 问梁军;基于多智能体的Web信息挖掘研究[D];华北电力大学;2012年
7 王臣钧;基于日志的Web访问信息挖掘[D];西安理工大学;2008年
8 韩晓娟;深层网信息挖掘技术的研究在化工领域的应用[D];北京化工大学;2009年
9 欧伟强;Web信息挖掘的研究及应用[D];电子科技大学;2010年
10 何小春;Web信息挖掘服务平台及数据备份技术研究[D];哈尔滨工业大学;2012年
中国重要报纸全文数据库 前5条
1 孙宇;信息挖掘:企业信息化建设的首要任务[N];中国房地产报;2006年
2 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
3 周东;数威:创业之路有点难[N];中国高新技术产业导报;2005年
4 陈泽炎;运用理论目光审视会展实践(下)[N];中国贸易报;2004年
5 严戈 最高人民法院;充分利用裁判文书 深度挖掘司法信息[N];人民法院报;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978