收藏本站
《西北大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

文本挖掘技术研究及其在综合风险信息网络中的应用

张翔  
【摘要】:随着电子文本以爆炸式地速度增长,从海量的文本数据中寻找有用的知识已成为数据挖掘的重要课题。本文以“十一五”国家科技支撑计划重点项目——“综合风险防范(IRG)关键技术研究与示范”(2006BAD20B02)为研究背景,针对综合风险信息智能采集和分类任务结合互联网上风险灾害信息的特点,研究文本挖掘中的表示模型、特征选择、文本分类和文本关联关键技术,研究具有重要意义和实用价值。主要研究进展包括: (1)提出了一种综合风险信息的表示模型。分析了空间向量模型的tf~*idf权重计算方法忽略了特征在类间分布情况的不足,结合综合风险信息为Web信息的特点,设计了一种综合考虑特征项频率、逆文档频率、特征项类别权重和HTML标签的综合风险信息的特征权重计算方法。实验证明可以改善风险信息的分类性能。 (2)提出了基于ReliefF结合RMI评估函数的特征选择方法。针对传统文本挖掘的特征选择方法因忽略了特征项之间的相关性导致特征子集中存在大量冗余特征的问题,设计一种组合式的文本特征选择方法,基于ReliefF特征选择算法将无关特征去除的基础上,利用RMI评估函数对冗余特征进行过滤。实验证明与传统的特征选择方法相比可有效去除文本特征中的冗余性。 (3)提出了基于可信度的AttributeBagging文本分类算法。针对Bagging算法中弱分类器具有相同权重的不合理问题,设计改进的Bagging算法,通过对训练样本的属性进行重取样获得多个训练样本集合,以kNN为弱分类器,计算各个弱分类器的可信度得到其投票权重,最终根据投票规则获得集成分类结果。实验证明该算法构建的文本分类器比Attribute Bagging算法具有更好的分类效果。 (4)提出了基于灰色关联分析的主题词提取方法。通过计算综合风险信息的给定主题词与特征项之间的灰色关联度来实现主题词的提取,其主要优点是克服了“小样本”问题,对于样本量的多少和有无规律同样适用。解决了数理统计的主题词提取方法忽略专业低频词贡献的问题。 (5)将文本挖掘关键技术研究成果应用于综合风险信息网络中,结合网络主题爬虫技术,设计实现了互联网上综合风险信息的智能采集和分类,取得了良好的效果。
【学位授予单位】:西北大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.1

知网文化
【相似文献】
中国期刊全文数据库 前10条
1 ;浅析大规模文本数据挖掘技术在媒体中的创新应用[J];中国传媒科技;2007年11期
2 赵慧勤;基于因特网的信息检索特点与发展趋势[J];情报理论与实践;2000年05期
3 崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期
4 胥桂仙,朴泰雄,杨丹丹,徐小博,高旭;中文文本挖掘中最长频繁序列的发现算法[J];中央民族大学学报(自然科学版);2004年01期
5 渡部勇;;文本挖掘技术应用于专利检索分析[J];微电脑世界;2007年12期
6 苏芳仲,林世平;Web文本挖掘中的一种中文分词算法研究及其实现[J];福州大学学报(自然科学版);2004年S1期
7 付国瑜;;Web文本分类挖掘[J];科学咨询(决策管理);2008年03期
8 曹丽君;刘西印;杨燕萍;;WEB页面文本挖掘的价值与未来探究[J];商场现代化;2008年09期
9 韩洁;;Web文本挖掘技术在信息生产领域的应用研究[J];硅谷;2010年08期
10 胥桂仙,杨丹丹,高旭,陈立新;中文文本挖掘中姓名特征提取技术的研究[J];中央民族大学学报(自然科学版);2003年04期
中国重要会议论文全文数据库 前6条
1 顾成杰;张顺颐;刘凯;黄河;;基于粗糙集和禁忌搜索的特征选择方法[A];江苏省电子学会2010年学术年会论文集[C];2010年
2 张军霞;张安玲;王颖毅;史振东;兰凤鸣;韩磊;浦佩玉;康春生;;基于文本挖掘识别胶质瘤调控网络的核心信号[A];中国的遗传学研究——遗传学进步推动中国西部经济与社会发展——2011年中国遗传学会大会论文摘要汇编[C];2011年
3 孟凡洁;孔祥维;尤新刚;;基于特征融合的相机来源认证方法[A];全国第一届信号处理学术会议暨中国高科技产业化研究会信号处理分会筹备工作委员会第三次工作会议专刊[C];2007年
4 贺萍;骆有庆;路文如;;全球林业外来有害生物研究的文献计量分析[A];第二届全国生物入侵学术研讨会论文摘要集[C];2008年
5 魏顺平;;教育数据挖掘:现状与趋势[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
6 张晶;殷明;;基因芯片结合整合基因网络筛选辐射损伤后恢复相关基因的研究[A];全国第十二届生化与分子药理学学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
3 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
4 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年
5 汪洋 编译;BI平民化[N];计算机世界;2004年
6 靳辉;垂直搜索:呼叫经济发展的核心动力[N];通信产业报;2007年
7 缪其浩记者 江世亮;非官方信息源担当应急预警器[N];文汇报;2008年
8 ;用挖掘技术使学术资源利用效益最大化[N];中国计算机报;2007年
9 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
10 本报记者 张承东;挖潜无极限[N];网络世界;2006年
中国博士学位论文全文数据库 前10条
1 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
2 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
3 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
4 于哲夫;一种新的特征选择方法及其在路面使用性能分析中的应用[D];大连海事大学;2011年
5 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
6 刘峤;基于最短描述长度的高维特征选择方法研究[D];电子科技大学;2010年
7 陈曦;特征选择准则间的关联及高分辨率遥感影像类别不平衡问题研究[D];上海交通大学;2011年
8 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
9 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
10 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
中国硕士学位论文全文数据库 前10条
1 刘明岩;面向语义关系发现的文本挖掘研究[D];南京理工大学;2010年
2 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年
3 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年
4 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
5 刘岩;基于Web的文本挖掘技术的研究[D];哈尔滨工程大学;2004年
6 姚继伟;基于XML的Web文本挖掘的研究[D];吉林大学;2010年
7 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
8 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
9 杨瑞峰;WEB上基于文本挖掘的个性化检索系统的设计与实现[D];电子科技大学;2003年
10 赵天雪;潜在语义分析在答疑系统中的应用研究[D];吉林大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026