收藏本站
《西北大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

文本挖掘技术研究及其在综合风险信息网络中的应用

张翔  
【摘要】:随着电子文本以爆炸式地速度增长,从海量的文本数据中寻找有用的知识已成为数据挖掘的重要课题。本文以“十一五”国家科技支撑计划重点项目——“综合风险防范(IRG)关键技术研究与示范”(2006BAD20B02)为研究背景,针对综合风险信息智能采集和分类任务结合互联网上风险灾害信息的特点,研究文本挖掘中的表示模型、特征选择、文本分类和文本关联关键技术,研究具有重要意义和实用价值。主要研究进展包括: (1)提出了一种综合风险信息的表示模型。分析了空间向量模型的tf~*idf权重计算方法忽略了特征在类间分布情况的不足,结合综合风险信息为Web信息的特点,设计了一种综合考虑特征项频率、逆文档频率、特征项类别权重和HTML标签的综合风险信息的特征权重计算方法。实验证明可以改善风险信息的分类性能。 (2)提出了基于ReliefF结合RMI评估函数的特征选择方法。针对传统文本挖掘的特征选择方法因忽略了特征项之间的相关性导致特征子集中存在大量冗余特征的问题,设计一种组合式的文本特征选择方法,基于ReliefF特征选择算法将无关特征去除的基础上,利用RMI评估函数对冗余特征进行过滤。实验证明与传统的特征选择方法相比可有效去除文本特征中的冗余性。 (3)提出了基于可信度的AttributeBagging文本分类算法。针对Bagging算法中弱分类器具有相同权重的不合理问题,设计改进的Bagging算法,通过对训练样本的属性进行重取样获得多个训练样本集合,以kNN为弱分类器,计算各个弱分类器的可信度得到其投票权重,最终根据投票规则获得集成分类结果。实验证明该算法构建的文本分类器比Attribute Bagging算法具有更好的分类效果。 (4)提出了基于灰色关联分析的主题词提取方法。通过计算综合风险信息的给定主题词与特征项之间的灰色关联度来实现主题词的提取,其主要优点是克服了“小样本”问题,对于样本量的多少和有无规律同样适用。解决了数理统计的主题词提取方法忽略专业低频词贡献的问题。 (5)将文本挖掘关键技术研究成果应用于综合风险信息网络中,结合网络主题爬虫技术,设计实现了互联网上综合风险信息的智能采集和分类,取得了良好的效果。
【学位授予单位】:西北大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 赵军;张显跃;;基于粗集理论的数据离散化技术研究[J];重庆邮电学院学报(自然科学版);2006年06期
2 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
3 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
4 唐焕玲,孙建涛,陆玉昌;文本分类中结合评估函数的TEF-WA权值调整技术[J];计算机研究与发展;2005年01期
5 王建会,王洪伟,申展,胡运发;一种实用高效的文本分类算法[J];计算机研究与发展;2005年01期
6 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
7 吴高巍,陶卿,王珏;基于后验概率的支持向量机[J];计算机研究与发展;2005年02期
8 姜远;周志华;;基于词频分类器集成的文本分类方法[J];计算机研究与发展;2006年10期
9 尚文倩;黄厚宽;刘玉玲;林永民;瞿有利;董红斌;;文本分类中基于基尼指数的特征选择算法研究[J];计算机研究与发展;2006年10期
10 邹涛,王继成,朱华宇,金翔宇,张福炎;WWW上的信息挖掘技术及实现[J];计算机研究与发展;1999年08期
中国博士学位论文全文数据库 前3条
1 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
2 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
3 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
中国硕士学位论文全文数据库 前2条
1 侯凡;文本分类技术在综合风险元搜索引擎中的研究与实现[D];西北大学;2008年
2 沈婧;综合风险智能主题推送技术的研究与应用[D];西北大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 田文勇;李冬梅;;阿坝州三大产业发展对经济增长的影响分析[J];阿坝师范高等专科学校学报;2011年03期
2 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
3 杨开云;冯卫;王亮;朱峰;;多目标决策灰色关联投影法在建筑工程投资决策中的应用[J];四川建筑科学研究;2009年05期
4 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
5 徐文婷;李承鹏;;基于自适应遗传算法的离散化方法[J];合肥师范学院学报;2011年03期
6 郑亮;蒋志雨;;铝粉厂粉尘爆炸危险性影响因素的灰关联分析[J];安防科技;2009年08期
7 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
8 齐新安;朱祖林;;安徽电大远程开放教育专业招生规模与发展态势的灰关联分析[J];安徽广播电视大学学报;2007年03期
9 汪周生;;外部环境因素与合肥会展经济发展关联效应的实证分析[J];安徽广播电视大学学报;2010年04期
10 王贵权;朱云鹃;;企业债券发展影响因素的实证研究——基于灰色系统理论[J];安徽广播电视大学学报;2011年01期
中国重要会议论文全文数据库 前10条
1 陈双平;郑浩然;王习书;王煦法;;生物序列的描述复杂性分析[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
4 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
5 冯羽;马凤山;魏爱华;赵海军;郭捷;;灰色系统与神经网络组合模型在地下水水位预测中的应用[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(中)[C];2012年
6 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
7 黄碧春;;灰色系统理论在建筑物变形分析中的应用[A];全国测绘科技信息网中南分网第二十五次学术交流会论文集[C];2011年
8 危前进;董荣胜;孟瑜;崔更申;;基于粗糙集的机械装配知识发现方法[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
9 ;Fuzziness in Covering Generalized Rough Sets[A];第二十六届中国控制会议论文集[C];2007年
10 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
3 王晓辉;中国产业结构的动态投入产出模型分析[D];哈尔滨工程大学;2010年
4 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
5 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
6 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
7 姜延吉;多传感器数据融合关键技术研究[D];哈尔滨工程大学;2010年
8 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
9 刘洪斌;节能减排政府责任保障机制研究[D];中国海洋大学;2010年
10 魏光明;我国环境税收问题研究[D];中国海洋大学;2010年
中国硕士学位论文全文数据库 前10条
1 潘慧;杏鲍菇优良杂交子的初步选育[D];华中农业大学;2010年
2 杜金龙;土地利用变化及其对生态系统服务价值影响研究[D];华中农业大学;2010年
3 朱浩锋;新疆包尔图铜矿床地质地球化学特征及深部预测[D];河南理工大学;2010年
4 乐志军;新朝川矿矿井水分布规律研究与防治对策[D];河南理工大学;2010年
5 刘文伍;杉木树矿井瓦斯地质规律及瓦斯预测研究[D];河南理工大学;2010年
6 段守军;煤炭资源潜力评价研究[D];河南理工大学;2010年
7 王晓彬;新安井田瓦斯赋存规律研究[D];河南理工大学;2010年
8 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
9 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
10 米帅;工程项目成本管理及绩效评价研究[D];山东科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 王利;王国胤;吴渝;;基于可变精度粗集模型的增量式规则获取算法[J];重庆邮电学院学报(自然科学版);2005年06期
2 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期
3 高新波,裴继红,谢维信;模糊c-均值聚类算法中加权指数m的研究[J];电子学报;2000年04期
4 宦若虹;杨汝良;;基于小波域NMF特征提取的SAR图像目标识别方法[J];电子与信息学报;2009年03期
5 赵军,王国胤,吴中福,李华;基于粗集理论的数据离散化新算法[J];重庆大学学报(自然科学版);2002年03期
6 谢强;;Blog、RSS及其在教学中的应用[J];福建行政学院福建经济管理干部学院学报;2005年S1期
7 史磊,王永成;英文文献自动摘要系统的研制与开发[J];高技术通讯;1999年11期
8 马颖华,王永成,苏贵洋,韩客松,赵海;自动标引中基于概念层次树的主题词轮排选择的算法实现[J];高技术通讯;2003年06期
9 于金龙,李晓红,孙立新;连续属性值的整体离散化[J];哈尔滨工业大学学报;2000年03期
10 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
中国博士学位论文全文数据库 前2条
1 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
2 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
中国硕士学位论文全文数据库 前4条
1 李芳;过程工业中关联规则采掘的研究与应用[D];北京化工大学;2002年
2 甘立国;中文文本分类系统的研究与实现[D];北京化工大学;2006年
3 朱翔;风险主题网关信息采集模块研究与设计[D];西北大学;2007年
4 周像金;综合风险垂直搜索引擎的研究与实现[D];西北大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 魏程;刘鲁;翟铭;;一种四维向量空间模型的Web新闻文本分类方法[J];微计算机应用;2010年03期
2 景丽萍,黄厚宽,石洪波;用于文本挖掘的特征选择方法TFIDF及其改进[J];广西师范大学学报(自然科学版);2003年01期
3 周雪忠;吴朝晖;;文本知识发现:基于信息抽取的文本挖掘[J];计算机科学;2003年01期
4 余刚,陈华月,朱征宇,高原;基于词同现频率的文本特征描述[J];计算机工程与设计;2005年08期
5 ;浅析大规模文本数据挖掘技术在媒体中的创新应用[J];中国传媒科技;2007年11期
6 赵慧勤;基于因特网的信息检索特点与发展趋势[J];情报理论与实践;2000年05期
7 崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期
8 胥桂仙,朴泰雄,杨丹丹,徐小博,高旭;中文文本挖掘中最长频繁序列的发现算法[J];中央民族大学学报(自然科学版);2004年01期
9 渡部勇;;文本挖掘技术应用于专利检索分析[J];微电脑世界;2007年12期
10 苏芳仲,林世平;Web文本挖掘中的一种中文分词算法研究及其实现[J];福州大学学报(自然科学版);2004年S1期
中国重要会议论文全文数据库 前10条
1 王继成;孙颖;张福炎;;文本挖掘-数据挖掘研究的新课题[A];第十六届全国数据库学术会议论文集[C];1999年
2 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
3 陈林;王晓华;李殿赟;文俊浩;;基于自增模式的文本挖掘研究[A];’2004计算机应用技术交流会议论文集[C];2004年
4 陈林;王晓华;李殿赟;文俊浩;;基于Web的自增模式文本挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
5 陈路莹;姜青山;陈黎飞;;一种面向网络入侵检测的特征选择方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 顾成杰;张顺颐;刘凯;黄河;;基于粗糙集和禁忌搜索的特征选择方法[A];江苏省电子学会2010年学术年会论文集[C];2010年
7 赵新星;姜青山;陈路莹;胡海斌;;一种面向网络入侵检测的特征选择方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
9 ;TRS搜索引擎和文本挖掘系统[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
10 王波;王厚峰;;基于自学习策略的产品特征自动识别(英文)[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
3 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
4 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年
5 汪洋 编译;BI平民化[N];计算机世界;2004年
6 靳辉;垂直搜索:呼叫经济发展的核心动力[N];通信产业报;2007年
7 缪其浩记者 江世亮;非官方信息源担当应急预警器[N];文汇报;2008年
8 ;用挖掘技术使学术资源利用效益最大化[N];中国计算机报;2007年
9 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
10 本报记者 张承东;挖潜无极限[N];网络世界;2006年
中国博士学位论文全文数据库 前10条
1 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
2 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
3 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年
4 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
5 于哲夫;一种新的特征选择方法及其在路面使用性能分析中的应用[D];大连海事大学;2011年
6 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
7 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
8 刘峤;基于最短描述长度的高维特征选择方法研究[D];电子科技大学;2010年
9 陈曦;特征选择准则间的关联及高分辨率遥感影像类别不平衡问题研究[D];上海交通大学;2011年
10 潘湑;航空领域术语定义抽取关键技术及其应用研究[D];南京航空航天大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘明岩;面向语义关系发现的文本挖掘研究[D];南京理工大学;2010年
2 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年
3 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年
4 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
5 刘岩;基于Web的文本挖掘技术的研究[D];哈尔滨工程大学;2004年
6 姚继伟;基于XML的Web文本挖掘的研究[D];吉林大学;2010年
7 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
8 蔡坤;基于特征词的文本聚类算法研究[D];河南大学;2009年
9 李伯阳;文本聚类方法研究及其应用[D];厦门大学;2008年
10 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026