收藏本站
《复旦大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

文本挖掘若干关键技术研究

陈晓云  
【摘要】:面对浩如烟海的电子信息,如何帮助人们有效地收集和选择感兴趣的信息,如何帮助用户在日益增多的信息中发现潜在有用的知识已成为信息技术领域的热点问题。数据挖掘就是为解决这一问题而产生的研究领域。自90年代产生以来,对数据挖掘的研究已经比较深入,研究范围涉及到关联分析、分类分析、聚类分析、趋势分析等多个方面。由于现实生活中绝大部分信息资源是以非结构化数据的形式存在,而数据挖掘则普遍以结构化数据如关系数据库中的数据为对象,因此对非结构化信息进行挖掘成为继数据挖掘之后出现的又一课题。 在常见的非结构化数据如文本、图像、视频中,文本数据是应用最为广泛的一种形式,常用于数字图书馆、产品目录、新闻组、医学报告、组织及个人主页。在自然语言理解、文本自动摘要、信息提取、信息过滤、信息检索等领域,文本挖掘技术都有着广泛的应用,因而比数据挖掘具有更高的商业价值。 本文以文本数据为研究对象,对文本挖掘的若干关键技术进行研究,主要包括文本特征提取和特征选择、文本关联分析、文本关联分类,并提出更有效的文本挖掘算法。本文的研究工作和创新内容包括以下几个方面: (1)利用最小词频阈值的文档频特征评估函数减少噪声特征的比例,提高文本分类的质量。 目前,文本特征选择普遍采用特征评估函数的方法,各种评估函数根据其使用的是词频还是文挡频有所不同。我们针对噪声特征的词频普遍较低的特点,提出利用最小词频阈值的文档频方法进行特征选择。分别对互信息、信息增益、x~2统计三种特征评估函数采用该方法进行实验,结果表明最小词频阈值有效地减少特征集中噪声特征所占的比例,并且发现随着阈值的提高不同评估函数得到的特征集趋于一致。 (2)针对文本关联分析中难以确定最小支持度阈值的问题,提出N个最频繁项集挖掘算法。 在文本关联分析中,频繁项集挖掘是重要的环节,但在频繁项集挖掘过程中,用户难以定义合适的最小支持度阈值这一问题始终存在。本文提出基于最小支持度阈值动态调整策略的N个最频繁项集挖掘算法,算法通过指定需要产生的频繁项集的数量N来控制频繁项集的规模。挖掘过程中,不断根据已有结果调高最小支持度阈值,从而达到降低搜索空间、改善挖掘性能的目的。根据这一策略分别提出类Apriori算法和基于倒排矩阵的IntvMatrix算法挖掘前N个频繁项集。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2005
【分类号】:TP311.13

手机知网App
【引证文献】
中国期刊全文数据库 前10条
1 朱颢东;李红婵;;关于Top-N最频繁项集挖掘的研究[J];电子科技大学学报;2010年05期
2 王素格;李伟;;面向中日关系论坛的情感分类问题研究[J];计算机工程与应用;2007年32期
3 李学静;杨家权;庞歆;;基于用户兴趣模型的高校新闻网信息推送模式研究[J];科技情报开发与经济;2011年21期
4 孙序;;基于倒排表和集合的TOP-N最频繁项集挖掘算法[J];科技信息;2011年27期
5 孟祥鹏;;一种改进的频繁项集挖掘算法[J];濮阳职业技术学院学报;2009年04期
6 易明;肖景;操玉杰;;基于Web文本关联规则挖掘的个性化信息推荐研究[J];情报科学;2009年12期
7 朱大虎;;关于提高web信息检索系统服务水平的探索[J];齐齐哈尔师范高等专科学校学报;2011年02期
8 张雯雯;许鑫;;文本挖掘工具述评[J];图书情报工作;2012年08期
9 苏变萍;侯筱婷;;面向政策法规数据的分类方法[J];微电子学与计算机;2008年07期
10 吕婷;姜友好;;文本挖掘在生物医学领域中的应用及其系统工具[J];中华医学图书情报杂志;2010年04期
中国博士学位论文全文数据库 前9条
1 彭柳青;高维高噪声数据聚类中关键问题研究[D];西安电子科技大学;2011年
2 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
3 郑立斌;联合式制造资源发现与集成方法的研究[D];江苏大学;2011年
4 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
5 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
6 管河山;金融多元时间序列挖掘方法研究与应用[D];厦门大学;2008年
7 陈黎飞;高维数据的聚类方法研究与应用[D];厦门大学;2008年
8 刘健;面向信息检索的文本信息组织关键技术研究[D];国防科学技术大学;2009年
9 王萍;网络环境下的领域知识挖掘[D];华东师范大学;2010年
中国硕士学位论文全文数据库 前10条
1 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
2 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
3 高希瑞;基于文本挖掘的企业危机预警研究[D];华东师范大学;2011年
4 赵德圣;基于关联技术的中文文本分类研究[D];南京理工大学;2011年
5 金昊;内容相关性驱动的Web资源离群点挖掘技术研究与系统实现[D];西南交通大学;2010年
6 陈铭;高维聚类算法研究[D];南京师范大学;2011年
7 郑文英;旅行目的地中文评论的情感分析研究[D];哈尔滨工业大学;2010年
8 卫莉莉;面向领域的Web文本采集与分类[D];西安建筑科技大学;2011年
9 季文韬;基于数据挖掘的博客球聚类研究[D];西南石油大学;2011年
10 唐明;文本挖掘及其在多文化交流平台中的应用[D];西南大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 陈景年;黄厚宽;杨莉萍;田凤占;;基于分布不完整数据选择性分类器[J];北京交通大学学报;2008年02期
2 陈景年;黄厚宽;徐力;伊传环;;利用增益率构建混合型选择性不完整数据分类器[J];北京交通大学学报;2009年05期
3 王中锋;王志海;付彬;;贝叶斯网络分类器结构与变量分布的差异性分析[J];北京交通大学学报;2011年02期
4 马勇;仝瑶瑶;程玉虎;;一种改进的最大相关最小冗余选择性贝叶斯分类器[J];北京科技大学学报;2012年01期
5 郑建军,刘炜,刘琼昕,刘玉树;基于选择性的贝叶斯分类器集成方法[J];北京理工大学学报;2003年06期
6 张全新;郑建军;牛振东;原达;;贝叶斯分类器集成的增量学习方法[J];北京理工大学学报;2008年05期
7 李玉玲;吴祈宗;;基于Rough Set的贝叶斯网络结构学习研究[J];北京工商大学学报(自然科学版);2007年02期
8 秦笙;蔡禄;;基于二级结构信息的蛋白质相互作用贝叶斯分类预测[J];内蒙古科技大学学报;2010年01期
9 王建林;王学玲;;选定根节点的TAN分类器[J];滨州学院学报;2008年03期
10 王利;张喜平;郭林;;增量式知识获取算法综述[J];重庆邮电大学学报(自然科学版);2007年S1期
中国重要会议论文全文数据库 前10条
1 程泽凯;泰锋;;贝叶斯网络分类器结构学习:基于启发式的G2算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 杨波;秦锋;程泽凯;;一种新的分类学习系统评估度量[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 赵越岭;王英丽;;基于粗糙集感应电动机故障诊断决策规则分析[A];第二十七届中国控制会议论文集[C];2008年
4 ;Gas Thickness On-line Monitoring Instrument Design Based on BP Neural Network[A];第二十七届中国控制会议论文集[C];2008年
5 ;Fault Diagnosis Based on Bayesian Networks for the Data Incomplete Industrial System[A];中国自动化学会控制理论专业委员会A卷[C];2011年
6 ;A Recursive Method of Learning Bayesian Network for Rule Extraction Based on Information Theory[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
7 ;The Intelligent Methods for Teaching Quality Comprehensive Assessment[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
8 李彬彬;易宝林;罗乐;刘文娇;;基于信源学的光谱曲线特征提取技术比较研究[A];中国通信学会第六届学术年会论文集(中)[C];2009年
9 李海军;王钲旋;王利民;苑森淼;;基于主成分分析提升朴素贝叶斯[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
10 周立兵;柳景超;;贝叶斯理论在垃圾邮件过滤中的应用分析[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(上册)[C];2006年
中国博士学位论文全文数据库 前10条
1 刘家国;基于突发事件风险的供应链利益分配与行为决策研究[D];哈尔滨工程大学;2010年
2 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
3 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
4 朱佳俊;不确定可拓群决策优化方法及应用[D];东华大学;2010年
5 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
6 王中锋;树型贝叶斯网络分类器鉴别式训练研究[D];北京交通大学;2011年
7 祁瑞华;不完整数据分类知识发现算法研究[D];大连理工大学;2011年
8 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
9 刘笑嶂;核方法的若干关键问题研究及其在人脸图像分析中的应用[D];中山大学;2010年
10 杜炅;离散型随机变量的贝叶斯分类方法研究[D];北京大学;2011年
中国硕士学位论文全文数据库 前10条
1 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
2 桑媛媛;基于非负稀疏表示的文本分类算法研究[D];大连理工大学;2010年
3 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
4 李英伟;基于增量改进贝叶斯领域问句分类研究[D];昆明理工大学;2009年
5 苏保君;在线组合分类器应用于大规模垃圾邮件过滤的研究[D];浙江大学;2010年
6 李海丰;基于Lucene的企业文档搜索引擎研究与应用[D];中南林业科技大学;2009年
7 徐丽平;基于内容挖掘的中文垃圾邮件过滤技术研究[D];东北财经大学;2010年
8 司马碧荣;基于贝叶斯分类的高职软件课程教学应用研究[D];云南大学;2010年
9 杨桂秋;心力衰竭疾病评估模型研究[D];浙江大学;2011年
10 李慧;基于贝叶斯分类方法的中文问句分类研究[D];石家庄铁道学院;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李菁菁,胡鹏,赵锐;房地产企业营销组织预警管理指标体系设计[J];四川建筑科学研究;2004年01期
2 陈键;;浅析常用聚类分析算法[J];安徽电子信息职业技术学院学报;2007年01期
3 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
4 高燕;电子证据的法律效力[J];安徽科技;2003年11期
5 李翠霞,于剑;一种模糊聚类算法归类的研究[J];北京交通大学学报;2005年02期
6 刘晓志;黄厚宽;尚文倩;;带专业词库的特征选择[J];北京交通大学学报;2006年02期
7 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
8 蔡颖琨,谢昆青,马修军;屏蔽了输入参数敏感性的DBSCAN改进算法[J];北京大学学报(自然科学版);2004年03期
9 封举富,时建新;基因选择的快速Fisher优化模型[J];北京大学学报(自然科学版);2005年01期
10 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
中国博士学位论文全文数据库 前10条
1 黄后川;中国股票市场波动率的高频估计、特性与预测[D];厦门大学;2002年
2 毛国君;数据挖掘技术与关联规则挖掘算法研究[D];北京工业大学;2003年
3 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
4 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
5 王真星;基于本体的计算机支持协同学习关键技术研究[D];复旦大学;2003年
6 杨风召;高维数据挖掘中若干关键问题的研究[D];复旦大学;2003年
7 王达;时间序列数据挖掘研究与应用[D];浙江大学;2004年
8 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
9 胡鹤;本体方法及其时空推理应用研究[D];吉林大学;2004年
10 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
中国硕士学位论文全文数据库 前10条
1 兰冲;基于统计规则的中文分词研究[D];西安电子科技大学;2011年
2 邓媛;大众分类在政府门户网站中的应用[D];西安电子科技大学;2011年
3 林冬盛;中文分词算法的研究与实现[D];西北大学;2011年
4 李相荣;BIM(建筑信息模型)应用于房地产项目管理信息化[D];北京交通大学;2011年
5 彭鹏;基于详图描述和建筑性能分析的BIM设计流程研究[D];华中科技大学;2010年
6 孙悦;基于BIM的建设项目全生命周期信息管理研究[D];哈尔滨工业大学;2011年
7 孟程程;B2C网站商品属性抽取研究[D];华中科技大学;2010年
8 李倩;基于本体的BIM环境下文档管理系统研究[D];大连理工大学;2011年
9 钱小军;Web文本挖掘技术研究及其实现[D];浙江大学;2002年
10 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
【二级引证文献】
中国期刊全文数据库 前10条
1 张世博;周义明;;一种优化初始化中心的k均值web信息聚类算法[J];北京石油化工学院学报;2011年04期
2 宋春桥;游松财;柯灵红;;面向发生的地学数据分类方案及其元数据扩展研究[J];地理信息世界;2010年04期
3 孙铁利;张妍;李晓微;;文本挖掘中特征降维方法比较研究[J];电脑知识与技术;2008年02期
4 胡小丽;徐远纯;;基于python的博客分层聚类研究与分析[J];福建电脑;2012年05期
5 王洪福;李怀龙;张家年;;博客资源数据挖掘研究现状[J];电脑知识与技术;2013年12期
6 温权;陈茜;刘力一;;基于改进相关系数聚类法的股票投资组合研究[J];财会通讯;2014年24期
7 杨东风;;基于多兴趣度的图书借阅推荐系统研究与设计[J];信息技术;2011年07期
8 周杰;林琛;李弼程;;基于机器学习的网络新闻评论情感分类研究[J];计算机应用;2010年04期
9 张世博;;基于优化初始中心点的K-means文本聚类算法[J];计算机与数字工程;2011年10期
10 李立;蔡峰;梁非;郑光;吕爱平;;基于文本挖掘技术探索中医治疗胆结石药证对应规律研究[J];辽宁中医杂志;2013年04期
中国博士学位论文全文数据库 前10条
1 张可;矩阵型灰色关联分析建模技术研究[D];南京航空航天大学;2010年
2 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
3 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
4 周世兵;聚类分析中的最佳聚类数确定方法研究及应用[D];江南大学;2011年
5 郑立斌;联合式制造资源发现与集成方法的研究[D];江苏大学;2011年
6 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
7 宗瑜;聚类质量改进方法的研究[D];大连理工大学;2010年
8 李鹏;基于专利信息分析的生物侦检技术发展研究[D];中国人民解放军军事医学科学院;2012年
9 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
10 董丁稳;基于安全监控系统实测数据的瓦斯浓度预测预警研究[D];西安科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年
2 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
3 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
4 周杰;网络舆情话题情感倾向性分析技术研究[D];解放军信息工程大学;2010年
5 刘瑛慧;基于粗糙集理论的数据挖掘技术在时序信号分析系统中的应用[D];大连交通大学;2010年
6 遇铁龄;基于核函数的多分类器集成及应用研究[D];山东师范大学;2011年
7 关庆;增强的软子空间聚类技术的研究[D];江南大学;2011年
8 王博;基于网络的实训室管理系统的设计与实现[D];河北科技大学;2010年
9 靳欢;淘宝网C2C电子商务中信息不对称问题分析与改进策略[D];吉林大学;2011年
10 巴金;电动汽车的专利分析研究[D];吉林大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 ;浅析大规模文本数据挖掘技术在媒体中的创新应用[J];中国传媒科技;2007年11期
2 赵慧勤;基于因特网的信息检索特点与发展趋势[J];情报理论与实践;2000年05期
3 崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期
4 胥桂仙,朴泰雄,杨丹丹,徐小博,高旭;中文文本挖掘中最长频繁序列的发现算法[J];中央民族大学学报(自然科学版);2004年01期
5 渡部勇;;文本挖掘技术应用于专利检索分析[J];微电脑世界;2007年12期
6 苏芳仲,林世平;Web文本挖掘中的一种中文分词算法研究及其实现[J];福州大学学报(自然科学版);2004年S1期
7 付国瑜;;Web文本分类挖掘[J];科学咨询(决策管理);2008年03期
8 曹丽君;刘西印;杨燕萍;;WEB页面文本挖掘的价值与未来探究[J];商场现代化;2008年09期
9 韩洁;;Web文本挖掘技术在信息生产领域的应用研究[J];硅谷;2010年08期
10 胥桂仙,杨丹丹,高旭,陈立新;中文文本挖掘中姓名特征提取技术的研究[J];中央民族大学学报(自然科学版);2003年04期
中国重要会议论文全文数据库 前10条
1 王继成;孙颖;张福炎;;文本挖掘-数据挖掘研究的新课题[A];第十六届全国数据库学术会议论文集[C];1999年
2 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
3 陈林;王晓华;李殿赟;文俊浩;;基于自增模式的文本挖掘研究[A];’2004计算机应用技术交流会议论文集[C];2004年
4 陈林;王晓华;李殿赟;文俊浩;;基于Web的自增模式文本挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
5 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
6 ;TRS搜索引擎和文本挖掘系统[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
7 王波;王厚峰;;基于自学习策略的产品特征自动识别(英文)[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 杨志豪;林鸿飞;;生物医学文献中的隐含知识发现[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 樊延平;马亚龙;袁野;;军事想定数据挖掘技术研究[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年
10 王巍;杨武;张乐君;郑军;;支持网络话题管理的文本挖掘算法分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
3 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
4 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年
5 汪洋 编译;BI平民化[N];计算机世界;2004年
6 靳辉;垂直搜索:呼叫经济发展的核心动力[N];通信产业报;2007年
7 缪其浩记者 江世亮;非官方信息源担当应急预警器[N];文汇报;2008年
8 ;用挖掘技术使学术资源利用效益最大化[N];中国计算机报;2007年
9 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
10 本报记者 张承东;挖潜无极限[N];网络世界;2006年
中国博士学位论文全文数据库 前10条
1 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
2 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
3 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
4 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年
5 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
6 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
7 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
8 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
9 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
10 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 刘明岩;面向语义关系发现的文本挖掘研究[D];南京理工大学;2010年
2 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年
3 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年
4 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
5 刘岩;基于Web的文本挖掘技术的研究[D];哈尔滨工程大学;2004年
6 姚继伟;基于XML的Web文本挖掘的研究[D];吉林大学;2010年
7 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
8 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
9 杨瑞峰;WEB上基于文本挖掘的个性化检索系统的设计与实现[D];电子科技大学;2003年
10 赵天雪;潜在语义分析在答疑系统中的应用研究[D];吉林大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026