收藏本站
《北京邮电大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

Web文本挖掘中若干问题的研究

王占一  
【摘要】:随着互联网和电信网的飞速发展,网络文本成为信息的重要载体及不可或缺的主要来源。Web文本挖掘采用数据挖掘、模式识别、信息检索、自然语言处理等学科的知识,解决如何从纷繁复杂的文本信息中获取可理解、易用的知识的问题。本文针对Web文本挖掘中文本分类、短信过滤、信息检索和复杂网络等若干关键问题进行了如下的研究: (1)多类文本分类。本文针对纠错输出编码法ECOC (Error Correcting Output Code)在解码方面的不足,提出了一种基于支持向量机和概率纠错输出编码的多类文本分类算法。通过构造合适的编码矩阵训练多个两类分类器,并采用Sigmoid函数使其决策函数值概率化。提出两种判别测试文本类别的解码方式:类序列概率计算法和求编码矩阵伪逆法。在标准中英文数据集上的实验结果表明,本文的方法优于ECOC法传统的解码方法及其他经典分类算法。在样本类别分布不均的情况下,该算法仍保持较稳定的准确率。 (2)演进式垃圾短信过滤。针对垃圾短信过滤中存在的内容变化快、用户个性强、训练样本少等问题,本文提出了一种演进式垃圾短信过滤算法和系统。首先提出了基于朴素贝叶斯分类器的演进式基本过滤算法和系统,主要创新点在于灵活的用户反馈方式、自适应学习和进化学习。根据用户使用手机的习惯,提出三种个性化反馈训练样本和类别标签的方式。自适应学习和进化学习的功能分别是更新短信模型中各特征项的权重及特征项本身。为了解决短信训练样本少且精度要求高的问题,提出一种基于中间层映射的垃圾短信过滤算法。实验结果表明,演进式短信过滤方法能够有效接收以数据流传入的短信,并自动更新过滤器。基于中间层映射的过滤算法精度收敛迅速,且在训练样本充足后可与传统分类算法结合使用,继续提高过滤精度。 (3)面向Web实体的搜索。本文以参加的文本检索会议TREC(Text REtrieval Conference)评测的实体追踪(Entity Track)任务为主线,针对网页中的实体提出了一系列挖掘和检索的算法。实体抽取采取了手工辅助自动、规则结合统计的方法,创建了包含多个类型的实体词典。为实体排序提出了文档中心模型DCM(Document-Centered Model)和实体中心模型ECM (Entity-Centered Model),并在此基础上引入语义类别标签,提高检索的精度。另外,基于网页中实体应存在唯一标识的设定,提出了基于规则的主页分配算法。排名第一的评测结果验证了算法的有效性。另一方面,在半结构化的英文维基百科数据集上测试,引入语义类别标签将原有两种模型算法的NDCG指标分别提升了12.1%和25.6%。 (4)基于激活力和亲和度的复杂网络建模与应用。本文以自然语言文本为例,通过词频、共现、距离等统计量模拟生物学和心理学上的词激活效应,计算词激活力WAF (Word Activation Force)。基于WAF计算词的亲和度,建立无向的词网络,研究词的语义相似性在此基础上,将WAF和亲和度用于文本表示、特征选择和文本分类。本算法还可以用来对蛋白质相互作用网络建模,分析蛋白质的关联性除此之外,实体的亲和度还有助于改善实体检索的排序效果。实验结果表明基于激活力和亲和度的复杂网络建模对Web文本挖掘具有重要意义。
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 张琪;手机短信:第五媒体的崛起[J];传媒;2005年01期
2 秦志光;罗琴;张凤荔;;一种混合的垃圾邮件过滤算法研究[J];电子科技大学学报;2007年03期
3 卢苇;彭雅;;几种常用文本分类算法性能比较与分析[J];湖南大学学报(自然科学版);2007年06期
4 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
5 丁国栋;白硕;王斌;;文本检索的统计语言建模方法综述[J];计算机研究与发展;2006年05期
6 黄健斌;孙鹤立;;基于链接路径预测的聚焦Web实体搜索[J];计算机研究与发展;2010年12期
7 行花妮;刘刚;王磊;;基于GN算法的快速算法在PPI网络中的实现[J];计算机与信息技术;2009年09期
8 李敏;陈建二;王建新;;基于复杂网络理论的PPI网络拓扑分析[J];计算机工程与应用;2008年08期
9 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期
10 高茂庭;王正欧;;基于文档标引图模型的文本相似度策略[J];计算机工程;2008年07期
中国博士学位论文全文数据库 前10条
1 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
2 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年
3 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
4 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
5 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
6 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
7 谢江;蛋白质相互作用网络的数值研究[D];上海大学;2008年
8 黄文良;垃圾短信过滤关键技术研究[D];浙江大学;2008年
9 何慧;WEB文本挖掘中关键问题的研究[D];北京邮电大学;2009年
10 茹昭;企业信息检索中的对象检索方法研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前8条
1 江叶婵;手机阅读内容研究[D];安徽大学;2011年
2 胡海波;复杂网络拓扑结构的研究[D];西安理工大学;2006年
3 苏力华;基于向量空间模型的文本分类技术研究[D];西安电子科技大学;2006年
4 陈岳华;企业信息检索研究与实现[D];北京邮电大学;2006年
5 刘斌;数字图书馆中基于统计的自动文本分类方法研究[D];中国科学院研究生院(计算技术研究所);2002年
6 庞剑锋;基于向量空间模型的自反馈的文本分类系统的研究与实现[D];中国科学院研究生院(计算技术研究所);2001年
7 关娜;基于文本分类算法的垃圾短信过滤技术研究[D];电子科技大学;2008年
8 李晨;网络搜索引擎与专家检索系统框架和模型研究[D];北京邮电大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 干娟;;基于决策树算法的学生综合测评系统的设计[J];安徽电子信息职业技术学院学报;2011年04期
3 程卫华;尤晋元;;基于内容过滤的反垃圾邮件系统的设计与实现[J];安徽大学学报(自然科学版);2007年03期
4 宋平平;;基于数据挖掘的智能入侵检测系统模型及实现[J];安徽工程科技学院学报(自然科学版);2006年03期
5 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
6 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
7 朱学群;刘音;顾凯平;;陆地生态系统碳循环研究回顾与展望[J];安徽农业科学;2008年24期
8 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
9 焦亚冰;;教学评价数据挖掘中的关联规则分析与设计[J];辽宁科技大学学报;2010年03期
10 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
3 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
4 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
5 赵云鹏;石丽;刘莹;;基于数据挖掘的高校规模分析及应用研究[A];第九届全国信息获取与处理学术会议论文集Ⅰ[C];2011年
6 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 张仰森;黄改娟;苏文杰;;基于隐最大熵原理的汉语词义消歧方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
9 刘子豪;庄毅;;一种电子邮件敏感信息检测算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
10 杨纪军;朱培栋;;关联规则挖掘技术在蜜罐系统中的应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
3 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
4 胡进;复杂网络上的博弈及其在通信网络资源管理中的应用[D];华中科技大学;2010年
5 徐红林;基因调控网络的建模及其结构分解方法研究[D];江南大学;2010年
6 于群;电力系统大停电的自组织临界特性研究[D];中国电力科学研究院;2010年
7 丁飞;互联网社区信息交互和传播模式的研究[D];北京交通大学;2010年
8 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
9 李彤岩;基于数据挖掘的通信网告警相关性分析研究[D];电子科技大学;2010年
10 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
3 岳海鸥;基于Ajax和Soap Service的应用框架及实现方法研究[D];山东科技大学;2010年
4 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
5 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
6 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
7 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
8 汤雪;时间序列线性表示方法及其相似性度量算法研究[D];山东科技大学;2010年
9 刘维会;不平衡数据集上支持向量机算法研究[D];山东科技大学;2010年
10 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 刘洋;关注暗潮涌动的短信“泛滥”[J];电信建设;2003年03期
2 李文斌,刘椿年,黄佳进;基于数据挖掘的垃圾E-mail过滤方法[J];北京工业大学学报;2003年02期
3 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
4 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
5 钟义信;自然语言理解的全信息方法论[J];北京邮电大学学报;2004年04期
6 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报;2000年03期
7 董振东,董强;知网和汉语研究[J];当代语言学;2001年01期
8 秦志光;罗琴;张凤荔;;一种混合的垃圾邮件过滤算法研究[J];电子科技大学学报;2007年03期
9 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期
10 李厂;浅谈短信服务的实现技术[J];电力系统通信;2003年08期
中国重要会议论文全文数据库 前3条
1 吴俊;邓宏钟;朱大智;谭跃进;;蛋白质相互作用网络的度秩函数与度分布[A];2006全国复杂网络学术会议论文集[C];2006年
2 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 邵兵;关毅;王强;王晓龙;任瑞春;;基于上下文平均互信息的问句查询扩展模型[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 张毅波;中文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
2 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
3 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
4 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
5 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
6 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
7 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
8 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
9 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
10 梁治;蛋白质相互作用网络的比较生物学分析及其应用[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前6条
1 李卫亮;现代汉语分词系统中专名识别的实用策略[D];北京工业大学;2000年
2 彭雅;文本分类算法及其应用研究[D];湖南大学;2004年
3 王金森;文本分类算法在垃圾邮件过滤中的研究与应用[D];吉林大学;2006年
4 张耀龙;行为识别技术在反垃圾邮件系统中的研究与应用[D];北京邮电大学;2006年
5 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
6 吴薇;大规模短文本的分类过滤方法研究[D];北京邮电大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 王连军;Web文本挖掘浅析[J];现代图书情报技术;2002年06期
2 康曙光;裴志利;孔英;;基于改进遗传算法的WEB文本挖掘系统[J];内蒙古民族大学学报;2009年02期
3 李会;王立峰;;Web网页文本特征选择方法研究[J];计算机工程与设计;2010年16期
4 宁彬;;Web数据挖掘综述[J];华南金融电脑;2006年02期
5 李孝军;;基于Web数据挖掘[J];科技创新导报;2008年14期
6 黎琳;;Web内容挖掘在数字图书馆中的应用[J];深图通讯;2005年04期
7 黎琳;赵英;;Web内容挖掘在数字图书馆中的应用[J];图书馆学研究;2006年02期
8 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期
9 陈建丽;;基于XML的Web文本数据挖掘模型构建[J];电脑与电信;2008年09期
10 李方敏;CGI的安全编程[J];计算机工程与应用;1999年06期
中国重要会议论文全文数据库 前10条
1 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 袁志坚;贾焰;;基于误差反馈的高速Web文本流快速近似分类[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
4 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
5 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
6 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
7 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
8 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
10 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
2 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年
3 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
4 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
5 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
6 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
7 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
8 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
9 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
10 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
中国硕士学位论文全文数据库 前10条
1 程博;Web文本分类方法研究与系统实现[D];电子科技大学;2010年
2 段莹;支持向量机在Web文本分类优化中的应用[D];武汉理工大学;2010年
3 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
4 王伟;搜索引擎下Web分类技术研究[D];内蒙古科技大学;2011年
5 孙海虹;基于模糊粗糙集的Web文本分类研究[D];哈尔滨理工大学;2010年
6 姚继伟;基于XML的Web文本挖掘的研究[D];吉林大学;2010年
7 钟志丹;Web应用框架与文本分类技术应用研究[D];湖南大学;2010年
8 胡峰;Web数据挖掘及其在网络新闻文本数据中的应用[D];电子科技大学;2010年
9 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
10 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026