收藏本站
《合肥工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于内容的Web新闻文本自动分类问题研究

潘正高  
【摘要】:随着WWW的迅速发展和普及,人们已经从信息资源匮乏的时代迅速过渡到信息极为丰富的数字化时代。面对网上海量的信息资源,人们很难迅速有效的找到所需的信息。因此,如何合理和有效地组织和管理网上信息,已经成为Web智能领域里一个十分重要的研究课题。随着网络信息的大量增长,传统的人工处理网络信息的方式已不能适应时代的需要。网络上的信息大都以文本形式出现。因此,Web文本的自动分类研究成为了一个日益重要的研究领域。 本文的研究内容主要有以下几个方面: (1)分析了Web文本分类中的特征表示、特征项提取、分类方法等关键技术,探讨和研究了存在的难点和突出问题。 (2)提出了规则和统计相结合的中文命名实体识别方法。提出了一种在构造外部和内部规则的同时采用概率统计的中文命名实体的识别方法,实验结果表明,该方法可以获得较高的准确率和召回率。 (3)讨论了Web新闻文本中的新闻实体要素对其主题的限定作用。并以这些新闻实体要素的组合为特征,对Web新闻文本进行主题分类。实验结果表明,该方法获得了较好的主题识别效果。 (4)提出一种利用新闻新闻实体要素作为特征来表示Web新闻文本的模型——SNE模型,在此基础上,构建了分类器。实验结果表明,建立在该模型基础上的新闻实体要素组合的Web新闻文本的主题分类方法可以达到较好的分类效果。
【学位授予单位】:合肥工业大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 付艳;杨冬青;唐世渭;伍伟;王腾蛟;高军;;基于实体识别的在线主题检测方法[J];北京大学学报(自然科学版);2009年02期
2 胡佳妮,徐蔚然,郭军,邓伟洪;中文文本分类中的特征选择算法研究[J];光通信研究;2005年03期
3 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
4 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
5 单松巍,冯是聪,李晓明;几种典型特征选取方法在中文网页分类上的效果比较[J];计算机工程与应用;2003年22期
6 刘芳,赵铁军,于浩,杨沐昀,方高林;基于统计的汉语组块分析[J];中文信息学报;2000年06期
7 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
8 周强;规则和统计相结合的汉语词类标注方法[J];中文信息学报;1995年03期
9 范焱,郑诚,王清毅,蔡庆生,刘洁;用Naive Bayes方法协调分类Web网页[J];软件学报;2001年09期
10 侯震宇;信息检索系统中的相关性评价问题[J];现代图书情报技术;2003年02期
中国博士学位论文全文数据库 前1条
1 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前2条
1 李盛;面向真实文本的汉语词义排歧系统[D];山西大学;2003年
2 赵琳瑛;基于隐马尔科夫模型的中文命名实体识别研究[D];西安电子科技大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
2 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
3 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
4 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
5 赵静娴;;基于决策树的食品安全评估研究[J];安徽农业科学;2011年32期
6 王斌;;基于聚类的决策树在玉米种质筛选中的应用[J];安徽农业科学;2011年33期
7 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期
8 覃爱明,胡昌振,谭惠民;网络攻击检测中的机器学习方法综述[J];安全与环境学报;2001年01期
9 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
10 左吉峰;乔均俭;;ID3算法的合理性证明及实验分析[J];保定学院学报;2008年04期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
3 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
4 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 余骁捷;邵阳;吴及;王侠;;基于SVM和MMR融和的自动文摘方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
6 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
7 刘海霞;钟晓妮;周燕荣;田考聪;;决策树在居民就诊卫生服务利用影响因素研究中的应用[A];重庆市预防医学会2010年论文集[C];2011年
8 汪云亮;吕久明;刘孝刚;;基于信息熵的辐射源属性分类方法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
9 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
10 叶中行;陆青;余敏杰;;计算智能在银行信贷信用分类中的应用[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
中国博士学位论文全文数据库 前10条
1 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
2 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
3 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
4 刘运通;产品设计过程知识配送服务关键技术研究[D];浙江大学;2011年
5 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
6 朱佳俊;不确定可拓群决策优化方法及应用[D];东华大学;2010年
7 陈进;高光谱图像分类方法研究[D];国防科学技术大学;2010年
8 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
9 孙静宇;基于CBR的协同Web搜索研究[D];太原理工大学;2010年
10 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
中国硕士学位论文全文数据库 前10条
1 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
2 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
3 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
4 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
5 徐洪伟;数据挖掘中决策树分类算法的研究与改进[D];哈尔滨工程大学;2010年
6 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
7 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
8 秦园;基于SPOT5的土地信息提取技术研究[D];大连理工大学;2010年
9 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
10 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 钟义信;自然语言理解的全信息方法论[J];北京邮电大学学报;2004年04期
2 钟义信;面向智能研究的全信息理论——纪念Shannon信息论50周年[J];北京邮电大学学报;1998年04期
3 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
4 袁颖芬 ,张玥杰;英汉机译中未登录词的识别[J];电子技术;2004年02期
5 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
6 王鑫,王丁,李向宏;基于汉语分词的信息抽取技术[J];信息技术;2003年04期
7 万小军,杨建武;在线新闻主题检测系统的设计与应用[J];华南理工大学学报(自然科学版);2004年S1期
8 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
9 赵军,黄昌宁;结合句法组成模板识别汉语基本名词短语的概率模型[J];计算机研究与发展;1999年11期
10 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国硕士学位论文全文数据库 前3条
1 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
2 陈晴;基于条件随机场的自动分词技术的研究[D];东北大学;2005年
3 温锐;中文命名实体识别及其关系抽取研究[D];苏州大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 宋如顺,姜乃松;基于Web的远程考试系统设计与实现[J];计算机工程;1999年06期
2 王红霞,姚家亮;利用ASP构建新型信息系统的方法与实现[J];计算机应用;1999年09期
3 邓劲生,张银福;面向对象的多媒体信息WEB发布[J];计算机应用研究;1999年09期
4 刁兴春,李赤红;Intranet环境下事务处理的理论研究和实现[J];小型微型计算机系统;1999年06期
5 高昆;基于ASP的WEB站点开发技术分析[J];北华大学学报(社会科学版);1999年05期
6 王清心,胡建华;经贸数据库的WEB集成发布[J];昆明理工大学学报;1999年02期
7 李晶,朱秋萍;Web页制作中的动态表现技术[J];计算机工程;2000年06期
8 刘波,代亚非,杜跃进;远程协同教学系统中课程搜索子系统设计[J];计算机应用;2000年06期
9 武庄,刘友丹;基于Web的企业内部质量审核系统设计与实现[J];计算机应用研究;2000年05期
10 梁开健,刘新民;基于ASP的图书馆Web数据库开发[J];高校图书馆工作;2000年04期
中国重要会议论文全文数据库 前10条
1 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
3 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
4 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
5 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
8 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 黄建波;丁扬;方芳;;基于代理服务器的Web加速的实现[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
10 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
2 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
3 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
4 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
5 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
6 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
7 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
8 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年
9 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
10 胡佳;语义Web服务自动组合及验证的研究[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
2 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年
3 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年
4 姜本臣;基于嵌入式Web服务器应用技术的研究[D];沈阳工业大学;2012年
5 温梨梨;基于零拷贝的Web服务器技术研究[D];中国海洋大学;2011年
6 焦燕廷;一种基于领域本体的语义Web服务匹配和组合方法[D];山东科技大学;2011年
7 黄亮;Web漏洞扫描系统中的智能爬虫技术研究[D];杭州电子科技大学;2012年
8 赵春娟;Web服务组合方法的研究与实现[D];天津理工大学;2011年
9 任强;基于谓词抽象与精化技术的Web服务验证研究[D];苏州大学;2011年
10 侯晓帆;基于云计算的Web教育爬虫[D];东北师范大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026