收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于HMM的教育新闻抽取与分类研究

梁吉光  
【摘要】:在科学技术飞速发展的时代,网络已成为人们生活中一个不可或缺的部分。网络承载了巨大的信息量,面对这些海量的信息,如何从中快速有效地选择出用户感兴趣的信息内容是信息检索中的一个重要问题。有效信息的筛选可看作是Web信息抽取和分类的过程。 本文设计了一个基于隐马尔可夫模型的教育新闻网页信息抽取与分类系统,主要实现了网页主题信息抽取、特征选择与提取、文本分类等功能,并将分类结果存储在结构化的数据库中,为教育研究与教育实践管理提供信息支持服务。 首先,介绍了Web信息抽取和文本分类的概念,对常见的技术做了分析比较,并给出了结果的评价方法。然后重点介绍了隐马尔可夫模型及其主要算法。 接着,在分析教育新闻网页的结构特征的基础上,提出了基于隐马尔可夫模型的教育新闻网页信息的抽取方案。先对网页源文档进行部分噪音过滤,净化网页。然后,采用最大字符串匹配算法获取新闻标题,并进一步定位新闻主题内容。最后,利用隐马尔可夫模型对粗略定位的主题内容进行状态标注,删除标记为“噪音”状态的信息,即可得到主题信息。 然后,针对教育新闻文本的分类问题,设计了可用于进行分类的隐马尔可夫模型,并分析了其可行性。结合词频反文档频率和卡方计算选择出特征词,并用Apriori算法进一步挑选出具有强关联性的特征词组。计算词、词组与文本类别的相关度并选择相关度最大的类别作为当前文本的类别。 最后,实现了基于隐马尔可夫模型的教育新闻网页信息抽取与分类系统。从网上下载900多篇网页和3000篇文档用于测试系统。实验结果表明,隐马尔可夫模型可应用于网页主题信息抽取及文本分类,并且可取得较高的抽取与分类精度。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 朱学昊;王儒敬;;隐含语义索引技术在供求信息分类中的应用[J];计算机工程与应用;2007年14期
2 程志;黄荣怀;;文本挖掘及其教育应用[J];现代远距离教育;2008年02期
3 吴鹏飞;马凤娟;;基于Boost.Regex的网页信息抽取[J];电脑编程技巧与维护;2009年15期
4 魏顺平;何克抗;;文本智能处理技术在远程教育元研究中的应用[J];中国远程教育;2007年08期
5 于琨;管刚;周明;王煦法;蔡庆生;;基于双层级联文本分类的简历信息抽取[J];中文信息学报;2006年01期
6 火善栋;;FORM表单反馈网页信息抽取的研究与实现[J];电脑知识与技术;2009年09期
7 于成龙;;中文网页信息抽取技术及分类算法研究[J];山东理工大学学报(自然科学版);2011年03期
8 潘超;梁宏伟;李立召;;基于DOM的网页信息抽取方法[J];硅谷;2010年20期
9 陈琼,苏文健;基于网页结构树的Web信息抽取方法[J];计算机工程;2005年20期
10 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
11 苗颖;;Web页面信息自主抽取技术的研究[J];中国科技信息;2007年23期
12 侯锟;刘斌;;Web页面信息抽取技术的研究[J];荆楚理工学院学报;2009年11期
13 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期
14 高金勇;徐朝军;冯奕竸;;基于迭代的TFIDF在短文本分类中的应用[J];情报理论与实践;2011年06期
15 郭清宇;赵冬;;垂直搜索技术在农村综合信息网站设计中的应用[J];中原工学院学报;2007年05期
16 郝爱峰;;网页结构化信息抽取技术方法研究[J];山西电子技术;2008年04期
17 郭兴;柯鹏;徐媛;李宗荣;;论垂直搜索引擎中的信息抽取技术的选用[J];医学信息;2006年12期
18 王钢明;屠建飞;;基于Web信息抽取的技术成果信息采集系统[J];成组技术与生产现代化;2007年04期
19 朱明;李香;郑烇;;基于多学习策略的网页信息抽取方法[J];计算机应用与软件;2008年12期
20 崔阳;吴爱华;;一种面向B2B垂直搜索的网页信息去噪方法[J];计算机技术与发展;2008年12期
中国重要会议论文全文数据库 前10条
1 房一飞;张冬茉;;基于boosting的文本分类在股市领域信息抽取系统中的应用[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
2 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
4 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
7 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
2 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
3 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
4 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
5 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
8 郭勇;基于语义的网络知识获取相关技术研究[D];国防科学技术大学;2007年
9 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
10 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
中国硕士学位论文全文数据库 前10条
1 曲杰涛;基于DOM的智能网页信息抽取技术研究[D];中国海洋大学;2009年
2 郭峰;面向行业搜索引擎的WEB文本挖掘技术研究[D];兰州大学;2006年
3 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
4 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
5 田宇;基于XML的WEB信息抽取系统研究与实现[D];内蒙古大学;2011年
6 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
7 王伟;搜索引擎下Web分类技术研究[D];内蒙古科技大学;2011年
8 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
9 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年
10 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
3 彭芳;搜索也专业[N];中国计算机报;2004年
4 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
5 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
6 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
7 希安;微软试水信息检索[N];经济日报;2004年
8 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
9 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
10 路人甲;请个专家来贴图[N];电脑报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978