收藏本站
《华南理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于主题词同现图的网页相关度研究

王洋  
【摘要】: 文本的主题词信息抽取是指对从文本中抽取的表达文章主题的词进行量化,以结构化的形式描述文本信息。这些主题词作为文本的中间表示,在信息挖掘和智能检索中用以评估未知文本之间的相似性。网络文本的信息的多元化和复杂化使得要获得一个标准形式的文本特征描述是比较困难的。词的同现频率计算就是计算一个词与另一个词在同一句子中同时出现的次数,从而通过文档中各关键词的相关性,揭示了同一文档中各段之间或者不同文档之间的相关性。 现今的研究中,各种方法多用向量的形式来表示一篇文章中的各主题词及其特征值,称为特征向量,并在此基础上,对相关性进行计算。本文提出了用同现图的方式表示文章的新研究方法,通过图的形式体现出主题词之间的关联,从而反映文本之间的联系。在此方法过程中主要有两个步骤:首先是将文本以无向图的形式表示,然后是生成的图形的相似性的分析。 本文实现了一个能满足运用同现图方法将文本进行聚类处理的系统。系统自动抽取文本内容,并用中文分词的方法提取文章中的主题词,再生成主题词之间同现关系形成的图。系统同时实现了一个主题词同现图在文本聚类方面的应用,最后使用查全率和准确率以及F值来评估算法的好坏,通过实验证明了该聚类算法的有效性和优越性。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.092

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 马向玲,马向阳,李伟;用Dreamweaver制作博士招生网站[J];教育信息化;2001年08期
2 小贝壳;保存网页的利器——网文快捕信息管理速战[J];电脑应用文萃;2004年03期
3 ;剖析恶意网页修改注册表[J];电脑数码采购周刊;2005年02期
4 miniworm;;圆角的革命[J];电脑爱好者;2007年07期
5 张启宇;朱玲;车忠志;;网页文件元数据的自动提取[J];电脑与电信;2008年04期
6 陈宁江;杜凡远;;网页防篡改应用技术分析[J];现代机械;2009年03期
7 中英;;神奇的Internet临时文件夹[J];网络科技时代(数字冲浪);2002年01期
8 李佩华;制作网络版课件的快捷途径[J];教育信息化;2004年06期
9 于艳杰;网页文件上传方法分析与研究[J];哈尔滨学院学报;2005年05期
10 流言;;“傲游”因特网 生活从此更精彩……[J];电脑爱好者;2006年02期
中国重要会议论文全文数据库 前10条
1 忻汝平;;在实践中提高标引质量[A];外向型文献库的数据质量控制——首届CUJA系统学术讨论会论文集[C];1990年
2 刘春阳;叶君峰;母海龙;陆秋霞;陈沧;高莺;;一种商品标题主题词的重要性排序算法[A];第五届全国信息检索学术会议论文集[C];2009年
3 吴秀兰;;主题词在地震情报检索中应用的探讨[A];中国地震学会第四次学术大会论文摘要集[C];1992年
4 刘启恕;;谈谈公文格式常见错误[A];中国当代秘书群星文选[C];1999年
5 闫雷;崔雷;;急性白血病相关基因的文本挖掘分析[A];中华医学会第十二次全国医学信息学术会议论文汇编[C];2006年
6 陈奇哲;刘全升;姚天昉;;汉语意见型语句主题与情感关系抽取的研究[A];第五届全国信息检索学术会议论文集[C];2009年
7 王小仲;张峰;;医学期刊计算机检索系统[A];“新学科与编辑学”学术研讨会论文集[C];1989年
8 张鑫;;刍议地方综合年鉴索引[A];创新与发展——云南省年鉴论文选[C];2003年
9 张学东;李春久;;略谈提高CUJA文献检索词的标引质量[A];外向型文献库的数据质量控制——首届CUJA系统学术讨论会论文集[C];1990年
10 侯跃芳;潘雪;崔雷;;两种内容词聚类方法反映学科热点的效果评价[A];中华医学会第十二次全国医学信息学术会议论文汇编[C];2006年
中国重要报纸全文数据库 前10条
1 周泽雄;沉重的主题词[N];中国图书商报;2001年
2 宋玉书;幸福:时代主题词的审美表达[N];文艺报;2011年
3 刘晓午;和谐社会:从十六大一句话到当今主题词[N];中国经营报;2005年
4 本报记者 张艾阳;2004沈阳主题词:环境[N];辽宁日报;2004年
5 《成都晚报》记者:曾颖;爱是生命的主题词[N];成都日报;2005年
6 记者 秦志刚;“稳健”:今年工业经济运行主题词[N];国际商报;2003年
7 四川长虹电器股份有限公司执行总裁王凤朝北雪整理;2002彩电业的三个主题词[N];中国经营报;2002年
8 ;主题词:知识管理在电子政务的体现[N];中国计算机报;2004年
9 胡敏;主题词:以人为本[N];四川日报;2005年
10 记者 吴军;苏州慈善“三个一”揭晓[N];苏州日报;2008年
中国博士学位论文全文数据库 前10条
1 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
2 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
3 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
4 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
5 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
6 李方涛;基于产品评论的情感分析研究[D];清华大学;2011年
7 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
8 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
9 周勋君;清代书法批评中对形质的描述及其相关问题的研究[D];中央美术学院;2008年
10 游俊;面向知识发现的神经信息文献系统的设计与初步实现[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 王洋;基于主题词同现图的网页相关度研究[D];华南理工大学;2010年
2 屠辉;中文重复网页的检测算法研究[D];北京邮电大学;2010年
3 黄伟光;网页木马的防御与检测技术研究[D];北京交通大学;2011年
4 易方昶;基于网页后门木马监测系统的研究和设计[D];北京化工大学;2010年
5 尹力;网页防篡改系统在校园网中的应用研究[D];河北科技大学;2011年
6 史晶晶;基于CRF的Web机构实体信息抽取系统[D];吉林大学;2011年
7 孔辉;一种网页防篡改系统的设计与实现[D];北京邮电大学;2011年
8 王征;基于布隆过滤器算法的网页消重技术的实现与应用[D];北京交通大学;2010年
9 孙鹏;网页水印技术研究[D];上海交通大学;2010年
10 陈瑜芳;主题爬虫系统的研究[D];武汉理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026