收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文网页自动摘要系统的设计与实现

熊芝  
【摘要】:当用户通过浏览器向搜索引擎提交查询后,搜索引擎向用户返回命中网页的标题、URL和网页摘要。用户一般只浏览返回的摘要信息而非全文就做出相关性的判断。因此网页摘要对于用户快速了解网页概要、提高搜索效率具有非常重要的作用。 本文的主要工作是设计和实现搜索引擎的中文网页摘要系统。搜索引擎的网页摘要系统应能反映用户的查询需求,因此是一种基于查询的动态摘要抽取系统。本文完成的工作如下: 1、设计并实现了一个摘要抽取系统,包括网页预处理和摘要内容抽取两个过程。网页的预处理过程包括HTML文档的解析、网页的噪声去除以及句子的划分。由于网页形式多样、布局复杂、噪声信息繁多,必须先对网页进行解析和噪声去除等预处理操作,以便得到可供提取摘要的文本信息;而句子的划分是为了让生成的摘要更加完整和连贯。摘要抽取过程就是首先对划分的句子用分词器切割成词,然后使用句子的查询相关特征、TF/IDF特征、线索词特征、句子的位置特征等,来计算句子的权重,最后从这些句子选取几个权重最高的作为摘要句,按照该句子在原文的先后顺序形成最终的摘要。 2、实现了一个网页摘要评价系统。本文利用商业搜索引擎Baidu、Sogou、Yahoo的摘要信息,构建了中文网页摘要评价的数据集,然后通过改进Pyramid摘要评价方法,使用最长公共子串作为摘要内容单元SCUs(Summarization Content Units),使其能够自动评价摘要数据的生成质量。通过该评价方法分析本文实现的系统的摘要质量,实验表明,本文的特征选取及权重计算是合理的。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王永成,许慧敏;OA-1.4 版中文自动摘要系统[J];高技术通讯;1998年01期
2 史磊,王永成;英文文献自动摘要系统研究[J];情报学报;1999年06期
3 李蕾,孙春葵,杨晓兰,钟义信;一种特定领域中文自动摘要系统[J];北京邮电大学学报;2000年01期
4 张雷生,万绍俊,许鹏文;简单中文自动摘要系统研究[J];装备指挥技术学院学报;2004年03期
5 刘洋,王永成;基于Web服务自动摘要系统的安全实现方案[J];计算机工程与应用;2005年15期
6 陈桂林,王永成;Internet网络信息自动摘要的研究[J];高技术通讯;1999年02期
7 谭种;陈跃新;;自动摘要方法综述[J];情报学报;2008年01期
8 ;计算机中文文本自动摘要系统通过专家鉴定[J];预防医学文献信息;1996年03期
9 江开忠;李子成;顾君忠;;基于用户兴趣的文本摘要方法研究[J];计算机应用;2007年02期
10 王继成 ,武港山 ,周源远 ,张福炎;一种篇章结构指导的中文Web文档自动摘要方法[J];计算机研究与发展;2003年03期
11 张筱丹;胡学钢;;基于向量空间模型的自动摘要冗余处理研究[J];合肥工业大学学报(自然科学版);2010年09期
12 黄水清;李志燕;梁刚;;面向计算机类文献的自动摘要系统的研究与实现[J];图书与情报;2006年03期
13 陈珂;殷凡;;中文自动摘要综述[J];福建电脑;2007年02期
14 王永成;刘功申;刘传汉;胡佩华;孙展;;论文本的自动摘要[J];中国索引;2003年02期
15 阿热帕提·尕依提;维尼拉·木沙江;;基于统计的维吾尔文网页自动摘要提取研究[J];电脑知识与技术;2011年01期
16 沈洲,王永成,韩客松;一种基于主题敏感辞分析的新闻文献自动摘要系统的研究与实践[J];高技术通讯;2001年09期
17 刘郑;杜祝平;;浅析英文自动摘要技术[J];魅力中国;2008年28期
18 王麒;江开忠;杨静;顾君忠;;基于领域本体的文档自动摘要算法[J];华东师范大学学报(自然科学版);2007年05期
19 王永成,王继才;中文文本摘要的自动编制[J];微型电脑应用;1998年02期
20 张奇,黄萱菁,吴立德;一种新的句子相似度度量及其在文本自动摘要中的应用[J];中文信息学报;2005年02期
中国重要会议论文全文数据库 前10条
1 章彦星;张铭;邓志鸿;;基于特征的用户评论自动摘要[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 李芳;何婷婷;;面向查询的多模式自动摘要研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
3 苗家;马军;陈竹敏;;一种基于HITS算法的blog文摘方法[A];第六届全国信息检索学术会议论文集[C];2010年
4 李立燕;杨国纬;;中文自动文摘系统研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 薛长勇;;营养相关网络资源简介[A];2009年国家级继续医学教育项目临床营养新进展培训班论文集[C];2009年
6 刘艳民;;中文网页分类方法的研究[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
7 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年
8 郭稷;吕雅娟;刘群;;一种有效的基于Web的双语翻译对获取方法[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
9 张东娜;彭宏;吴铁峰;;一种基于粗集与贝叶斯分类器的中文网页分类方法[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
10 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
中国博士学位论文全文数据库 前8条
1 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
3 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
4 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
5 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
6 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
7 金锋;文档摘要算法的研究与应用[D];清华大学;2011年
8 生龙;二型模糊系统理论及应用[D];电子科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 熊芝;中文网页自动摘要系统的设计与实现[D];华南理工大学;2011年
2 李阜;基于滑窗取词的单文档自动摘要技术研究[D];国防科学技术大学;2010年
3 阿热帕提·尕依提;基于统计的维吾尔网页自动摘要提取研究[D];新疆大学;2011年
4 余博;基于维基百科的多文档自动摘要系统研究[D];武汉科技大学;2011年
5 商玥;面向概念查询的生物医学多文档摘要技术研究[D];大连理工大学;2011年
6 许旭阳;网络新闻多文档自动摘要技术研究[D];解放军信息工程大学;2011年
7 章芝青;基于语义的单文档自动摘要研究[D];浙江大学;2010年
8 张文静;搜索引擎返回结果的自动摘要研究[D];中国石油大学;2010年
9 鲁凡;基于分形理论的自动摘要[D];吉林大学;2004年
10 刘海涛;面向新闻文本的自动摘要技术研究[D];国防科学技术大学;2005年
中国重要报纸全文数据库 前10条
1 陈翔;趋势科技:近十万中文网页遭入侵[N];中国计算机报;2008年
2 马海兵;网络舆情及其分析技术[N];光明日报;2007年
3 洪达;雅虎中国尝鲜“宝贝鱼”[N];民营经济报;2006年
4 本报记者 侯继勇 刘涓涓;百度解密:李彦宏背后的蜘蛛侠[N];21世纪经济报道;2005年
5 李彦宏;让中文在网络世界影响更大[N];人民日报;2006年
6 记者 史芳;雅虎搜索出山了[N];中国经济导报;2005年
7 赵明;张朝阳,从眼球回到技术[N];中国经济时报;2006年
8 赵垒;中文搜索引擎再点硝烟[N];中华工商时报;2006年
9 天津 武金刚;豆仔热线[N];电脑报;2003年
10 本报记者 关桂峰;“人立方”红遍互联网 勿成恶搞助推器[N];经济参考报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978