收藏本站
《兰州理工大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

基于HTML标记分析及中文切词的网页索引研究与实现

董建设  
【摘要】: 本文深入研究了HTML标记对网页内容的修饰作用,并对大量网页的结构进行了分析,通过对比各种中文文档的索引和加权策略以及中文切词、英文Stemming操作等算法,设计和实现了基于HTML标记的网页分析和加权策略与算法,完善了基于词典的切词算法。 为了合理地实现对网页进行有效表示和索引,本系统采取了以词为单位的全文索引的策略,本策略借鉴了传统文本检索中tf*idf的索引词加权公式,并结合HTML标记分析及词在网页中出现的频率进行索引加权,在对此问题的解决中包括HTML标记分析、中文切词、英文Stemming操作等算法,采用了基于词典的正向最大匹配法、反向最大匹配法及三字交集切词歧义消解法相结合的算法对中文文本进行切词,取得了比较满意的效果。 整个系统在实现时采用了面向对象的程序设计技术、数据库技术、JDBC和Java多线程技术等。通过测试,对中文词汇的切分达到了较高的准确度,并且随着训练语料的增加可以不断完善切词词典,进一步提高切词的准确度。以中文切词、英文Stemming操作和HTML标记分析加权为基础的索引策略能够较好的表示网页的内容,同时为基于向量空间模型的相似度计算奠定了基础。
【学位授予单位】:兰州理工大学
【学位级别】:硕士
【学位授予年份】:2003
【分类号】:TP393.092

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前2条
1 高峰;基于中文科技文献关键词的聚类系统的设计与实现[D];北京邮电大学;2012年
2 张玉新;面向专题的信息搜索与过滤技术研究[D];国防科学技术大学;2005年
【参考文献】
中国期刊全文数据库 前10条
1 严威,赵政;开发中文搜索引擎汉语处理的关键技术[J];计算机工程;1999年06期
2 刁倩,张惠惠,王永成;Internet上的英文搜索引擎[J];计算机工程;1999年07期
3 邹海山,吴勇,吴月珠,陈阵;中文搜索引擎中的中文信息处理技术[J];计算机应用研究;2000年12期
4 杜林,张毅波,孙玉芳;基于Web中文检索系统SEARCH2000的设计与实现[J];中文信息学报;2000年06期
5 都云程,卢献华;中文搜索引擎现状与展望[J];中文信息学报;1999年03期
6 蔡栋;第二代搜索引擎模式探析[J];情报理论与实践;2001年03期
7 陶跃华,孙茂松;搜索引擎中相关性反馈技术[J];情报理论与实践;2001年04期
8 孙茂松,左正平,黄昌宁;消解中文三字长交集型分词歧义的算法[J];清华大学学报(自然科学版);1999年05期
9 曹玖新,张德运,吴瞻,刘伟娜;基于内容的邮件安全审计系统及实现[J];西安交通大学学报;2002年06期
10 徐建华,伍宪,胡燕菘;国外六个著名搜索引擎的特征和评析[J];现代图书情报技术;2001年01期
【共引文献】
中国期刊全文数据库 前10条
1 王正;陆余良;刘金红;施凡;;基于Lucene的互联网文献信息检索系统的研究[J];安徽大学学报(自然科学版);2009年05期
2 杨永娟,王余旺;综合教务管理系统的分析与设计[J];安徽工程科技学院学报(自然科学版);2003年02期
3 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
4 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
5 闫秀婧;巩文;;基于WEB的林业科技信息管理系统的研究与开发[J];北京林业大学学报;2005年S2期
6 周燕;网络信息资源组织研究[J];图书与情报;2003年01期
7 龚蛟腾;;元知识与元知识管理(学)——关于书目情报与目录学本质的探讨[J];图书与情报;2008年01期
8 仲兆满;刘宗田;;基于两级概念格的信息抽取的研究[J];江西师范大学学报(自然科学版);2008年02期
9 武群辉;高校图书馆的虚拟馆藏资源建设[J];常州技术师范学院学报;2002年03期
10 李跃民;王浩;赵生慧;;有词典中文分词算法研究[J];滁州学院学报;2008年03期
中国重要会议论文全文数据库 前6条
1 张滇豫;;学生成绩管理系统设计与实现[A];河南省冶金行业低碳冶金与节能减排学术研讨会论文集[C];2011年
2 王彩霞;;教育研究网络管理信息系统研建[A];甘肃成人教育协会2008年年会论文集[C];2008年
3 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
4 柏桂荣;章勇;;基于RSS的用户兴趣模型研究[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
5 陶建华;蔡莲红;赵晟;;汉语语音合成中的文本分析和韵律处理[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
6 丁德鑫;曲维光;于丽丽;陈小荷;李惠;;基于词频和语义信息的组合型歧义消解[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前10条
1 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
2 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
3 曾武灵;滨海生态旅游区游客重游意愿形成机制研究[D];大连理工大学;2011年
4 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
5 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
6 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
7 石宝军;电子文献研究[D];中国科学院文献情报中心;2001年
8 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
9 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
10 王修来;人力资源信息不对称的原理探索与应用研究[D];南京理工大学;2004年
中国硕士学位论文全文数据库 前10条
1 郭世胜;基于Agent的搜索引擎的研究与实现[D];大连海事大学;2010年
2 冯晶晶;面向软件测试领域的自动问答系统[D];河南理工大学;2010年
3 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
4 欧伟强;Web信息挖掘的研究及应用[D];电子科技大学;2010年
5 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年
6 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
7 袁路妍;钨层文本自动分类技术的研究与应用[D];东华大学;2011年
8 兰冲;基于统计规则的中文分词研究[D];西安电子科技大学;2011年
9 曹仲伟;FTP搜索引擎的关键技术研究[D];湖北工业大学;2011年
10 邱伟林;面向领域的垂直搜索引擎的研究与实现[D];大连海事大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
2 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
3 戈国华;肖海波;张敏;;基于FCM的数据聚类分析及Matlab实现[J];福建电脑;2007年04期
4 袁里驰;;一种基于互信息的词聚类算法[J];系统工程;2008年05期
5 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
6 纪晓华;;“聚焦爬虫”技术[J];互联网天地;2007年12期
7 吴亮;;搜索引擎中网络爬虫的设计[J];决策与信息(财经观察);2008年07期
8 汪晓岩,胡庆生,李斌,庄镇泉;面向Internet的个性化智能信息检索[J];计算机研究与发展;1999年09期
9 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
10 王建会,王洪伟,申展,胡运发;一种实用高效的文本分类算法[J];计算机研究与发展;2005年01期
中国硕士学位论文全文数据库 前5条
1 李清;一种基于动态知识库的搜索引擎的技术研究[D];暨南大学;2002年
2 栾悉道;互联网公开情报收集与处理技术研究[D];国防科学技术大学;2003年
3 张薇娟;基于模糊认知图的分步文本层次分类研究[D];天津师范大学;2008年
4 刘喜亮;面向主题的网络爬虫设计与实现[D];湖南大学;2009年
5 夏亮;主题搜索引擎网络爬虫搜索策略的研究与实现[D];北京化工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 王如海,刘建设;Agent技术与模糊信息[J];电脑与信息技术;1999年06期
2 王娟琴;超维检索模式研究[J];大学图书馆学报;1999年01期
3 阳小华;周龙骧;;World Wide Web的索引与查询技术[J];计算机科学;1997年06期
4 战学刚;林鸿飞;姚天顺;;中文信息检索中的相关反馈[J];计算机科学;2000年07期
5 严威,赵政;开发中文搜索引擎汉语处理的关键技术[J];计算机工程;1999年06期
6 刁倩,张惠惠,王永成;Internet上的英文搜索引擎[J];计算机工程;1999年07期
7 刁倩,王永成,张惠惠,何骥;文本自动分类中的词权重与分类算法[J];中文信息学报;2000年03期
8 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
9 都云程,卢献华;中文搜索引擎现状与展望[J];中文信息学报;1999年03期
10 黄晨,竺海康;我国信息资源建设战略初探[J];情报学报;1999年S2期
【相似文献】
中国期刊全文数据库 前10条
1 郭炜强;戴天;文贵华;;基于领域知识的专利自动分类[J];计算机工程;2005年23期
2 马辉民;李卫华;吴良元;;VSM在中文文本聚类中的应用及实证分析[J];武汉理工大学学报(信息与管理工程版);2006年04期
3 张娜;张化祥;;基于超链接和内容相关度的检索算法[J];计算机应用;2006年05期
4 杨丽华;戴齐;郭艳军;;KNN文本分类算法研究[J];微计算机信息;2006年21期
5 田正军;张鸿彦;;基于自动分类的邮件过滤系统[J];河南科学;2007年02期
6 周文霞;;现代文本分类技术研究[J];武警学院学报;2007年12期
7 朱宗乾;姬浩;杨冬民;;基于网络的ERP实施风险评价信息挖掘模型[J];计算机工程;2008年07期
8 曹建芳;王鸿斌;;基于SVM的汉语动词短语分类算法研究[J];河北北方学院学报(自然科学版);2008年02期
9 徐文海;温有奎;;一种基于TFIDF方法的中文关键词抽取算法[J];情报理论与实践;2008年02期
10 卓佳;张俊坤;李畅;;使用向量空间模型进行信息检索的实现[J];华南金融电脑;2008年10期
中国重要会议论文全文数据库 前10条
1 王桐;刘大昕;田迪;孙伟;张万松;;一种改进的XML向量空间模型及其近似匹配算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 高勇;荀恩东;宋柔;;构造自然语言问答系统平台[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 喻飞;夏晓燕;吴蓉晖;徐成;;基于向量空间模型的信息安全审计系统[A];第二十六届中国控制会议论文集[C];2007年
4 陈浩;何婷婷;代玲;;基于向量空间模型的无导词义消歧[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
6 马会民;;光学探针与标记分析[A];中国化学会第27届学术年会第09分会场摘要集[C];2010年
7 原福永;杨治秋;王海霞;;一种基于向量空间模型的文档聚类算法研究[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
8 林游龙;余智华;程学旗;刘悦;;虚点:一种减少特征值鸿沟的方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 苏贵洋;王永成;马颖华;;信息自动获取的结构模型[A];第一届学生计算语言学研讨会论文集[C];2002年
10 廖祝华;刘建勋;易爱平;;基于用户兴趣的Web服务发现[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
中国重要报纸全文数据库 前4条
1 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
2 于洋 记者 李泳沩;电化学发光检测法获国家专利[N];吉林日报;2010年
3 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
4 于洋;高灵敏电化学发光检测法获发明专利[N];中国化工报;2010年
中国博士学位论文全文数据库 前10条
1 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
2 邢军;领域本体构造中数据源选取及构造方法的研究[D];大连理工大学;2008年
3 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
4 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
5 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年
6 徐婕;基于对等网络的资源搜索策略的研究[D];华中科技大学;2007年
7 王修力;基于描述复杂性的信息检索理论与若干模型研究[D];北京语言大学;2006年
8 王菁;P2P系统中资源管理机制的研究[D];中国科学技术大学;2007年
9 赵莎莎;圈养林麝遗传多样性及泌香性能关联标记的分析研究[D];浙江大学;2009年
10 王小芳;文本主题域划分与无监督特征提取[D];吉林大学;2009年
中国硕士学位论文全文数据库 前10条
1 董建设;基于HTML标记分析及中文切词的网页索引研究与实现[D];兰州理工大学;2003年
2 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年
3 张波;个性化Web搜索系统研究[D];燕山大学;2006年
4 郭妍;基于市长公开电话文本为背景的两种自动分类算法的比较[D];东北师范大学;2006年
5 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
6 李洋;企业注册登记文件聚类软件设计与实现[D];大连理工大学;2007年
7 吴新涛;基于向量空间模型的网页信息过滤方法研究[D];大连理工大学;2008年
8 赵博;一种基于关键向量的文本分类模型的研究[D];哈尔滨理工大学;2008年
9 赵文鹏;基于自组织特征映射的海洋文献聚类分析的研究与实现[D];中国海洋大学;2009年
10 赵治军;OAI-PMH中元数据相似度计算的研究与实现[D];太原科技大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026