收藏本站
《北京语言大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于关键短语的文本内容标引研究

刘华  
【摘要】:爆炸式增长的信息资源缺乏内容的结构化,大大降低了人们的检索效率。因此,如何将庞杂无序的资源组织起来,提高人们利用信息的效率,成为信息科学当前的一个重要课题。 良好的信息组织和资源表示是高质量信息检索的基石,文本内容标引,特别是其内部特征如类目和主题词的标引,是信息组织和资源表示的核心。本文利用特征提取方法,在大规模分类语料库中将具有较强特征表示功能的关键短语(Key Phrase)提取出来,并按主题聚类。在此基础上,完成了一个知识与统计相结合的文本分类和主题词标引系统,从而将文本内容以精练准确的形式标引出来,方便用户只须查看容量少信息量大的类目和主题词,即可快速把握文本内容, 围绕分类主题一体化,本文主要取得了以下研究成果: 1、提出并证明了关键短语比词更适合作为文本表示特征的观点。 关键短语是具有强文本表示功能的特征短语,在表示文本时,能将文本的內容特征(例如领域类别、主题思想、中心意义等)鲜明地表示出来。关键短语具有结构稳定、语义完整和强统计意义的特点,在较大程度上可以克服向量空间模型和贝叶斯假设的缺点,比词更适合作为文本表示的特征,有利于提高文本分类和关键词标引的效果。在约3万篇测试集上(共12个大类,217个小类),和以词为特征的相比,以关键短语为特征的文本分类的大类微平均提高了约3.1%,小类微平均提高了约15%(以体育中的层级小类为例)。 2、构建了一个超大规模、详细标注的层级分类语料库。 利用信息抽取的方法,从下载的网页中抽取得到语料库建库所需的内容信息,如标题、关键词、类别、时间、正文等。通过分析18家网站(15家主流报纸网站和3家门户网站)的栏目设置情况,建立了一个网页分类体系,体系最深为四级,类目总共229个。在此基础上,构建了一个超大规模的层级分类语料库,时间跨度为3年,共约60万个文件,约6亿字,并进行了段落级XML标注。该语料库字段信息丰富,分类系统实用,内容结构化,不仅是关键词抽取和词语聚类的知识来源,也是文本分类、主题词标引的大型训练(测试)集。 3、以关键短语为基础,构建了一个含32万词语的大词语表。 从上述语料库中抽取网页上专家已手工标引的关键词来获取关键短语(分类别抽取,共约22万条),与常用的词表(8万词条)相比较,关键短语的新词率约为78%(以科技类为例)。将关键短语(还有其它数字字母串等)和8万词条合在一起,最终形成一个含32万词条的大词语表。 4、利用物征提取方法进行词语聚类,构建了一个超大规模的领域知识库。 在上述语料库中,我们利用特征提取方法进行了词语的领域聚类,并以关键词为核心进行了扩展的词语聚类。考虑到领域词语包括领域通用词语(如体育类的“球、比赛”)和领域专类词语(如垒球中的“跑垒”),我们通过调节词频的影响结合领域通用词语和领域专类词语进行聚类。最终形成了229个分类词语表和11215个关键词聚类后的词语表,并训练得到32万词语的体现各词语区別领域能力的类别区别度,一起构成文本分类和关键词标引的领域知识库。
【学位授予单位】:北京语言大学
【学位级别】:博士
【学位授予年份】:2005
【分类号】:G254.23

手机知网App
【引证文献】
中国期刊全文数据库 前4条
1 严春风;;基于决策树的关键短语抽取的研究[J];电脑知识与技术;2009年20期
2 张志平;;基于“中文新闻信息分类与代码”文本分类[J];太原理工大学学报;2010年04期
3 章成志;;自动标引研究的回顾与展望[J];现代图书情报技术;2007年11期
4 刘华;;汉语信息处理中短语优势的理据及实验证明[J];语言文字应用;2007年04期
中国硕士学位论文全文数据库 前6条
1 谢凤宏;基于复杂网络理论的文本聚类和关键词提取方法研究[D];辽宁师范大学;2011年
2 郭鹏;汉语语法语料库系统的基础设计[D];天津师范大学;2006年
3 戴姗;基于DCC三年经济日报语料的面向国际大企业商务领域词语统计方法研究[D];北京语言大学;2007年
4 韩艳;基于统计的中文文本关键短语自动抽取方法研究[D];苏州大学;2009年
5 严春风;科技论文关键词抽取技术的研究[D];苏州大学;2009年
6 蔡月红;基于类短语串和半监督学习的短文本分类研究[D];江苏大学;2010年
【参考文献】
中国期刊全文数据库 前10条
1 冯志伟;基于短语结构语法的自动句法分析方法[J];当代语言学;2000年02期
2 谷波,张永奎;文本聚类算法的分析与比较[J];电脑开发与应用;2003年11期
3 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
4 柳晓春,左少凝;知识组织与网络资源分类的现状与展望[J];高校图书馆工作;2001年04期
5 张国煊,郁梅,王小华;基于互信息的汉语短语边界划分[J];杭州电子工业学院学报;1995年01期
6 陆俭明;词的具体意义对句子意思理解的影响[J];汉语学习;2004年02期
7 舒鑫柱,杨尔弘;基于HOWNET的汉语组块分析[J];河南职技师院学报;2001年04期
8 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
9 马颖华,王永成,苏贵洋,张宇萌;一种基于字同现频率的汉语文本主题抽取方法[J];计算机研究与发展;2003年06期
10 晋耀红,苗传江;一个基于语境框架的文本特征提取算法[J];计算机研究与发展;2004年04期
中国博士学位论文全文数据库 前2条
1 李芸;信息科学和信息技术术语概念体系研究[D];北京语言文化大学;2003年
2 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
中国硕士学位论文全文数据库 前2条
1 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年
2 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
【共引文献】
中国期刊全文数据库 前10条
1 余足云;“是……的”句式的比较与系统分析[J];阿坝师范高等专科学校学报;2003年03期
2 秦洪英;数据挖掘在网络业务流设计中的实现过程[J];阿坝师范高等专科学校学报;2005年03期
3 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
4 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
5 谢飞;;支持向量机及其应用研究[J];安徽教育学院学报;2007年03期
6 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
7 徐江胜;;试论古汉语句子的焦点和焦点的凸显方式[J];安徽广播电视大学学报;2006年01期
8 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
9 潘景昌,许中卫;结合同义词的Web搜索匹配算法初探[J];安徽大学学报(自然科学版);2003年03期
10 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
4 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论建立中老年肺炎中医症候诊断标准[A];第二十九届中国控制会议论文集[C];2010年
5 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论和Apriori算法建立中医症候诊断标准[A];中国自动化学会控制理论专业委员会D卷[C];2011年
6 查星云;;一种钢铁企业金属损耗平衡分析方法[A];全国冶金自动化信息网2012年年会论文集[C];2012年
7 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 万菁;姬东鸿;任函;冯文贺;;汉语复合名词短语特征结构的标注研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 匡海波;李斌;王嘉灵;王帅;陈小荷;;汉英词汇隐喻属性的对比分析与互增益技术[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 陈佳;论英汉运动事件表达中“路径”单位的“空间界态”概念语义及其句法—语义接口功能[D];上海外国语大学;2010年
3 唐树华;有些隐喻为什么不可能[D];上海外国语大学;2010年
4 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
5 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
6 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
7 戴小鹏;知识网格及其在农业生物灾害预警中关键技术研究[D];湖南农业大学;2010年
8 龙又珍;现代汉语寒暄系统研究[D];武汉大学;2009年
9 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
10 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
3 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
4 赵桂阳;现代汉语“不是X的X”结构考察[D];哈尔滨师范大学;2010年
5 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
6 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
7 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
8 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
9 田洁;现代汉语回声拷贝式“A就A”结构分析[D];上海外国语大学;2010年
10 刘君章;现代汉语“V单+N”结构研究[D];上海外国语大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 张建蓉,陈燕;学术论文中关键词标引的常见问题剖析[J];编辑学报;2003年02期
2 常宝儒;关于《现代汉语频率词典》的编纂问题[J];辞书研究;1986年04期
3 林联合;汉语词汇统计的步骤和词汇使用度的计算[J];辞书研究;1986年04期
4 黄人杰;;计算机与教学词表的制订及评价[J];辞书研究;1990年02期
5 梁镛;钱敏汝;;专用语研究中的几个主要理论问题[J];国外语言学;1991年01期
6 刘远超;王晓龙;徐志明;刘秉权;;基于粗集理论的中文关键词短语构成规则挖掘[J];电子学报;2007年02期
7 刘涛,陈忠,陈晓荣;复杂网络理论及其应用研究概述[J];系统工程;2005年06期
8 张博锋;白冰;苏金树;;基于自训练EM算法的半监督文本分类[J];国防科技大学学报;2007年06期
9 葛顺奇;世界500强跨国公司及其在华投资[J];国际经济合作;2005年09期
10 景丽萍,黄厚宽,石洪波;用于文本挖掘的特征选择方法TFIDF及其改进[J];广西师范大学学报(自然科学版);2003年01期
中国博士学位论文全文数据库 前6条
1 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
2 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
3 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
4 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
5 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
6 史艳岚;基于中国主流报纸动态流通语料库的对外汉语报刊新闻主题词群及相关研究[D];北京语言大学;2006年
中国硕士学位论文全文数据库 前8条
1 吴雪敏;汉语语句的计算机分析[D];电子科技大学;2001年
2 朱钦隽;计算机汉语理解的初步实践[D];电子科技大学;2001年
3 詹思瑜;自然语言的计算机处理模型[D];电子科技大学;2003年
4 史中琦;基于DCC动态流通报纸语料库的流通度词表和使用度词表的对比分析[D];北京语言大学;2005年
5 周舫;汉语句子相似度计算方法及其应用的研究[D];河南大学;2005年
6 段恩泽;基于统计的汉语自动分词系统[D];电子科技大学;2005年
7 皮晓峰;基于概率上下文无关语法的句法分析研究与实现[D];电子科技大学;2005年
8 代建英;汉语自动分词系统的研究与实现[D];重庆大学;2005年
【二级引证文献】
中国期刊全文数据库 前10条
1 严春风;;基于决策树的关键短语抽取的研究[J];电脑知识与技术;2009年20期
2 张永刚;梁颖红;颜振祥;姚建民;;基于统计的中文关键短语自动抽取[J];江南大学学报(自然科学版);2010年01期
3 刘玲玲;梁颖红;张永刚;韩艳;姚建民;;基于决策树的关键短语抽取[J];江南大学学报(自然科学版);2010年01期
4 倪廓阔;吕学强;韩艳铧;王涛;;搜索引擎中“N1+N2”型短语查询优化研究[J];计算机应用与软件;2012年09期
5 叶鹰;;智能信息处理的基础理论探讨[J];情报科学;2008年09期
6 贾君枝;闫晓美;武晓宇;;政府信息公开的自动标引的设计与实现[J];情报理论与实践;2012年02期
7 余丰民;;2000~2009年国内自动标引研究综述[J];情报探索;2011年05期
8 章成志;;基于集成学习的自动标引方法研究[J];中国索引;2009年02期
9 卜书庆;刘华梅;王广平;;近年来国内知识组织研究热点综述[J];中国索引;2010年01期
10 曹树金;陈桂鸿;陈忆金;;网络舆情主题标引算法与实现[J];图书情报知识;2012年01期
中国重要会议论文全文数据库 前1条
1 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
中国博士学位论文全文数据库 前1条
1 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年
中国硕士学位论文全文数据库 前10条
1 孙群虎;基于空间分布和信息熵的特征词提取方法[D];大连理工大学;2010年
2 蔡尚辉;范例推理在智能车辆监控数据处理系统中的应用[D];河北科技大学;2011年
3 戴依若;基于内容的中文流行病新闻主题分类[D];北京邮电大学;2011年
4 耿爱媛;基于GA-BP神经网络的智能评语生成的研究[D];天津财经大学;2011年
5 谢凤宏;基于复杂网络理论的文本聚类和关键词提取方法研究[D];辽宁师范大学;2011年
6 张磊;基于叙词表和文献数据库的农业领域本体构建方法研究[D];中国农业科学院;2011年
7 景娟;中文话费文语转换系统的研究与实现[D];中南大学;2011年
8 姜舟;关键短语抽取及相关技术研究[D];哈尔滨工业大学;2010年
9 崔涛;基于检准率分析中文自动标引方式存在问题及对策[D];河北大学;2011年
10 刘佳;基于微博的金融资讯检索平台查询优化技术的研究和实现[D];北京邮电大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 张黎;汉语句子的语义结构[J];北方论丛;1995年05期
2 胡俊峰,俞士汶;唐宋诗之计算机辅助深层研究[J];北京大学学报(自然科学版);2001年05期
3 戴曦,纪驿桥,勾永雯;分类主题一体化浅析[J];成都气象学院学报;1999年02期
4 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
5 李勉东;;语义结构中的结果范畴浅论[J];东北师大学报;1991年03期
6 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
7 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
8 沈园;逻辑判断基本类型及其在语言中的反映[J];当代语言学;2000年03期
9 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
10 戴浩一;概念结构与非自主性语法:汉语语法概念系统初探[J];当代语言学;2002年01期
中国重要会议论文全文数据库 前4条
1 俞士汶;;计算语言学的应用研究与基础研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
2 陆汝占;高峰;陈玉泉;靳光瑾;;汉语内涵逻辑及其应用[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 李芸;王强军;张普;;信息技术领域术语自动提取和动态更新研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
4 李芸;王强军;;信息技术领域术语字频、词频及术语长度统计[A];第一届学生计算语言学研讨会论文集[C];2002年
中国重要报纸全文数据库 前1条
1 本报记者 温红彦;[N];人民日报;2002年
【相似文献】
中国期刊全文数据库 前10条
1 张堉;;医学关键词[J];山东医学高等专科学校学报;1987年Z2期
2 李楠;影响文献主题标引质量因素浅析[J];图书馆学研究;1994年04期
3 赵茂祥;浅谈主题词及其在目前公文标引中的问题和对策[J];档案学研究;1995年02期
4 杨鸣放;试论文献分类、主题标引一体化[J];图书馆学研究;1995年02期
5 周建中;文献检索系统的主题标引[J];河北科技图苑;1996年S1期
6 戴行德;文献主题标引中概念表达的模糊与误差分析[J];图书馆界;2003年02期
7 杨亮,王永成;新型标引系统的构建[J];计算机应用与软件;2004年05期
8 霍彩萍;;一种新型实用的索书号结构之探讨[J];当代图书馆;2008年04期
9 张希轩;论文献标引(续)[J];现代图书情报技术;1981年03期
10 高治成,彭铮;科学技术期刊论文主题标引的探讨[J];编辑学报;1989年02期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 任函;何婷婷;;大规模在线文本的自动分类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 主持人:胡南迪;鼠标引起的键盘错误[N];电脑报;2001年
2 何珺;有贡献药企才能中标引争议[N];中国医药报;2010年
3 刘曙甲 刘志伟;湖北仙桃技术招标引来众多大学参与[N];科技日报;2004年
4 李卓;鼠标引起的系统故障[N];中国电脑教育报;2002年
5 李秀玲;西门子抢注中国企业商标引热议[N];工人日报;2005年
6 本报记者 宋延涛;国航欲借新标飞翔 亿元换标引发争议[N];经理日报;2003年
7 江山;吉林市市长刚占标引咎辞职[N];人民日报;2004年
8 通讯员 吉学刚;商品房氨气超标引发纷争[N];天津政法报;2005年
9 本报记者 马步青;首都机场拟招标引进航意险[N];华夏时报;2004年
10 汤益平;鼠标引起无盘工作站启动故障一例[N];中国电脑教育报;2003年
中国博士学位论文全文数据库 前10条
1 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
2 王会珍;文本内容分类和主题追踪关键技术研究[D];东北大学;2008年
3 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
4 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
5 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
6 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
7 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
8 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
9 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
10 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
中国硕士学位论文全文数据库 前10条
1 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
2 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
3 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
4 闫晨;KNN文本分类研究[D];燕山大学;2010年
5 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
6 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年
7 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
8 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
9 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
10 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026