收藏本站
《重庆大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

汉语文本主题分析技术的研究与实现

梁文婷  
【摘要】: 在当今全球信息一体化的时代,网络资源的不断增长提供给人们的电子文本信息越来越多。人们能从这些文本信息中获取大量的知识或技能,但又面临着信息太多而时间不够的问题。虽然目前有很多搜索网站,人们可以通过搜索关键词的方式来查找相关信息,但搜索出来的信息量依然太多,往往只有人们阅读完文本后才发现不是所需要的信息。因此,如何能有效地对文本进行主题分析成为迫切需要解决的问题。 本文针对文本主题分析技术中的主题分割和主题识别展开了研究,主要包括以下几部分工作: 首先,分析了当前文本主题分析技术的研究现状、相关的概念与现有的技术,并分析了自然语言处理中常用的评价方法如何在文本主题分析中得到使用。 其次,本文提出了基于SVO的段落相似度计算方法,并将该方法应用到文本主题分割中。接着,提出了基于关键句的文本主题识别方法。该方法是基于文本主题分割后的结果,对每个相对独立的主题文本块进行主题识别,找出适合做文本块主题的关键句,并将其进行处理使得关键句语义完整。将这种主题分割和主题识别的方法统称为基于统计的文本主题分析技术。实验结果表明该技术在文本主题分割中比传统的建立段落向量空间模型计算连续段落相似度的方法更有效,在主题识别上找出的关键句在一定程度上优于Microsoft Word寻找的关键句。 另外,针对上面先进行主题分割后进行主题识别的方法导致主题漏识的情况,提出了统计与知识相结合的文本主题分析技术。该技术中使用了同义知识和主题知识,先进行主题识别再进行主题分割,将主题分割后的文本块进一步进行主题识别,将两次主题识别结果的并集作为整个文本的主题。该技术一定程度上提高了主题分割和主题识别的准确率。 然后,使用VC++和Matlab混合编程实现了文本主题分析系统,将其用于文本主题分析。 最后,本文对研究工作进行了总结,提出了今后进一步的研究方向。
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.1

【引证文献】
中国硕士学位论文全文数据库 前1条
1 高琦;基于Bootstrapping的本体标注方法研究[D];重庆大学;2010年
【参考文献】
中国期刊全文数据库 前10条
1 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
2 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
3 麻志毅,林鸿飞,姚天顺,马佳琳;基于情境的文本中的时间信息分析[J];东北大学学报;1999年03期
4 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
5 唐晓文;基于本体论的文本特征提取[J];电脑与信息技术;2005年01期
6 黄丽琼;何中市;;基于统计语义和结构特征的自动文摘[J];广西师范大学学报(自然科学版);2006年04期
7 陆汝钤,石纯一,张松懋,毛希平,徐晋晖,杨萍,范路;面向Agent的常识知识库[J];中国科学E辑:技术科学;2000年05期
8 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
9 麻志毅,姚天顺;基于情境的文本主题求解[J];计算机研究与发展;1998年04期
10 顾益军,于江德,刘群,樊孝忠;受限领域中文文本内容主题概念识别研究[J];计算机工程与应用;2004年01期
中国博士学位论文全文数据库 前1条
1 杜永萍;基于模式知识库的问题回答关键技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前5条
1 吴曾;文本主题切分技术和ROCCHIO模型在信息检索中应用的研究[D];中国科学院研究生院(软件研究所);2004年
2 黄际洲;聊天机器人知识库自动抽取算法的研究与实现[D];重庆大学;2006年
3 倪丹;信息技术主题学习实践研究[D];东北师范大学;2007年
4 武旭晶;活知识的本质和形成[D];陕西师范大学;2007年
5 丁宏伟;内容知识库的研究和应用[D];北京信息控制研究所;2006年
【共引文献】
中国期刊全文数据库 前10条
1 高良诚;侯整风;;客户端垃圾邮件过滤系统[J];安徽建筑工业学院学报(自然科学版);2008年04期
2 高迎,王丽君,王锡钢;Simutem:一个中文信息检索系统[J];鞍山师范学院学报;2001年03期
3 李智;;义素分析法与词典释义[J];北方论丛;2007年02期
4 郭忠伟;桑殿伟;郑华利;李洪峰;;军用文书自动生成中表层实现的概率模型[J];兵工自动化;2010年11期
5 郭庆琳,樊孝忠;知识信息搜索和获取技术的研究[J];北京工业大学学报;2003年04期
6 骆正华,樊孝忠,刘林,龚永罡;基于E-Chunk的问句实例分析系统[J];北京理工大学学报;2005年01期
7 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
8 陈爽;陈福;杜天苍;;一种启发式网络信息采集系统设计与实现[J];北京石油化工学院学报;2007年04期
9 明均仁;张帆;;网络文本信息过滤的意义及其模型初探[J];图书与情报;2007年04期
10 秦莉;;从“工薪族”、“上班族”二个词语看民族人的词类观[J];才智;2008年19期
中国重要会议论文全文数据库 前10条
1 加米拉·吾守尔;瓦依提·阿布力孜;吐尔根·依布拉音;;《现代维吾尔语语法信息词典》数据库建设的研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 韦向峰;张全;缪建明;池毓焕;;基于语义块的事件倾向性分析研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 李红霞;袁晓芳;田水承;王莉;;基于义类词典的煤矿瓦斯爆炸案例推理系统研究[A];中国职业安全健康协会2008年学术年会论文集[C];2008年
4 徐海;;英、汉分类词典编纂刍议[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
5 薛征;廖闻剑;;基于位置权重和实体识别的关键词提取[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
6 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
7 朱祥玉;侯德文;陈希;;基于双重评估函数的文本特征提取方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
8 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
9 余毅敏;何川;杨青彬;;浅析移动Agent技术及其在TMN管理中的应用优势[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
10 李月雷;师瑞峰;林丽冰;周一民;;汉语语句语义相似度的计算方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
中国博士学位论文全文数据库 前10条
1 高山;蛋白质点突变效果预测与突变数据库研究[D];南开大学;2010年
2 宋岩;基于多Agent和本体的散杂货港口集团船舶调度系统研究[D];北京交通大学;2011年
3 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年
4 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
5 张巍;融合FAQ、本体和推理技术的问答系统研究[D];太原理工大学;2011年
6 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
7 刘怀广;浮法玻璃缺陷在线识别算法的研究及系统实现[D];华中科技大学;2011年
8 方清明;现代汉语名名复合形式的认知语义研究[D];暨南大学;2011年
9 钟海东;基于地理本体的移动GIS空间信息服务研究[D];华东师范大学;2011年
10 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
中国硕士学位论文全文数据库 前10条
1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
2 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
3 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
4 曹彦;基于支持向量机的特征选择及其集成方法的研究[D];郑州大学;2010年
5 许坤;基于本体的应急信息管理系统的研究与设计[D];郑州大学;2010年
6 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
7 程国斌;基于指示词语义扩展的词义识别方法的研究[D];哈尔滨工程大学;2010年
8 耿倩;基于文本相似度计算的文本聚类算法研究与实现[D];哈尔滨工程大学;2010年
9 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
10 赵阳耀;基于本体的数据源映射方法与策略[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前6条
1 石倩;陈荣;鲁明羽;;基于规则归纳的信息抽取系统实现[J];计算机工程与应用;2008年21期
2 伍星;何中市;黄永文;;基于弱监督学习的产品特征抽取[J];计算机工程;2009年13期
3 刘遥峰;王志良;王传经;;中文分词和词性标注模型[J];计算机工程;2010年04期
4 许斌;李涓子;王克宏;;Web服务语义标注方法[J];清华大学学报(自然科学版);2006年10期
5 李祯;杨放春;苏森;;基于模糊多属性决策理论的语义Web服务组合算法[J];软件学报;2009年03期
6 呼声波;刘希玉;;网页分类中特征提取方法的比较与改进[J];山东师范大学学报(自然科学版);2008年03期
中国硕士学位论文全文数据库 前2条
1 李飒;基于GATE的中文信息抽取系统的开发和实现[D];中国科学院研究生院(文献情报中心);2006年
2 赵琳瑛;基于隐马尔科夫模型的中文命名实体识别研究[D];西安电子科技大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 邢永富;论教育在人类改造自然中的作用[J];北京师范大学学报(社会科学版);1996年02期
2 丁春;关键词标引的若干问题探讨[J];编辑学报;2004年02期
3 肖川;体验:从知识到教养的中介[J];北京教育(普教版);2003年04期
4 张学萍;探索信息技术教育模式[J];成都教育学院学报;2003年06期
5 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报;2000年03期
6 林鸿飞,高天,姚天顺;中文文本的可视化表示[J];东北大学学报;2000年05期
7 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
8 熊学亮;;情景模型理论评介[J];国外语言学;1993年04期
9 张屹,祝智庭;建构主义理论指导下的信息化教育[J];电化教育研究;2002年01期
10 顾小清;促进IT与跨学科课程整合的主题学习模式[J];电化教育研究;2003年03期
中国重要会议论文全文数据库 前2条
1 车万翔;刘挺;秦兵;李生;;面向依存文法分析的搭配抽取方法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国硕士学位论文全文数据库 前1条
1 李顺;课程整合的主题学习模式[D];南京师范大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 刘娇蛟,龚丽,李建华;基于本体实现对网页文本的自动主题分类[J];计算机工程;2003年11期
2 邵晓良,刘红;Web信息采集中军事主题信息的识别[J];情报杂志;2004年07期
3 张校慧;徐彬;陈国强;陈珊;;民航主题Hidden-Web爬虫的设计与实现[J];计算机应用与软件;2008年07期
4 徐超;王萌;何婷婷;张勇;;基于局部主题关键句抽取的自动文摘方法[J];计算机工程;2008年22期
5 郭霄峰,吴杰宏,张玉杰,高福祥;基于NDIS中间层驱动的信息防火墙设计实现[J];沈阳航空工业学院学报;2003年02期
6 王晓斌;温春;石昭祥;;基于贝叶斯信息准则的文本主题数估计[J];计算机工程;2009年07期
7 夏斌;丁立;乔红波;高瑞;;中文农业信息垂直搜索引擎的设计与实现[J];河南农业大学学报;2010年06期
8 陈兴瑞;网络教学探讨[J];中国成人教育;2001年06期
9 赵志宏;;科技论文关键词的析取原则[J];交通运输工程学报;2006年02期
10 石晶;;文本分割综述[J];计算机工程与应用;2006年35期
中国重要会议论文全文数据库 前10条
1 丁秉公;黄昌宁;黄德根;;文本主题识别研究及应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 陈文亮;朱靖波;姚天顺;张宇新;;基于Bootstrapping的领域词汇自动获取[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 陈文亮;朱靖波;姚天顺;;企业网络监管系统CNM的设计与实现[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
4 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年
5 郭燕慧;王枞;钟义信;;语言认知与主题内容识别[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
6 梁飞;吕洪波;姚锦峰;;舆情分析中语料库降维[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
7 涂阳军;陈建文;;先前背景知识、兴趣与阅读理解之关系研究[A];第十一届全国心理学学术会议论文摘要集[C];2007年
8 曹娴;;释意理论视角下《高老头》的两个译本对比分析[A];福建省外国语文学会2009年年会暨学术研讨会论文集[C];2009年
9 宋玉;王晓蓉;张慧;;主题探究性教学模式在本科会计学专业中的应用研究[A];中国会计学会会计教育专业委员会2010年年会论文集[C];2010年
10 高应学;;信息技术应用与教学模式的转变[A];中国教育技术协会2004年年会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 特约作者 章遥;尼康:知识管理提升客户服务[N];国际金融报;2003年
2 卢闯;盘锦热电公司开展“三讲一树”活动[N];盘锦日报;2007年
3 宁波市科协 宁冰林红;宁波市全民科学素质行动从青少年做起[N];大众科技报;2007年
4 吴志;网上文化竞技 活跃警营生活[N];人民公安报;2008年
5 严茂林;丹拉项目讲进度更讲安全[N];中国铁道建筑报;2004年
6 江国珍;文化铸魂[N];金融时报;2006年
7 蔡逸 李安 安金姬;专家:勤俭持家不如能挣会花[N];江苏经济报;2007年
8 于娜 通讯员  高殊;北京移动组织员工学习奥运知识[N];人民邮电;2007年
9 记者 沈朝晖通讯员 宁冰 林红;五成村和社区建成科普画廊及科普活动室[N];宁波日报;2008年
10 冯威;商务印书馆鼓励读者“啃字典”[N];中国新闻出版报;2008年
中国博士学位论文全文数据库 前1条
1 王兰成;基于XMARC信息描述的知识标引与概念检索研究[D];东华大学;2004年
中国硕士学位论文全文数据库 前10条
1 梁文婷;汉语文本主题分析技术的研究与实现[D];重庆大学;2008年
2 王军利;科技英语语篇的主题识别[D];中国海洋大学;2005年
3 王君;基于结构化文本的SARS应急知识管理系统的设计与实现[D];大连理工大学;2005年
4 张磊;论技术口译译前准备[D];广东外语外贸大学;2006年
5 郭谢;基于Web Community识别的专业搜索引擎研究[D];浙江大学;2006年
6 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
7 张国梁;专项主题新闻自动检索方法研究与应用[D];中国科学技术大学;2011年
8 周杰;网络舆情话题情感倾向性分析技术研究[D];解放军信息工程大学;2010年
9 李林琳;基于特定领域的汉语句子意见挖掘[D];上海交通大学;2008年
10 涂阳军;先前背景知识、兴趣与阅读理解之关系研究[D];华中科技大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026