收藏本站
《华北电力大学(北京)》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于文本相似度的中文文本聚类的研究

李艳梅  
【摘要】: 文本聚类是文本挖掘和信息检索领域的重要研究课题,而中文自动分词、特征选择和相似度计算等是中文文本聚类研究的关键技术。本文详细综述了文本聚类技术的相关研究;研究了中文未登录词识别和歧义消解;研究和分析比较了常用的特征选择方法和特征抽取方法;研究并改进了TF-IDF算法,并通过实验证明改进后的算法能够取得更好的效果;研究并分析了文本聚类的常用方法以及效果评价方法,并利用文本相似度矩阵进行文本聚类,实验证明改进的算法能够有效地改进文本聚类的准确性,尤其是文本集合比较小的时候;最后,深入分析了多文档文摘的关键技术,以及在文本聚类中的应用。本文的研究对中文文本聚类技术的具体应用诸如文本挖掘、信息检索等都具有借鉴意义。
【学位授予单位】:华北电力大学(北京)
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1

【引证文献】
中国硕士学位论文全文数据库 前3条
1 李凤;本体协助的客户关系管理系统的研究与实现[D];华北电力大学(北京);2011年
2 罗晖霞;网络舆情监测系统研究与开发[D];中北大学;2010年
3 仰孝富;基于BIRCH改进算法的文本聚类研究[D];北京林业大学;2013年
【参考文献】
中国期刊全文数据库 前5条
1 郑家恒;张剑锋;谭红叶;;中文分词中歧义切分处理策略[J];山西大学学报(自然科学版);2007年02期
2 余希田;李丹亚;胡铁军;;汉语自动分词歧义处理研究[J];医学信息学杂志;2007年06期
3 刘开瑛;歧义切分与专有名词识别软件[J];语言文字应用;2001年03期
4 黄昌宁;统计语言模型能做什么?[J];语言文字应用;2002年01期
5 孙茂松,邹嘉彦;汉语自动分词研究中的苦干理论问题[J];语言文字应用;1995年04期
中国博士学位论文全文数据库 前1条
1 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
中国硕士学位论文全文数据库 前1条
1 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 许汉成;俄语功能语体定量分析中的几个核心问题[J];外语学刊;2004年06期
2 马彪;“第一时间”的翻译与使用[J];外语学刊;2005年03期
3 高航;严辰松;;概念物化的心理现实性与认知语法中名词范畴的界定[J];外语学刊;2008年06期
4 梅德明;韩巍峰;;论主题-主语的突显与对应关系[J];外语学刊;2009年01期
5 贺学勤;;情状句之于叙事语篇发展的认知建构[J];外语学刊;2009年01期
6 邱贤;刘正光;;现代汉语受事主语句研究中的几个根本问题[J];外语学刊;2009年06期
7 白解红;陈敏哲;;汉语网络词语的在线意义建构研究——以“X客”为例[J];外语学刊;2010年02期
8 廖正刚;杨忠;;英汉基本颜色词跨语法范畴的对比研究[J];外语学刊;2011年06期
9 向二兰;;英汉助动词移位之比较[J];外语学刊;2012年01期
10 温金海;;汉英数量范畴的认知对比分析[J];外语学刊;2012年01期
中国重要会议论文全文数据库 前10条
1 杨青;刘晔;张东旭;刘畅;;快速查找最优初始聚类数K的改进K-means算法[A];中国自动化学会控制理论专业委员会A卷[C];2011年
2 李影;付莉;;韩国中小学生“是”的错序偏误分析[A];语言与文化研究(第四辑)[C];2009年
3 陈军;潘艳;唐世星;张吉强;易东;;小脑基因表达数据的模糊多尺度聚类分析[A];重庆市预防医学会2010年论文集[C];2011年
4 潘雪莲;;词频统计在词典收词中的作用[A];中国辞书论集2001[C];2001年
5 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
6 李丹丹;;基于遗传模糊聚类的电子商务推荐算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
8 吕晓玲;;闽南方言南安话的类结构助词“得”、“说”、“伊”、“通”[A];福建省辞书学会第五届会员代表大会暨第十九届年会论文集[C];2009年
9 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
10 谢俊英;;新词语与时尚词语社会知晓度调查与分析[A];语言文字应用研究论文集(Ⅱ)[C];2004年
中国博士学位论文全文数据库 前10条
1 陈佳;论英汉运动事件表达中“路径”单位的“空间界态”概念语义及其句法—语义接口功能[D];上海外国语大学;2010年
2 刘美;WSN多目标跟踪节点任务分配及跟踪算法研究[D];华南理工大学;2010年
3 郭红;基于第二语言教学的汉语语气范畴若干问题研究[D];南开大学;2010年
4 杨先明;0-5岁汉语儿童语言发展的认知研究[D];武汉大学;2010年
5 彭懿;英汉肤觉形容词的认知语义研究[D];湖南师范大学;2010年
6 龙又珍;现代汉语寒暄系统研究[D];武汉大学;2009年
7 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
8 李青;现代汉语把字句主观性研究[D];吉林大学;2011年
9 朱怀;概念整合与汉语非受事宾语句[D];吉林大学;2011年
10 王欣;汉日否定表达对比研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 黄雪;俄汉语词汇理据性对比研究[D];哈尔滨师范大学;2010年
2 马晶晶;表人名词类词缀“X手”、“X者”、“X员”分析比较[D];辽宁师范大学;2010年
3 乌晓丽;“X+—N比—N+VP”表义功能新探[D];辽宁师范大学;2010年
4 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
5 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
6 曹萍;府城官话研究[D];广西师范学院;2010年
7 旷金辉;汉英名词前置修饰语语序对比研究[D];上海外国语大学;2010年
8 陶胜妃;现代汉语谓词修饰词前后位置比较研究[D];上海外国语大学;2010年
9 严伟剑;疑问代词“怎么”“怎样”“怎么样”对比研究[D];上海外国语大学;2010年
10 耿冰;“实现事件”结构词汇化模式的英汉对比研究[D];上海外国语大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 王华栋;饶培伦;;基于搜索引擎的中文分词评估方法[J];情报科学;2007年01期
2 裘江南;罗志成;王延章;;基于中文语义词典的语义相关度方法比较研究[J];情报理论与实践;2008年05期
3 戴媛;姚飞;;基于网络舆情安全的信息挖掘及评估指标体系研究[J];情报理论与实践;2008年06期
4 许鑫;章成志;李雯静;;国内网络舆情研究的回顾与展望[J];情报理论与实践;2009年03期
5 钱峰;;国内数据挖掘工具研究综述[J];情报杂志;2008年10期
6 刘翔;施干卫;丁祖荣;;论文相似度的计算研究——基于VSM模型[J];情报杂志;2010年02期
7 钱卫宁,周傲英;从多角度分析现有聚类算法(英文)[J];软件学报;2002年08期
8 曹勇刚;曹羽中;金茂忠;刘超;;面向信息检索的自适应中文分词系统[J];软件学报;2006年03期
9 宋彦;蔡东风;张桂平;赵海;;一种基于字词联合解码的中文分词方法[J];软件学报;2009年09期
10 李涓子,黄昌宁;语言模型中一种改进的最大熵方法及其应用[J];软件学报;1999年03期
中国博士学位论文全文数据库 前2条
1 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
2 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
中国硕士学位论文全文数据库 前10条
1 姜伦;模糊聚类算法及其在中文文本聚类中的研究与实现[D];哈尔滨理工大学;2010年
2 刘飞荣;SOM算法的改进及其在中文文本聚类的应用[D];南昌大学;2010年
3 史德增;聚类算法在Web文本挖掘中的应用研究[D];太原理工大学;2011年
4 刘玲玲;文本分类中的特征选择研究[D];中国石油大学;2011年
5 田一帆;面向CRM的数据挖掘技术与应用研究[D];西安电子科技大学;2005年
6 崔海莉;基于CRM的数据挖掘技术研究及应用[D];合肥工业大学;2006年
7 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
8 刘菁;基于模糊理论与人工神经网络的暂态稳定评估方法[D];上海交通大学;2007年
9 葛红;基于数据仓库的电厂机组性能监测系统的研究与设计[D];华北电力大学(北京);2007年
10 郑军;网络舆情监控的热点发现算法研究[D];哈尔滨工程大学;2007年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 李瑶;微博监管系统部分模块的设计和实现[D];南京大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 薛翠芳,郭炳炎;汉语文本特征词的抽取方法[J];情报学报;2000年03期
2 闫引堂,周晓强;交集型歧义字段切分方法研究[J];情报学报;2000年06期
3 刘挺,王开铸;自动文摘的四种主要方法[J];情报学报;1999年01期
4 董小芸,刘俊熙;自动分词在中文信息检索中的应用[J];情报杂志;2003年12期
5 李凡,鲁明羽,陆玉昌;关于文本特征抽取新方法的研究[J];清华大学学报(自然科学版);2001年07期
6 孙茂松,左正平,黄昌宁;消解中文三字长交集型分词歧义的算法[J];清华大学学报(自然科学版);1999年05期
7 尹锋,林亚平;汉语自动分词技术的现状及发展趋势[J];软件世界;1996年12期
8 王挺,陈火旺,杨谊,史晓东;一种自适应词性标注方法[J];软件学报;1997年12期
9 苏中,马少平,杨强,张宏江;基于Web-Log Mining的Web文档聚类[J];软件学报;2002年01期
10 曹勇刚;曹羽中;金茂忠;刘超;;面向信息检索的自适应中文分词系统[J];软件学报;2006年03期
中国重要会议论文全文数据库 前3条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 车万翔;刘挺;秦兵;李生;;面向依存文法分析的搭配抽取方法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国博士学位论文全文数据库 前1条
1 张毅波;中文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026