收藏本站
《哈尔滨工程大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于文本相似度计算的文本聚类算法研究与实现

耿倩  
【摘要】: 文本聚类是知识挖掘领域中一个非常重要的技术手段,对于文本信息挖掘、知识检索有非常重要的作用。在实际工作中,一些政府部门需要浏览大量的文字信息,根据这些信息制定相应的预案。但是有限的人力同海量的信息比起来,让人们在处理这些信息上显得力不从心。这时我们需要一种技术,能够帮助人们快速的实现文本分类工作,增加文本信息处理的效率。本文设计了一个文本聚类系统的框架,并详细分析讨论了系统中各子模块的设计和实现。本文主要在以下方面进行研究: 1.传统的向量空间模型存在高维稀疏问题,针对这个问题本文设计一个关键词概念列表作为文本表示模型。本文认为准确抽取文章中的关键词即可把握文章的主旨内容,并运用某种规则计算这些关键词的权重,从而将半结构化的文本转换为结构化模型。 2.以待处理的文本集为语料库,自动构建一个能作为语义支持的语义库,以文本表示模型为索引,结合原文形成一组能代表文本主题的关键句群,计算文本的表层相似性、语义相似性及词序对相似度的影响因子,将这些方法做加权和生成两文本的相似度。 3.文本聚类算法上时对DBSCAN算法的改进。该方法适当调整文本聚类判别条件,能够强化簇内数据对象间的关系强度。 最后基于上述设计与算法,建立一个文本聚类系统,并通过实验分析证实了本文的研究结论和推导具有可行性。
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 张利;张立勇;张晓淼;耿铁锁;岳宗阁;;基于改进BP网络的中文歧义字段分词方法研究[J];大连理工大学学报;2007年01期
2 茅剑;吴顺祥;;基于密度聚类方法在文本挖掘中的应用研究[J];福建电脑;2007年06期
3 王灿辉;张敏;马少平;黄宇;;基于相邻词的中文关键词自动抽取[J];广西师范大学学报(自然科学版);2007年02期
4 张培颖;;运用有向图进行中文分词研究[J];计算机工程与应用;2009年22期
5 杨晓恝;蒋维;郝文宁;;基于本体和句法分析的领域分词的实现[J];计算机工程;2008年23期
6 李素建,王厚峰,俞士汶,辛乘胜;关键词自动标引的最大熵模型应用研究[J];计算机学报;2004年09期
7 李彬,刘挺,秦兵,李生;基于语义依存的汉语句子相似度计算[J];计算机应用研究;2003年12期
8 王军;词表的自动丰富——从元数据中提取关键词及其定位[J];中文信息学报;2005年06期
9 索红光;刘玉树;曹淑英;;一种基于词汇链的关键词抽取方法[J];中文信息学报;2006年06期
10 石晶;胡明;戴国忠;;基于小世界模型的中文文本主题分析[J];中文信息学报;2007年03期
中国重要会议论文全文数据库 前1条
1 张璐;王景中;;基于HNC语境框架的文本相似度计算[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前1条
1 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
中国硕士学位论文全文数据库 前5条
1 于智航;改进的密度聚类算法研究[D];大连理工大学;2007年
2 王莹莹;中文短语相似度计算方法研究及应用[D];长沙理工大学;2008年
3 张妍;基于相对词频的相似度研究[D];东北师范大学;2008年
4 游春晖;基于语义情感倾向的文本相似度计算[D];电子科技大学;2008年
5 罗准辰;关键词抽取的研究与实现[D];国防科学技术大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 都云程;周伟;韩艳铧;吕学强;;基于字同现频率的关键词自动抽取[J];北京信息科技大学学报(自然科学版);2011年06期
2 仲兆满;刘宗田;;基于两级概念格的信息抽取的研究[J];江西师范大学学报(自然科学版);2008年02期
3 杨松;楼新远;;基于向量空间模型附加词义特征的句子相似度研究[J];成都信息工程学院学报;2012年03期
4 田占霄;韩宪忠;王克俭;;一种改进的长词优先逆向最大匹配分词消歧策略[J];河北农业大学学报;2009年04期
5 杨思春;;一种改进的句子相似度计算模型[J];电子科技大学学报;2006年06期
6 张利;吴华玉;卢秀颖;;基于粗糙集的改进BP神经网络算法研究[J];大连理工大学学报;2009年06期
7 张磊;张代远;;中文分词算法解析[J];电脑知识与技术;2009年01期
8 严春风;;基于决策树的关键短语抽取的研究[J];电脑知识与技术;2009年20期
9 刘远超;王晓龙;徐志明;刘秉权;;基于粗集理论的中文关键词短语构成规则挖掘[J];电子学报;2007年02期
10 高燕;;关键词自动标引方法综述[J];电子世界;2012年06期
中国重要会议论文全文数据库 前10条
1 章成志;周冬敏;苏新宁;;自动标引通用评价模型研究[A];2007年中国索引学会年会暨学术研讨会论文集[C];2007年
2 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
3 赵妍妍;秦兵;刘挺;张俐;苏中;;基于多特征融合的句子相似度计算[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 菅小艳;郑家恒;;一种改进的句子相似度计算方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 刘宝艳;林鸿飞;杨志豪;;基于改进编辑距离和依存结构的句子相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
7 王素格;张武;李德玉;杨军玲;彭其伟;;基于最大熵模型的汉语动词与动词搭配识别[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
8 王灿辉;金奕江;马少平;;基于文档中心内容快速提取的Web监控辅助系统[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 宋彦;张桂平;蔡东风;;基于N-gram的句子相似度计算技术[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 程涛;施水才;张玉杰;吕学强;;基于大规模语料库的新闻领域新词挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
2 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
3 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
4 孙珂;大规模文档标签自动标注技术研究[D];哈尔滨工业大学;2011年
5 单建芳;面向事件的文本表示研究[D];上海大学;2012年
6 谢能付;基于语义Web技术的知识融合和同步方法研究[D];中国科学院研究生院(计算技术研究所);2006年
7 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
8 王菁华;文本中知识的获取[D];北京邮电大学;2008年
9 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
10 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
中国硕士学位论文全文数据库 前10条
1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
2 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
3 孙群虎;基于空间分布和信息熵的特征词提取方法[D];大连理工大学;2010年
4 赵莲;大规模中英可比较语料库构建[D];大连理工大学;2010年
5 徐美霞;基于web技术的网上考试系统[D];中国海洋大学;2010年
6 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
7 樊春雷;基于语义分析的糖尿病健康教育系统研究与实现[D];华东理工大学;2011年
8 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
9 王凤林;受限域问答式自然语言数据库查询研究[D];昆明理工大学;2010年
10 孟祥燕;问答对自动获取的研究[D];昆明理工大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
2 骆正华,樊孝忠,刘林,龚永罡;基于E-Chunk的问句实例分析系统[J];北京理工大学学报;2005年01期
3 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
4 薛为民;陆玉昌;;文本挖掘技术研究[J];北京联合大学学报(自然科学版);2005年04期
5 丁春;关键词标引的若干问题探讨[J];编辑学报;2004年02期
6 王顺久,张欣莉,丁晶,侯玉;投影寻踪聚类模型及其应用[J];长江科学院院报;2002年06期
7 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
8 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报;2003年06期
9 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
10 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
中国重要会议论文全文数据库 前4条
1 车万翔;刘挺;秦兵;李生;;面向依存文法分析的搭配抽取方法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 曲维光;;分词系统计量研究与改进方案[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 丁秉公;黄昌宁;黄德根;;文本主题识别研究及应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国硕士学位论文全文数据库 前8条
1 李力;利用知网进行(计算机)自然语言处理[D];电子科技大学;2004年
2 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
3 徐正松;基于属性论方法的网络入侵检测系统的设计与实现[D];上海海事大学;2005年
4 甘棠仪;基于属性论方法的垃圾邮件过滤系统设计与研究[D];上海海事大学;2005年
5 邵红青;基于属性论方法的自动组卷问题研究[D];上海海事大学;2005年
6 段立;语境计算在词语歧义消解中的应用[D];华东师范大学;2006年
7 王曙光;基于蚁群的文本聚类算法的改进研究[D];大连理工大学;2006年
8 孙爽;基于语义相似度的文本聚类算法的研究[D];南京航空航天大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 史豪杰;邢清华;刘付显;;基于引入概率的范例匹配新方法[J];计算机工程与应用;2009年10期
2 王煜;白石;王正欧;;用于Web文本分类的快速KNN算法[J];情报学报;2007年01期
3 赵俊杰;胡学钢;;基于文本分类的文档相似度计算[J];微型电脑应用;2008年12期
4 郝祥根;杨思春;高远飙;张伟;;基于向量空间模型的中文问答系统研究与实现[J];苏州科技学院学报(自然科学版);2009年01期
5 王波;薛媛媚;;网上销售常问问答系统的构建[J];软件导刊;2009年02期
6 袁正午;李玉森;张雪英;;基于属性的文本相似度计算算法改进[J];计算机工程;2009年17期
7 缪勇;宋斌;;基于Web日志的典型匿名用户路径挖掘研究[J];计算机应用;2009年10期
8 张爱琦;左万利;王英;梁浩;;基于多个领域本体的文本层次被定义聚类方法[J];计算机科学;2010年03期
9 江耿豪;;基于VisualProlog的自动答疑系统设计与实现[J];现代教育技术;2010年07期
10 苏慧群;;XML文档数对序列模型与结构相似度算法研究[J];湖南广播电视大学学报;2010年03期
中国重要会议论文全文数据库 前10条
1 王凯;李绍稳;张友华;刘超;;缺值背景中的粗糙形式概念相似度计算理论与方法[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
2 陈立;宋自林;郑世明;张英;;基于本体的概念相似度计算研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
3 吴志雄;;不精确数据的相似度计算[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
4 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 沈君;马生全;;两种新的相似性度量在模糊推理中的应用[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
6 张迪;郑德权;赵铁军;于浩;;Blog网页分类与识别技术研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
7 张奇;黄萱菁;吴立德;;一种新的句子相似度度量及其在文本自动摘要中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 林民;宋柔;;基于结构描述的汉字字形相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
9 邓锦辉;余正涛;章程;毛存礼;郭剑毅;;汉语语言处理接口的集成与应用[A];2007年中国智能自动化会议论文集[C];2007年
10 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国重要报纸全文数据库 前10条
1 海量智能计算技术研究中心 霍刚;新兴技术为互联网加速[N];计算机世界;2007年
2 记者 洪奕宜;网站特设专区 委员“开博议政”[N];南方日报;2007年
3 俞志新 李水根;创新——中药跨出国门的基础[N];健康报;2006年
4 田振坤 王连芝;黑龙江中医药大学建立蔓荆子药材指纹图谱[N];中国医药报;2005年
5 曹凤兰 孟杰;创建先进的中药质量检测方法[N];科技日报;2004年
6 记者 白京丽;指纹图谱研究走出象牙塔[N];中国医药报;2002年
7 深圳商报记者 陈晓薇;提案从提交到办理电子监控实时跟踪[N];深圳商报;2007年
8 崔昕;浙大中药质控技术取得创新性成果[N];中国医药报;2002年
9 吴铭;天士力推出多元指纹图谱检测法[N];中国医药报;2004年
10 何建昆;复方丹参滴丸指纹图谱分析及质量控制技术通过鉴定[N];科技日报;2004年
中国博士学位论文全文数据库 前10条
1 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
2 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
3 李辉;移动商务导购系统的研究[D];大连理工大学;2008年
4 史先敏;中国栽培灵芝三萜成分的高效液相指纹图谱研究[D];南京农业大学;2008年
5 李进;两性霉素B有关物质的质量研究与多元组分药物的质量控制和分析[D];中国协和医科大学;2007年
6 卢湖川;人脸识别中几个关键算法研究[D];大连理工大学;2008年
7 王吉华;基于特征函数的产品造型进化设计研究[D];山东师范大学;2009年
8 吴健;基于Web服务的网络化产品配置技术研究[D];浙江大学;2004年
9 杨雨图;支持双语的协同CAPP系统若干关键技术研究[D];南京航空航天大学;2006年
10 朱朝勇;基于本体的知识库分类研究[D];中国科学技术大学;2013年
中国硕士学位论文全文数据库 前10条
1 王德刚;智能答疑系统的设计[D];内蒙古大学;2008年
2 张宇;关系数据库中基于元组的关键词查询研究[D];燕山大学;2009年
3 张平生;计算机辅助飞机协调图表设计技术研究[D];西北工业大学;2007年
4 郭竞;三维地形模型检索系统设计与实现[D];西北大学;2007年
5 王婷;OWL本体之间概念相似度计算研究[D];河海大学;2007年
6 蔡元哲;本体实例学习关键技术的研究[D];中国人民大学;2008年
7 刘岩;基于概念图的中文语义分析系统的研究与实现[D];西北大学;2008年
8 王少鹏;基于网页标识的图像内容过滤防火墙的设计[D];山西大学;2008年
9 王利局;基于语义分析树核的句子相似度计算[D];大连理工大学;2008年
10 赵火军;基于引文链的知识元挖掘方法研究[D];西安电子科技大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026