收藏本站
《清华大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于自组织映射神经网络的词自动聚类

陈涛  
【摘要】:词的分类问题在语言学和自然语言处理研究中占有相当关键的位置。对词进行语义分类,通常有两类做法。一类是基于语言学家的主观判断;另一类则是基于机器的自动聚类。后者是本文所要研究的主题。 本文基于大规模的语料库利用自组织映射神经网络(SOM)对词进行无监督的自动聚类,并利用语言模型中的混乱度(Perplexity)构造了客观的评价方法。首先从语料库中抽取待聚类词的上下文窗口中的词,并利用信息增益(Information Gain)对特征词进行选择,然后借鉴信息检索模型中的TFIDF计算特征向量中每一个特征的特征权重,最终将构造好的待聚类词的特征向量做为SOM的输入,经过网络的迭代计算将不同类别的词映射在SOM输出网格的不同节点;将类别用染色体表示,构造C-均值遗传算法,实现词聚类。 本文讨论了上下文窗口大小对聚类结果的影响;讨论了特征选择中抽取向量维数对聚类结果的影响;讨论了SOM学习率、输出网格边长等因素对聚类结果的影响。在此基础上,确定了聚类过程中的相关参数,从语料库抽取了4638个高频实词进行了聚类实验,比较了不同输出网格边长对混乱度评价结果的影响,实验结果发现利用SOM聚类结果由原来的初始随机分类混乱度1005.72下降到247.37;并利用C-均值和C-均值遗传算法对4638个词进行了聚类,对应的混乱度值分别为353.68和337.27。
【学位授予单位】:清华大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP183

【引证文献】
中国硕士学位论文全文数据库 前1条
1 付渊;运用神经网络聚类方法推进构建本体的自动化[D];太原理工大学;2006年
【参考文献】
中国期刊全文数据库 前5条
1 胡卫东,郁文贤,郭桂蓉;一种新的模糊Kohonen聚类网络[J];电子学报;1998年03期
2 肖云,孙茂松,邹嘉彦;利用上下文信息解决汉语自动分词中的组合型歧义[J];计算机工程与应用;2001年19期
3 张会清,于洪珍;语音识别及自组织映射神经网络的应用[J];计算机工程与应用;2002年19期
4 鲁松,白硕;自然语言处理中词语上下文有效范围的定量描述[J];计算机学报;2001年07期
5 郭晓婷,朱岩;基于遗传算法的进化神经网络[J];清华大学学报(自然科学版);2000年10期
【共引文献】
中国期刊全文数据库 前10条
1 周丽娟;乐晓波;;物流配送路径优化的研究[J];办公自动化;2007年06期
2 夏业启,于中;酚醛树脂生产的微机自动控制系统[J];工程塑料应用;2000年05期
3 郑浩,王全凤;L-M算法在高层结构体系选型中的应用[J];四川建筑科学研究;2003年03期
4 刘兴远,郭伟,林文修,杜文龙,易珂;重庆地区混凝土构件碳化规律的神经网络描述[J];四川建筑科学研究;2004年04期
5 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
6 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
7 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
8 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
9 丁晓贵;神经网络在非线性系统参数辨识中应用[J];安徽工程科技学院学报(自然科学版);2003年04期
10 路子贇;一种CMAC神经网络的直接地址映射[J];安徽工程科技学院学报(自然科学版);2004年01期
中国重要会议论文全文数据库 前10条
1 叶萍;韩如成;;直接转矩控制系统智能开关状态选择器的应用与发展[A];2005中国电机工程学会电力系统自动化专委会全国供用电管理自动化学术交流暨供用电管理自动化学科组第二届年会论文集[C];2005年
2 甘灿;孙星明;刘玉玲;向凌云;;一种改进的基于同义词替换的中文文本信息隐藏方法[A];第七届全国信息隐藏暨多媒体信息安全学术大会论文集[C];2007年
3 由立真;穆志纯;;基于GHSOM网络预测客户欺诈行为[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
4 胡林静;任小艺;;直升机实验模型的仿真研究[A];全国第二届嵌入式技术联合学术会议论文集[C];2007年
5 卢伟清;苏新春;;词义开放处理平台的研究和实现[A];第六届汉语词汇语义学研讨会论文集[C];2005年
6 王惠;苏新春;;XHK基于语法知识的汉语词义描述[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 韦艳艳;李陶深;;基于Stacking框架的学习机制研究[A];广西计算机学会2004年学术年会论文集[C];2004年
8 李勤丰;;最大独立集在高校排课表系统中的应用[A];广西计算机学会2006年年会论文集[C];2006年
9 令狐大智;李陶深;;一种面向混合数据的自反馈模糊聚类分析算法[A];广西计算机学会2007年年会论文集[C];2007年
10 谢进;阎开印;陈永;;应用于平面机构综合中的神经网络技术[A];第十三届全国机构学学术研讨会论文集[C];2002年
中国博士学位论文全文数据库 前10条
1 付信际;合成孔径雷达图像分类与目标检测技术研究[D];中国科学院研究生院(电子学研究所);2005年
2 魏立梅;聚类分析新方法的研究与应用[D];西安电子科技大学;1998年
3 刘皓玮;行车指挥系统的Petri网建模与列车运行调整的遗传优化的研究[D];铁道部科学研究院;2000年
4 吕铁军;通信信号调制识别研究[D];电子科技大学;2000年
5 陈燕;数据仓库的设计与实现[D];大连理工大学;2000年
6 阎石;结构振动智能控制的人工神经网络与模糊逻辑方法研究[D];大连理工大学;2000年
7 李兴华;高分辨力空间摄影相机像移补偿控制技术研究[D];中国科学院长春光学精密机械与物理研究所;2000年
8 熊木地;大行程亚微米精度激光直写设备定位技术的研究[D];中国科学院长春光学精密机械与物理研究所;2000年
9 王永岩;软岩巷道变形与压力分析控制及预测[D];辽宁工程技术大学;2001年
10 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
中国硕士学位论文全文数据库 前10条
1 吴仕勇;基于数值计算方法的BP神经网络及遗传算法的优化研究[D];云南师范大学;2006年
2 董添文;CO_2气体保护焊干扰因素计算机识别系统的研究与设计[D];内蒙古工业大学;2005年
3 高玉萍;基于专家系统与神经网络相结合的电力变压器故障诊断[D];西安理工大学;2005年
4 汪长飚;基于eM-Plant的自动化立体仓库分拣作业的优化与仿真[D];武汉理工大学;2005年
5 王文利;基于数据挖掘的金融时间序列的小波理论应用[D];天津工业大学;2005年
6 常玲芳;1200热连轧地下卷取机张力、速度控制系统的研究[D];燕山大学;2000年
7 高建忠;汉语动宾搭配的自动识别研究[D];北京语言文化大学;2000年
8 解海江;汉语方言义位比较研究[D];华中师范大学;2000年
9 高建英;基于遗传算法设计模糊RBF神经网络控制器[D];大连理工大学;2000年
10 陈庆旭;RBF网的改进及其应用[D];大连理工大学;2000年
【同被引文献】
中国期刊全文数据库 前10条
1 李善平,尹奇韡,胡玉杰,郭鸣,付相君;本体论研究综述[J];计算机研究与发展;2004年07期
2 李戈,邵峰晶,朱本浩;基于神经网络聚类的研究[J];青岛大学学报(工程技术版);2001年04期
3 王艳辉,蔡嗣经,宋卫东;基于人工神经网络的地下矿山岩层移动研究[J];北京科技大学学报;2003年02期
4 汪华斌,徐瑞春;BP神经网络在鱼洞河滑坡稳定性评价中的应用[J];长江科学院院报;2002年04期
5 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报(自然科学版);2000年03期
6 丛威青;潘懋;李铁锋;吴自兴;吕广宪;;基于GIS的滑坡、泥石流灾害危险性区划关键问题研究[J];地学前缘;2006年01期
7 刘涌江,胡厚田,白志勇;泥石流危险度评价的神经网络法[J];地质与勘探;2001年02期
8 贺可强,雷建和;边坡稳定性的神经网络预测研究[J];地质与勘探;2001年06期
9 廖晓昕;细胞神经网络的数学理论(Ⅰ)[J];中国科学A辑;1994年09期
10 吴佑寿,赵明生,丁晓青;一种激励函数可调的新人工神经网络及应用[J];中国科学E辑;1997年01期
中国博士学位论文全文数据库 前2条
1 李雪平;基于GIS的区域斜坡稳定性评价Logistic回归模型研究[D];中国地质大学;2005年
2 林开平;人工神经网络的泛化性能与降水预报的应用研究[D];南京信息工程大学;2007年
中国硕士学位论文全文数据库 前10条
1 彭雅;文本分类算法及其应用研究[D];湖南大学;2004年
2 贝雨馨;基于意义信息增益的文本特征项权重计算方法[D];延边大学;2004年
3 吴秀娟;人工神经网络在大坝监测数据分析中的应用研究[D];武汉大学;2003年
4 顾一鸣;基于自组织映射的故障诊断方法[D];浙江大学;2006年
5 翁时锋;自适应SOM特征映射研究[D];清华大学;2003年
6 吴红艳;基于自组织特征映射网络的聚类算法研究[D];重庆大学;2006年
7 张巍;基于BP人工神经网络的道路安全评价研究[D];长安大学;2006年
8 何璠;基于BP人工神经网络的环境质量评价模型研究[D];四川大学;2006年
9 张中昱;基于BP神经网络和模糊综合评价的环境分析评价系统[D];天津大学;2006年
10 尹春荣;基于GIS的滑坡地质灾害危险性分区与预测[D];北京工业大学;2008年
【二级参考文献】
中国期刊全文数据库 前2条
1 刘加;汉语大词汇量连续语音识别系统研究进展[J];电子学报;2000年01期
2 孙茂松,左正平,邹嘉彦;高频最大交集型歧义切分字段在汉语自动分词中的作用[J];中文信息学报;1999年01期
【相似文献】
中国期刊全文数据库 前10条
1 周晓峥,刘勘,孟波,周洞汝;自组织映射在Web结构挖掘中的应用[J];计算机工程与应用;2003年03期
2 张玉林;张永华;;基于自组织映射神经网络的粘连字符分割[J];山东科技大学学报(自然科学版);2006年02期
3 黄丽娟;;自组织映射神经网络与VIP客户识别研究[J];仪器仪表学报;2006年S3期
4 李春艳;;自组织映射(SOM)型神经网络的实现[J];电脑知识与技术(学术交流);2007年21期
5 肖云;韩崇昭;王选宏;张俊杰;;基于核的自组织映射聚类[J];西安交通大学学报;2005年12期
6 陈立伟;赵春晖;姜海丽;;一种基于混合神经网络的说话人识别系统[J];哈尔滨工程大学学报;2005年06期
7 高大远;祝晓才;胡德文;;自组织多模型逼近性能分析与改进[J];控制与决策;2007年11期
8 李纲;安璐;;基于SOM的手机电子商务交易聚类分析[J];现代图书情报技术;2008年09期
9 姜华;孟志青;周克江;肖建华;黄悦;;一类时态近似周期关联规则的知识发现问题[J];计算机工程与应用;2010年20期
10 彭岩;王万森;涂序彦;;基于SOM的预警模型研究与应用[J];计算机科学;2004年12期
中国重要会议论文全文数据库 前10条
1 康海燕;李彦芳;张锋;刘小明;;基于最优二叉树原理的自动聚类的设计[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
2 冯秀林;龙海林;索净洁;张丹丹;李静亚;张庆友;;基于分子结构的光化学反应分类预测[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
3 杨步青;王竞;叶中行;;自组织映射在财务分析中的应用[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
4 蔡中华;;自组织映射(SOM)在研究地区产业结构聚类分析的应用[A];第九届中国青年信息与管理学者大会论文集[C];2007年
5 王金甲;王成儒;李静;;自组织混合神经网络在说话人识别中的应用[A];第一届学生计算语言学研讨会论文集[C];2002年
6 彭岩;王万森;涂序彦;;基于SOM的预警模型研究与应用[A];2003年中国智能自动化会议论文集(上册)[C];2003年
7 朱双鹤;马凌;;用改进的自组织映射算法求解TSP问题[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
8 胡社教;王玲玲;;基于块分类技术的数字图像水印算法[A];2009系统仿真技术及其应用学术会议论文集[C];2009年
9 王吉芳;徐小力;高慧婷;;小波包模糊聚类网络在烟机发电机故障诊断中的应用[A];第八届全国设备与维修工程学术会议、第十三届全国设备监测与诊断学术会议论文集[C];2008年
10 邢果;戚文芽;;基于肤色模型、混合线性子空间的人脸检测[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
中国重要报纸全文数据库 前9条
1 张利;下一代搜索轮廓初现Autonomy力挺中文搜[N];中国企业报;2006年
2 胥小红 本报记者  雅梓;下一代搜索轮廓初现Autonomy力挺中文搜索[N];大众科技报;2006年
3 晓徐;Autonomy从CBD迁至中关村[N];中华新闻报;2007年
4 赵明;第二代搜索软肋犹在 第三代搜索浮出水面[N];中国经济时报;2006年
5 李佳忆;播存结构拯救互联网带宽危机[N];计算机世界;2008年
6 张雪峰;信息检索技术的新视角[N];中华读书报;2005年
7 记者 胡其峰;构建为卫生政策研究服务的知识平台[N];光明日报;2009年
8 ;Autonomy中国 企业搜索 一马当先[N];计算机世界;2009年
9 本报记者 吴玉征;语义计算:读懂信息之间的关系[N];计算机世界;2010年
中国博士学位论文全文数据库 前10条
1 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年
2 王明祥;独立分量分析方法及在图像处理中的应用研究[D];上海大学;2005年
3 姚卫新;智能数据分析中异常数据的集成化管理方法研究[D];复旦大学;2004年
4 戚湧;计算机网络智能诊断技术研究[D];南京理工大学;2004年
5 肖迪;新型粗糙神经网络的模式识别与故障诊断方法的研究[D];南京航空航天大学;2005年
6 杨春梅;基因表达数据聚类分析算法研究和应用[D];天津大学;2006年
7 柏荣刚;无线传感器网络节能协议和算法的研究[D];中国科学技术大学;2009年
8 刘雪松;中药的近红外光谱计算分析方法学研究[D];浙江大学;2005年
9 孙志伟;空间数据聚类的研究[D];天津大学;2007年
10 黄东;基于流形的降维方法及其在计算机视觉中的应用[D];电子科技大学;2009年
中国硕士学位论文全文数据库 前10条
1 陈涛;基于自组织映射神经网络的词自动聚类[D];清华大学;2004年
2 臧运慧;基于微粒群优化的自动聚类算法及应用研究[D];大连理工大学;2012年
3 马亚娟;基于人工免疫系统的自动聚类算法及其应用[D];西安电子科技大学;2012年
4 郑思平;一种改进的动态SOM算法及其在聚类中的应用[D];华南理工大学;2010年
5 谢建华;基于核自组织映射的时间序列预测研究[D];南京理工大学;2012年
6 施红鑫;基于附加敏感参数SOM神经网络的自动聚类系统的研究[D];燕山大学;2010年
7 邓庆山;聚类分析及其在基因表达数据中的应用研究[D];华中科技大学;2004年
8 徐亚兵;基于半监督自组织映射的汽车变速器早期故障预报方法[D];华南理工大学;2010年
9 辛威;人脸表情自动识别方法的研究[D];西安理工大学;2004年
10 宋辉;聚类分析系统的设计与实现及在工业中的应用[D];天津科技大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026