收藏本站
《浙江大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于谱聚类的图书目录重构

张俊英  
【摘要】: 21世纪是信息和科技的世纪。信息技术的进步在促进时代发展的同时,也给残疾人带来了前所未有的机遇和极大的挑战。数字图书馆是残疾人获取信息的一种重要的途径和手段。结构化的目录信息能够大大提高残疾人阅读电子书籍的速度。本文提出了一种基于谱聚类的目录信息重构算法,实现对文本书籍目录的抽取和目录索引结构的构造。 目录信息的重构使用了信息抽取的相关技术。目录信息的重构包括文本信息解析、目录信息建模和目录树的生成。对文本信息进行的预处理,需要对不规范的文字信息进行整理和替换。然后使用一种适合目录信息的结构和存储格式的分词方法,对目录文本进行分词处理并对目录信息中的特征项进行标注。通过对目录的结构和特征进行分析,本文提出了一种基于特征的目录结构表示模型。使用这种模型来表示目录结构中的每个目录条目。基于该模型,使用了一种基于规范化分割的谱聚类算法对目录项进行聚类,从而获得目录项的聚类信息。最后,结合目录项的聚类信息和顺序信息,使用一种基于深度优先策略的目录生成算法,重构出结构化的目录树。 实现的算法在盲人数字图书馆中进行了测试,通过对于702本书籍的解析和处理,获得了较好的准确率,大大减少了人工操作的工作量。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前4条
1 张家勇;刘建辉;;基于中文分词技术的信息智能过滤系统[J];信息技术;2006年12期
2 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
3 邓宏涛;中文自动分词系统的设计模型[J];计算机与数字工程;2005年04期
4 张俊英;胡侠;卜佳俊;;网页文本信息自动提取技术综述[J];计算机应用研究;2009年08期
【共引文献】
中国期刊全文数据库 前10条
1 杜道流;指称、陈述理论及其对上古语法研究的意义[J];安徽大学学报;2004年01期
2 姜红;;具体名词和抽象名词的不对称现象[J];安徽大学学报(哲学社会科学版);2009年02期
3 施发笔;试论《水浒传》介词避复的技巧[J];安徽教育学院学报;2002年04期
4 阮绪和;形名偏正结构的语法功能[J];安徽教育学院学报;2003年02期
5 陶振伟;;“拿”的语法化[J];安徽教育学院学报;2006年04期
6 樊友新;;从“被就业”看“被”的语用功能[J];合肥师范学院学报;2010年02期
7 冯鸣;英语表持续时段的for短语和汉语时量词语的比较[J];安徽广播电视大学学报;2001年02期
8 王有卫;;语素文字说质疑[J];安徽广播电视大学学报;2010年03期
9 柳国栋;;《论语》重叠词略论[J];安徽职业技术学院学报;2008年02期
10 郇正军;赵国富;;基于土地利用的空间数据挖掘系统的设计与实现[J];安徽农业科学;2011年07期
中国重要会议论文全文数据库 前10条
1 ;Incremental Clustering for Categorical Data Using Clustering Ensemble[A];第二十九届中国控制会议论文集[C];2010年
2 李影;付莉;;韩国中小学生“是”的错序偏误分析[A];语言与文化研究(第四辑)[C];2009年
3 杨晓霞;朱庆;李海峰;;知识导航的遥感信息处理服务分类选择方法[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
4 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
5 吕晓玲;;闽南方言南安话的类结构助词“得”、“说”、“伊”、“通”[A];福建省辞书学会第五届会员代表大会暨第十九届年会论文集[C];2009年
6 田长生;;浅谈《论语》中的复叠现象[A];江西省语言学会2005年年会论文集[C];2005年
7 阮绪和;;江西武宁(上汤)话的程度副词“死、几、蛮”[A];江西省语言学会2005年年会论文集[C];2005年
8 魏亮珍;;浅析《吕梁英雄传》中的“给”[A];江西省语言学会2006年年会论文集[C];2006年
9 周小婕;;数词研究综述[A];江西省语言学会2006年年会论文集[C];2006年
10 王安琛;;试论“V—V”结构[A];江西省语言学会2006年年会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 陈佳;论英汉运动事件表达中“路径”单位的“空间界态”概念语义及其句法—语义接口功能[D];上海外国语大学;2010年
2 张泽宝;空间数据库的索引技术研究[D];哈尔滨工程大学;2009年
3 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
4 宋军;水交换模型的理论方法及应用研究[D];中国海洋大学;2010年
5 郭红;基于第二语言教学的汉语语气范畴若干问题研究[D];南开大学;2010年
6 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
7 李晋江;海量数据点三维重构中一类关键问题研究[D];山东大学;2010年
8 杨先明;0-5岁汉语儿童语言发展的认知研究[D];武汉大学;2010年
9 彭懿;英汉肤觉形容词的认知语义研究[D];湖南师范大学;2010年
10 龙又珍;现代汉语寒暄系统研究[D];武汉大学;2009年
中国硕士学位论文全文数据库 前10条
1 黄雪;俄汉语词汇理据性对比研究[D];哈尔滨师范大学;2010年
2 马晶晶;表人名词类词缀“X手”、“X者”、“X员”分析比较[D];辽宁师范大学;2010年
3 乌晓丽;“X+—N比—N+VP”表义功能新探[D];辽宁师范大学;2010年
4 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
5 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
6 曹萍;府城官话研究[D];广西师范学院;2010年
7 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
8 旷金辉;汉英名词前置修饰语语序对比研究[D];上海外国语大学;2010年
9 陶胜妃;现代汉语谓词修饰词前后位置比较研究[D];上海外国语大学;2010年
10 严伟剑;疑问代词“怎么”“怎样”“怎么样”对比研究[D];上海外国语大学;2010年
【二级参考文献】
中国期刊全文数据库 前8条
1 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
2 丁承,邵志清;基于字表的中文搜索引擎分词系统的设计与实现[J];计算机工程;2001年02期
3 黄德根,杨元生,王省,张艳丽,钟万勰;基于统计方法的中文姓名识别[J];中文信息学报;2001年02期
4 王玮,刘丹;汉语文献自动分词存在的问题及趋向[J];情报理论与实践;1994年06期
5 牛耘,朱献有;神经网络技术在汉语歧义切分中的应用[J];情报学报;1999年03期
6 周丽琴,杨季文,吕强;基于Web的字词频统计程序的设计与应用[J];苏州大学学报(自然科学);2002年01期
7 王科,高常波,翟雪峰,罗万伯;汉语分词的主要技术及其应用展望[J];通信技术;2003年06期
8 陈华辉,薛春阳;一种基于贝叶斯网的“垃圾”邮件过滤器[J];微机发展;2000年04期
【相似文献】
中国期刊全文数据库 前10条
1 司文武,钱沄涛;一种基于谱聚类的半监督聚类方法[J];计算机应用;2005年06期
2 王娜;杜海峰;庄健;余进涛;王孙安;;三种典型的基于图分割的谱聚类方法比较[J];系统仿真学报;2009年11期
3 王会青;陈俊杰;;基于图划分的谱聚类方法的研究[J];计算机工程与设计;2011年01期
4 王春腾;符传谊;邢洁清;;基于非负约束的谱聚类方法[J];电脑知识与技术;2011年17期
5 何飞;王晓晨;马粹;梁治国;;生产状态的测地距离谱聚类分析[J];计算机工程与应用;2012年24期
6 薛宁静;;生产状态的熵值评估谱聚类分析[J];计算机工程与应用;2012年19期
7 管涛;王杰;;谱聚类的算子理论研究进展[J];计算机科学;2013年S1期
8 周文刚;陈雷霆;董仕;;基于谱聚类的网络流量分类识别算法[J];电子测量与仪器学报;2013年12期
9 王玲;薄列峰;焦李成;;密度敏感的半监督谱聚类[J];软件学报;2007年10期
10 林立;胡侠;朱俊彦;;基于谱聚类的多文档摘要新方法[J];计算机工程;2010年22期
中国博士学位论文全文数据库 前1条
1 孔敏;关联图的谱分析及谱聚类方法研究[D];安徽大学;2006年
中国硕士学位论文全文数据库 前10条
1 何心琪;基于谱聚类的水声图像分割技术研究[D];哈尔滨工程大学;2013年
2 张俊英;基于谱聚类的图书目录重构[D];浙江大学;2010年
3 张天强;基于谱聚类的亲友通话圈挖掘[D];华南理工大学;2013年
4 郑伟;基于核与特征选择的谱聚类社区检测算法[D];西安电子科技大学;2013年
5 朱正伟;谱聚类研究及其在入侵检测中的应用[D];重庆大学;2010年
6 由里;基于谱聚类的图像分割方法研究[D];国防科学技术大学;2011年
7 张洪;结合概率潜在语义分析的文本谱聚类研究[D];重庆大学;2012年
8 陈志豪;基于阻尼距离的谱聚类集成算法研究与实现[D];华南理工大学;2013年
9 邓小燕;谱聚类在基因表达数据分析中的应用与研究[D];重庆大学;2010年
10 刘丽丽;基于谱聚类方法的SAR图像分割[D];天津理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026