收藏本站
《黑龙江大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

数字图书馆中词频提取和自动文本分类方法的研究

任美睿  
【摘要】: 数字图书馆是一个新兴的、涉及到互连网、多媒体、数据仓库、数据挖掘、版权保护等诸多技术的计算机应用领域,应用和商业前景非常广阔。现在国内外对数字图书馆的研究刚刚起步。 我们在吸取前人经验的基础上,基于机群并行计算环境研制了一个并行数字图书馆系统,该系统除了具备现有数字图书馆的一些功能外,还可以根据用户的资源特点创建适合自己图书馆的元数据模式和分类体系模式。此外,该系统还提供了基于结构和内容的查询,这些功能是其它数字图书馆系统所做不到的。 本文设计并实现了数字图书馆中的词频提取和自动文本分类子系统,其中自动文本分类子系统克服了现有文本分类系统把文本类看作是互不相交的,处在一个平面层次上的弊端,依据数字图书馆中分类体系模式,实现了基于朴素贝叶斯原理的层次化自动文本分类。并提出了一个在特征提取阶段的有效的特征向量降维方法。在词频提取子系统中,本文根据中文词和英文词串的特点设计了一个高效的散列算法,这种散列方法能够较均匀地将文本中的词散列到散列表中,并快速定位到词的入口,有效提高了词频提取的效率。此外,本文还研究了基于向量空间模型的自动文本分类方法,提出了一个新的词权重计算方法,该方法有效提高了分类精度。
【学位授予单位】:黑龙江大学
【学位级别】:硕士
【学位授予年份】:2002
【分类号】:TP399

【引证文献】
中国博士学位论文全文数据库 前1条
1 李鹏;数字图书馆内容管理开源软件应用与评价研究[D];吉林大学;2012年
中国硕士学位论文全文数据库 前1条
1 王欢;林业黄页信息自动分类技术研究[D];北京林业大学;2012年
【参考文献】
中国期刊全文数据库 前6条
1 冯项云,肖珑,廖三三,庄纪林;国外常用元数据标准比较研究[J];大学图书馆学报;2001年04期
2 肖珑,陈凌,冯项云,冯英;中文元数据标准框架及其应用[J];大学图书馆学报;2001年05期
3 庄越挺,刘小明,吴翌,潘云鹤;通过例子视频进行视频检索的新方法[J];计算机学报;2000年03期
4 党跃臣,张晔,王韫华;数字图书馆数据库开发和使用中的版权问题[J];情报学报;2001年03期
5 张凌,张钟;数字图书馆用户界面的工效学研究(下)[J];情报学报;1998年03期
6 李东来;数字化图书馆的选择与实施[J];现代图书情报技术;1999年03期
【共引文献】
中国期刊全文数据库 前10条
1 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
2 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
3 鲁杭兵;浅析我国数字图书馆发展的现状及存在的问题[J];安徽农业大学学报(社会科学版);2002年05期
4 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
5 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
6 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
7 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
8 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
9 冯学军;;最小二乘支持向量机的研究与应用[J];安庆师范学院学报(自然科学版);2009年01期
10 邹心遥;姚若河;;基于LSSVM的威布尔分布形状参数估计(英文)[J];半导体技术;2008年06期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
3 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
4 ;Design and Optimization of Query System Architecture based on Multi-tier Metadata[A];第二十七届中国控制会议论文集[C];2008年
5 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
6 ;State Estimation Model of Ferment Process Based on PSO[A];第二十九届中国控制会议论文集[C];2010年
7 常俊林;魏巍;梁君燕;;基于支持向量机的SURF改进算法[A];中国自动化学会控制理论专业委员会C卷[C];2011年
8 ;Research of Intelligent Control Model and System on Traffic Light Time[A];中国自动化学会控制理论专业委员会D卷[C];2011年
9 刘友强;李斌;奚宁;陈家骏;;基于双语平行语料的中文缩略语提取方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 陈龙;吴志勇;袁春;蒙美玲;蔡莲红;;面向数字版权管理的声纹辅助认证系统[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
3 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
4 熊晶;海洋生态本体的建模方法研究及应用[D];中国海洋大学;2010年
5 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
6 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年
7 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
8 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
9 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年
10 吴锋;基于GPU并行计算的数值模拟与燃煤锅炉系统的优化研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
3 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
4 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
5 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
6 刘磊;多泥沙河流水库优化调度研究[D];郑州大学;2010年
7 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年
8 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
9 林天威;基于视频流的人脸识别系统研究[D];哈尔滨工程大学;2010年
10 陈晶;基于词片网格的语音文档主题分类[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 朱宁;;利用开源系统优化数字图书馆的高级应用[J];办公自动化;2012年02期
2 王忠林;尹宝林;;开源软件定制改造过程中的原型选择[J];北京航空航天大学学报;2006年12期
3 李红玲,朱锦泉;基于工作流技术图书馆自动化管理系统的设计与实现[J];长春理工大学学报;2005年02期
4 贺铁祖;;基于开源CMS的数字图书馆网站[J];科技和产业;2008年12期
5 朱靖波,陈文亮;基于领域知识的文本分类[J];东北大学学报;2005年08期
6 钱国富;;基于开源软件的RSS聚合门户建设研究[J];大学图书馆学报;2007年04期
7 任妮;黄水清;熊健;;数字图书馆业务流程研究[J];大学图书馆学报;2010年02期
8 林闯,李雅娟,王忠民;性能评价形式化方法的现状和发展[J];电子学报;2002年S1期
9 刘桃;刘秉权;徐志明;王晓龙;;领域术语自动抽取及其在文本分类中的应用[J];电子学报;2007年02期
10 袁建中;;欧洲软件专利发展十年回顾[J];电子知识产权;2009年07期
中国重要会议论文全文数据库 前2条
1 寇远涛;赵瑞雪;;数字图书馆门户内容管理系统集成模型探讨[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年
2 陈金力;;图书馆开源软件简介及koha在windows环境下的试用[A];福建省图书馆学会2007年学术年会论文集[C];2007年
中国博士学位论文全文数据库 前1条
1 王广凤;开源软件与专有软件的竞争[D];辽宁大学;2008年
中国硕士学位论文全文数据库 前10条
1 金星;图书馆信息管理系统的设计与实现[D];中国海洋大学;2010年
2 洪光宗;数字图书馆与电子商务[D];湘潭大学;2002年
3 张卫云;基于Web的内容管理系统的研究与开发[D];华北电力大学(北京);2004年
4 蒋海富;基于ORM的时空数据模型构建方法研究[D];南京师范大学;2004年
5 丁会平;移动数字图书馆内容管理系统的设计与实现[D];南京理工大学;2004年
6 贺玲玲;数字图书馆运行机制与管理模式研究[D];国防科学技术大学;2003年
7 黄凯;基于Java的动态代理机制的ORM技术的研究和实现[D];湖南大学;2005年
8 苑林英;基于对象—关系映射技术解决Java环境中持久化问题的研究[D];中国地质大学(北京);2006年
9 刘丹;应用J2EE平台实现异构数据访问中间件技术的研究[D];东北林业大学;2006年
10 荣林;用Hibernate实现Java对象持久化[D];东北大学;2006年
【二级参考文献】
中国期刊全文数据库 前5条
1 庄越挺;吴翌;潘云鹤;;视频目录—视频结构化的一种新方法[J];模式识别与人工智能;1999年04期
2 何炳祥;对我国电子数据库保护之管见[J];情报资料工作;1997年06期
3 倪晓红;数据库版权保护问题[J];现代图书情报技术;1995年03期
4 张晓林;元数据开发应用的标准化框架[J];现代图书情报技术;2001年02期
5 李敏;数据库与知识产权保护[J];现代图书情报技术;1998年05期
【相似文献】
中国期刊全文数据库 前10条
1 张志平;李琳娜;;NSTL文献检索系统中相关文献推荐功能的设计及实现[J];现代图书情报技术;2010年Z1期
2 邓擘;樊孝忠;杨立公;;基于统计分布与集合论的文本分类方法[J];北京理工大学学报;2006年07期
3 钱爱兵;江岚;;基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J];情报理论与实践;2008年06期
4 杨清,游星雅,蒋向红;基于智能信息处理的数字图书馆知识服务系统的研究与设计[J];计算机工程与科学;2004年10期
5 刘美茹;吴岩;刘挺;王开铸;于明光;;用计算机对文章意义段划分初探[J];东北测绘;1997年04期
6 梁丽;张洋;黄亚明;;应用人工神经网络实现网络资源评价指标体系的重构[J];现代图书情报技术;2006年05期
7 郭玲;孟祥逢;张峰;;基于最大匹配法的中文分词技术改进[J];舰船电子工程;2009年12期
8 史彦军,滕弘飞,金博;抄袭论文识别研究与进展[J];大连理工大学学报;2005年01期
9 吴漂生;从关键词词频看我国读者工作的发展[J];现代情报;2005年10期
10 王庆林, 刘文;文献中词频分布规律的研究[J];情报学报;1994年03期
中国重要会议论文全文数据库 前10条
1 刘颖;;论数字图书馆的信息构建[A];华北地区高校图协第二十四届学术年会论文(文章)汇编[C];2010年
2 郭启智;;关于数字图书馆有关问题的探讨[A];山西省科学技术情报学会学术年会论文集[C];2004年
3 符翠;;数字图书馆建设探讨[A];新环境下图书馆建设与发展——第六届中国社区和乡镇图书馆发展战略研讨会征文集(下册)[C];2007年
4 王爱华;张铭;陈捷;杨冬青;唐世渭;;基于形式本体的数字图书馆内容元数据的创建[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
5 高翔;;浅谈网站模式下的数字图书馆资源建设[A];华北地区高校图协第二十四届学术年会论文(文章)汇编[C];2010年
6 喻浩;潘薇;;数字图书馆支撑技术及其发展[A];数字图书馆资源建设与发展学术研讨会暨中国农学会农业图书馆分会理事工作会议会议资料[C];2007年
7 潘淑春;喻浩;;数字图书馆建设及其运行模式研究[A];数字图书馆资源建设与发展学术研讨会暨中国农学会农业图书馆分会理事工作会议会议资料[C];2007年
8 林英;;谈谈中国数字图书馆的研究、开发与建设[A];福建省图书馆学会2002年学术年会论文集[C];2002年
9 延宏;;数字图书馆:服务如何个性化[A];新观点新学说学术沙龙文集24:数字时代图书馆的创新与共享[C];2008年
10 来雪玲;;数字图书馆的定位与对策[A];图书馆与西部大开发[C];2002年
中国重要报纸全文数据库 前10条
1 本报记者 延宏;数字图书馆:服务如何个性化[N];科技日报;2008年
2 本报记者 洪黎明;数字出版与数字图书馆的互动[N];人民邮电;2008年
3 本报记者 诸葛漪;国内数字图书馆为何“起大早赶晚集”[N];解放日报;2009年
4 张宇;走在“云端”的数字图书馆[N];中国文化报;2010年
5 通讯员 邓尚新;洛浦数字图书馆正式启动[N];和田日报(汉);2010年
6 本报记者 姜天骄 文化部副部长 杨志今;让数字图书馆资源惠及更多基层群众[N];经济日报;2010年
7 本报记者 吴娜;让每个县都有数字图书馆[N];光明日报;2010年
8 记者 牛春梅;数字图书馆将覆盖全国[N];北京日报;2010年
9 记者 陈磊;我国数字图书馆侵权盗版现象普遍存在[N];科技日报;2010年
10 通讯员 傅晨琦 记者 叶辉;杭州数字图书馆率先实现网站、手机、电视“三网融合”[N];光明日报;2010年
中国博士学位论文全文数据库 前10条
1 于晓燕;基于网格的数字图书馆模式构建研究[D];南开大学;2010年
2 周丽霞;数字图书馆版权获取研究[D];吉林大学;2011年
3 许增福;DL环境下的信息资源管理及知识发现研究[D];哈尔滨工程大学;2005年
4 孙坦;数字图书馆理论与发展模式研究[D];中国科学院文献情报中心;2000年
5 杨梅;现代汉语合成词构词研究[D];南京师范大学;2006年
6 关欣;数字图书馆知识管理研究[D];吉林大学;2010年
7 李乐夫;中国公有经济部门人力资本回报的实证研究[D];清华大学;2009年
8 杜文华;本体的构建及其在数字图书馆中的应用研究[D];武汉大学;2005年
9 韩毅;语义网格环境下数字图书馆知识组织策略与应用研究[D];吉林大学;2008年
10 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 任美睿;数字图书馆中词频提取和自动文本分类方法的研究[D];黑龙江大学;2002年
2 周斌;应用于数字图书馆的分布式检索技术的研究与实现[D];国防科学技术大学;2001年
3 罗宏;数字图书馆著作权风险规避研究[D];四川大学;2004年
4 罗龙艳;数字图书馆资源主题信息门户的设计与实现研究[D];四川大学;2004年
5 董正伟;Google数字图书馆所引发的著作权问题思考[D];中国政法大学;2011年
6 田艳芳;数字图书馆中数据预处理子系统的设计与实现[D];国防科学技术大学;2001年
7 戴洪霞;数字图书馆信息资源建设研究[D];东北师范大学;2002年
8 阚忠良;数字图书馆中基于结构和内容的文本信息检索技术的研究[D];黑龙江大学;2002年
9 贺玲玲;数字图书馆运行机制与管理模式研究[D];国防科学技术大学;2003年
10 曹树新;图书馆自动化管理信息系统[D];大连理工大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026