收藏本站
《四川大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

可扩展的文本分类系统的核心API的设计与实现

翟静  
【摘要】: 数据挖掘是当前数据库学科理论研究的焦点与前沿,是一个多学科交叉领域,而文本挖掘与文本分类是数据挖掘极具应用前景的分支。中文的文本挖掘由于汉语语言本身的特点有其需要解决的特殊问题。 由于相关应用的需求,本文作者负责设计了一个Java平台上的文本挖掘系统TextMiner的核心模块,为高负荷的中文文本分类提供了合理的核心框架与大量可利用的实现方法。本文的贡献主要体现在: (1) 总结了TextMiner核心模块使用的面向对象的分析和设计方法,核心API编程的观念,将如何从设计的角度完善一个软件系统的可扩展性、灵活性和可插入性的方案进行了剖析,对面向对象的设计模式的实际应用做了实例性的阐述。 (2) 展示了将文本挖掘与分类应用的各个关键性过程进行合理软件建模的方法。所建立的统一的软件模型克服了现存类似系统缺乏数据重用性的弱点。由于TextMiner采用了基于XML的对象绑定于数据交换,中间数据的可重用性得到进一步提高。 (3) TextMiner为文本的合理预处理提出了“过滤器链”的方法,为训练数据的重用提出了“挖掘域”的概念,为大储存容量的对象的序列化和恢复提出了“半装配”与“反半装配”的实现方式,为特征选择过程提出了“包含式”和“排他式”两种宏观机制等等。 (4) (5) 这些富于开创性的设计和实现为类似的大数据处理的面向对象系 统提供了经验。 由于中文文本处理面对的文档个体数据量大、噪声多、语义歧义 充斥,几xtMiner选择了较为合理的数据结构,如哈希存储、双向 索引和适当的冗余存储方案用于处理时间性能的改善。本文对这 些解决方案做了概括的介绍。 本文展示了多种常用的文本预处理、特征选择与与分类方法的理 论基础与实现。在本文的结束部分,就实际应用对这些实现的选 择,文章作了定性的分析。 本文的组织如下:第一章简要介绍了数据挖掘这一新兴学科的理论基础与 应用范围,并介绍了作中文挖掘工作的必要性,特别是中文分类应用带来的挑 战。面对这一系列特殊困难和特殊问题,文章对Tex也石ner的概貌和它的核心 模块规划作了简介。第二章一方面从文本分类系统的宏观角度出发,介绍了 Tex廿吐iner的主体结构,一方面从软件设计的角度出发,举例介绍了Tex翻iner 核心模块所使用的主要设计模式和部分具独创性的解决方案。第三章细化到每 一个主要的软件模块,结合文本分类的部分理论阐述它们在飞x廿妊iner中的实 现。第四章则对各种具体实现的结合利用作了分析,对Tex廿以iner和其他系统 进行松藕合的可能性作了分析,并对未完成的工作进行了展望。
【学位授予单位】:四川大学
【学位级别】:硕士
【学位授予年份】:2003
【分类号】:TP311.13

【引证文献】
中国期刊全文数据库 前1条
1 林华兵,傅清祥;基于文本相似度的关键词分类算法[J];福建电脑;2005年08期
中国硕士学位论文全文数据库 前1条
1 侯泽民;基于自组织映射的文本聚类研究[D];西南交通大学;2010年
【参考文献】
中国期刊全文数据库 前3条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
2 范焱,郑诚,王清毅,蔡庆生,刘洁;用Naive Bayes方法协调分类Web网页[J];软件学报;2001年09期
3 尹锋;汉语自动分词研究的现状与新思维[J];现代图书情报技术;1998年04期
【共引文献】
中国期刊全文数据库 前10条
1 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
2 李玉鑑;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期
3 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
4 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
5 李明杰;;特征抽取方法在网页分类中的应用[J];常熟理工学院学报;2005年04期
6 屈赟;杨捧;张文静;;基于信息粒度的主题相似性信息检索[J];河北农业大学学报;2011年01期
7 白凤凤;;基于不平衡数据集的文本分类技术研究[J];电脑编程技巧与维护;2010年06期
8 阮群锟;许灿;吕劲松;;超文本的集成分类算法研究[J];电脑与信息技术;2010年02期
9 梁晓弘;杨文安;;分词技术在信息处理中的研究综述[J];电脑知识与技术(学术交流);2007年22期
10 张红;;基于语义的中文搜索引擎研究[J];电脑知识与技术;2009年08期
中国重要会议论文全文数据库 前9条
1 许勇;宋柔;;基于HMM的百科辞典文本中知识点划分方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 张健沛;李连江;杨静;;个性化搜索引擎排序算法的研究与改进[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 张爱华;靖红芳;王斌;徐燕;;文本分类中特征权重因子的作用研究[A];第五届全国信息检索学术会议论文集[C];2009年
4 王珍;维尼拉·木沙江;赵丽红;;维、哈、柯文搜索引擎中自动分类技术的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
6 赵燕平;李超;;网络安全信息挖掘中的特征选择与专利分析研究[A];2004年中国管理科学学术会议论文集[C];2004年
7 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
8 汪传建;李晓光;王大玲;于戈;;一种基于混合模型的文本分类器的研究与实现[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 王慧芳;张勇;邢春晓;张文珂;杨吉江;;文本摘要算法集成与实现[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国博士学位论文全文数据库 前10条
1 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
2 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
3 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
4 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
5 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
6 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
7 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
8 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
9 席运江;组织知识的网络表示模型及分析方法[D];大连理工大学;2007年
10 袁家政;可伸缩矢量图形(SVG)的数据表示研究[D];北京交通大学;2008年
中国硕士学位论文全文数据库 前10条
1 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
2 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
3 王雅菲;文本分类中特征降维方法的研究[D];长春工业大学;2010年
4 王阿婷;基于概念集合的网页内容过滤方法的研究[D];北京交通大学;2010年
5 陈雅芳;中文文本分类方法研究[D];浙江大学;2010年
6 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
7 李慧;基于贝叶斯分类方法的中文问句分类研究[D];石家庄铁道学院;2010年
8 贾俊凯;公安业务文本信息挖掘的研究与实现[D];东华大学;2011年
9 巩军全;文本分类算法的研究与改进[D];西安电子科技大学;2010年
10 黄少冰;基于J2ME的移动网络个性化信息推荐研究[D];西安电子科技大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 谷波,张永奎;文本聚类算法的分析与比较[J];电脑开发与应用;2003年11期
2 王莉,王正欧;TGSOM:一种用于数据聚类的动态自组织映射神经网络[J];电子与信息学报;2003年03期
3 王明春,王正欧;基于粗集与遗传算法相结合的文本模糊聚类方法[J];电子与信息学报;2005年04期
4 尹峻松,胡德文,陈爽,周宗潭;DSOM:一种基于NO时空动态扩散机理的新型自组织模型[J];中国科学E辑:信息科学;2004年10期
5 张伟;廖晓峰;吴中福;;一种基于遗传算法的聚类新方法[J];计算机科学;2002年06期
6 张焕炯;李玉鉴;钟义信;;文本相似度计算的一种新方法[J];计算机科学;2002年07期
7 陶跃华;赵波;杨秀国;;搜索引擎的文档预处理技术研究[J];计算机科学;2002年07期
8 张毓敏,谢康林;基于SOM算法实现的文本聚类[J];计算机工程;2004年01期
9 郑家恒,卢娇丽;关键词抽取方法的研究[J];计算机工程;2005年18期
10 张莉,周伟达,焦李成;核聚类算法[J];计算机学报;2002年06期
中国博士学位论文全文数据库 前2条
1 王莉;数据挖掘中聚类方法的研究[D];天津大学;2004年
2 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
【二级引证文献】
中国期刊全文数据库 前1条
1 武胜良;;数据挖掘中模糊聚类方法在信息检索中的应用[J];当代经理人;2006年15期
中国硕士学位论文全文数据库 前4条
1 林华兵;移动搜索中的查询优化和主题分类策略[D];福州大学;2006年
2 傅士光;基于主题的搜索引擎的研究与实现[D];北京交通大学;2007年
3 李旭;可定制的垂直搜索引擎研究与实现[D];北京交通大学;2009年
4 闫旭;基于GSM短消息平台信息检索系统[D];西安理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前5条
1 梁南元;书面汉语自动分词综述[J];计算机应用与软件;1987年03期
2 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
3 尹锋,林亚平;情报神经网络的设计与应用[J];情报学报;1996年03期
4 李凡,鲁明羽,陆玉昌;关于文本特征抽取新方法的研究[J];清华大学学报(自然科学版);2001年07期
5 尹锋,林亚平;神经网络汉语自动分词技术[J];软件世界;1996年12期
【相似文献】
中国期刊全文数据库 前10条
1 贺仁杰;WINDOWS95任务栏提示区图标的DELPHI实现[J];电脑编程技巧与维护;1998年05期
2 王成耀;关系数据库通用表I/O API及应用模板的实现[J];计算机工程与应用;2001年06期
3 黄育芹;VFP多媒体技术的研究及应用[J];信息技术;2002年08期
4 金舒元,戴亚非,杜跃进;基于WEB的数据库发布技术[J];小型微型计算机系统;1998年07期
5 刘广聪,傅秀芬;Java组件机制——Java beans[J];通信世界;1998年03期
6 陈菁华,王学东,潘婷;Web数据库互连技术的比较[J];科技进步与对策;2000年08期
7 郭天杰,齐玉东;Windows 9x,NT和2000下的API拦截技术[J];计算机应用研究;2001年09期
8 朱霞,赵永强;应用API函数提高PowerBuilder程序的友好性[J];计算机系统应用;2001年05期
9 马晓晨;利用文件接口调用Delphi编写的API函数[J];承德石油高等专科学校学报;2002年03期
10 吕钊,李密;在VB下实现游戏控制器端口的数据通信[J];工业控制计算机;2002年06期
中国重要会议论文全文数据库 前10条
1 ;Rice API5 is Involved in Tapetum Degeneration and Pollen Development[A];第十二届全国植物基因组学大会论文集[C];2011年
2 陈兵;高磊;;基于MAYA API的毛发系统实现[A];2011中国电影电视技术学会影视技术文集[C];2011年
3 张薇;沈晓健;李东平;;基于Google API的地震信息地图发布系统[A];“资源保障 环境安全——地质工作使命”华东六省一市地学科技论坛文集[C];2011年
4 陈云超;马兆丰;;基于API函数拦截技术的跨进程攻击防护研究[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
5 陈怡;魏红明;;武汉市创建环保模范城市环境质量指标空气污染指数(API)达标的可行性分析[A];2010中国环境科学学会学术年会论文集(第一卷)[C];2010年
6 杨国峰;谢惊春;冯振文;;API柴油机油CJ-4与CI-4规格的台架对比关系[A];中国汽车工程学会燃料与润滑油分会第十四届年会论文集[C];2010年
7 方翔;吉国力;;Windows环境下数字图象的显示[A];2001中国控制与决策学术年会论文集[C];2001年
8 张晓丽;李鑫;郭智春;;基于ActiveX的钣金参数化建模研究[A];中国计量协会冶金分会2007年会论文集[C];2007年
9 马丽云;曹磊;李杨;刘新春;;乌鲁木齐市不同区域pm_(10)的监测与分析[A];第26届中国气象学会年会第三届气象综合探测技术研讨会分会场论文集[C];2009年
10 王有飞;刘凯;朱二辉;冯莉;张卫东;;渐开线圆柱齿轮参数化建模及运动仿真[A];2005年中国机械工程学会年会论文集[C];2005年
中国重要报纸全文数据库 前10条
1 本报记者 李纪澜;河北元成实业有限公司顺利通过API专家审核[N];现代物流报;2010年
2 中国医保商会 郭晓丹 谈圣采;全球API格局因需求生变[N];医药经济报;2010年
3 杨跃萍;中南装备通过美国API审核[N];中国企业报;2009年
4 爱立信(中国)通信有限公司;电信API轻量级模式 重量级功能[N];通信产业报;2010年
5 周楠;API系统推广一周年助旅客通关提速效果显著[N];中国国门时报;2009年
6 记者 陶文忠 能讯员 郭式新 王云;两项产品通过API认证[N];中国石油报;2001年
7 本报记者 那罡;API:以开放为名的封锁运动[N];中国计算机报;2010年
8 中国医药保健品进出口商会 荣嫡;日本API注册常见问题解答[N];中国医药报;2009年
9 记者 周升友;镇江辅机厂海洋吊机生产通过API认证书[N];中国船舶报;2010年
10 秦长毅;非API油井管评价技术发展与标准化[N];世界金属导报;2010年
中国博士学位论文全文数据库 前10条
1 曾惠珠;不同种类国际油价之发展趋势[D];西南财经大学;2008年
2 徐伟来;hTERT基因在骨髓增生异常综合征中的表达及其在三氧化二砷诱导MUTZ-1细胞凋亡中的作用研究[D];浙江大学;2005年
3 石林;GPU通用计算虚拟化方法研究[D];湖南大学;2012年
4 戚晓利;拟南芥花异常株系AFDL的花发育及基因表达分析[D];东北林业大学;2010年
5 章程;基于机器学习和程序分析相结合的程序调试技术研究[D];上海交通大学;2013年
6 曾颖;基于抽象解释的软件保护相关问题研究[D];解放军信息工程大学;2011年
7 代栋;云计算基础软件平台的研究和实践[D];中国科学技术大学;2013年
8 刘铭;计算机病毒传播模型及防控理论研究[D];华中科技大学;2009年
9 刘云新;面向新一代移动计算平台的系统虚拟化研究与应用[D];上海交通大学;2011年
10 史建琦;面向目标代码的实时操作系统形式化验证方法研究[D];华东师范大学;2012年
中国硕士学位论文全文数据库 前10条
1 韩旭芳;基于开放API的电子商务个性化服务推荐研究[D];石家庄铁道大学;2011年
2 李文强;JCVM API的分析与设计[D];广东工业大学;2013年
3 宋红军;基于Open API实现信息资源共享的应用研究[D];西北大学;2013年
4 左源;电子商务API开放系统的设计与实现[D];华中科技大学;2013年
5 陈博;3G数据业务拨测系统公共支撑库及API接口设计与实现[D];北京邮电大学;2011年
6 张艳艳;标准化的电子病历API设计与实现[D];华南理工大学;2013年
7 雷刚;基于OSSIE的波形开发及API设计实现[D];电子科技大学;2011年
8 高青娟;一种关键字驱动的Java API自动测试框架[D];太原科技大学;2011年
9 刘菲;基于API Hook技术的Bot检测方法的研究与实现[D];东北大学;2009年
10 邵向阳;基于HOOK API技术的进程监控系统的设计与实现[D];郑州大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026