收藏本站
《东华大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

公安业务文本信息挖掘的研究与实现

贾俊凯  
【摘要】:文本挖掘技术是计算机数据挖掘领域的关键技术之一。目前,文本挖掘技术在很多领域都取得了很大的发展,然而,由于公安系统的数据的保密性及其数据特有的复杂性,使得文本挖掘技术在公安信息领域发展缓慢。随着网络信息化的不断发展,公安信息部门获得的文本数据越来庞大,这使其迫切需要一种智能的方式来处理收集到的文本数据,因此面向公安的文本挖掘成为公安信息技术部门面临的一个重要课题。 在公安文本数据挖掘方面,目前需要解决的问题在中文分词、文本聚类、文本分类等几个主要技术点上,本文在分析了公安文本挖掘的特点的前提下,主要围绕文本聚类这一技术点做了一下工作: 研究了文本聚类算法。分析了常用的文本聚类算法,并根据这些算法的特点,指出其算法本身以及在公安文本聚类中的不足。 研究了公安文本的结构特点。分析了公安文本的数据来源,及常用数据的结构特点,针对其本身的结构特点,提出满足文本聚类必须符合的条件。 重点研究了神经网络在数据聚类中的运用。分析了SOM和GSOM两种模型,根据两者的优缺点提出了一种改进的神经网络模型,同时对新提出的神经网络模型进行了仿真聚类实验。实验证明,该模型在聚类算法上有较大的优势。 最后,根据公安文本数据的特点,将新的神经网络模型运用于公安文本挖掘中,解决了公安文本挖掘中文本聚类这一课题。
【学位授予单位】:东华大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前8条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
2 王丽坤;王宏;陆玉昌;;文本挖掘及其关键技术与方法[J];计算机科学;2002年12期
3 苏贵洋;王永成;马颖华;;个性化浏览中网页推荐的结构模型[J];计算机科学;2003年04期
4 张宁,贾自艳,史忠植;使用KNN算法的文本分类[J];计算机工程;2005年08期
5 王永恒;贾焰;杨树强;;海量短语信息文本聚类技术研究[J];计算机工程;2007年14期
6 黄河燕,陈肇雄;基于多策略分析的复杂长句翻译处理算法[J];中文信息学报;2002年03期
7 马辉民;李卫华;吴良元;;VSM在中文文本聚类中的应用及实证分析[J];武汉理工大学学报(信息与管理工程版);2006年04期
8 孙丽华,张积东,李静梅;一种改进的kNN方法及其在文本分类中的应用[J];应用科技;2002年02期
中国博士学位论文全文数据库 前1条
1 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
中国硕士学位论文全文数据库 前3条
1 龚静;中文文本聚类中特征选择算法的研究[D];湘潭大学;2006年
2 徐亚娟;基于公安业务信息的文本挖掘技术研究与实现[D];浙江大学;2008年
3 曾路平;基于相似度的文本聚类算法研究及应用[D];江苏大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
2 李玉鑑;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期
3 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
4 王金凤;一种基于特征聚合理论和LSI的文本分类新方法[J];北京理工大学学报(社会科学版);2004年05期
5 王纪辉;赵卓宁;;基于协同过滤算法的电子商务网站个性化推荐系统设计[J];成都信息工程学院学报;2007年S1期
6 李湘云;;ISODATA动态聚类算法在文本挖掘中的应用[J];长春工程学院学报(自然科学版);2007年02期
7 刘元凤;周荣福;李凤玲;;基于文本的地理空间数据挖掘与可视化[J];测绘科学;2010年04期
8 肖红;刘淑华;;一种文本多级分类方法研究[J];长江大学学报(自然科学版)理工卷;2008年02期
9 吕佳;;基于改进分类模型的文本分类系统实现[J];重庆师范大学学报(自然科学版);2009年02期
10 屈赟;杨捧;张文静;;基于信息粒度的主题相似性信息检索[J];河北农业大学学报;2011年01期
中国重要会议论文全文数据库 前10条
1 吴保民;郭永辉;王炳锡;;英汉机译系统中基于规则的句子结构分析与转换[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国人机交互学术会议(CHCI'06)论文集[C];2006年
2 罗海飞;虞立群;章志凌;邵晓敏;陈林;汪更生;陈弈秋;何伟杰;;一种改进型CHI的特征抽取方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
3 伍建军;康耀红;;关于文本分类中特征降维方式的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
4 黄建传;宋柔;;标点句标注研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 张爱华;靖红芳;王斌;徐燕;;文本分类中特征权重因子的作用研究[A];第五届全国信息检索学术会议论文集[C];2009年
6 孙承杰;朱文焕;林磊;刘远超;;BBS短文本聚类技术研究[A];第五届全国信息检索学术会议论文集[C];2009年
7 王珍;维尼拉·木沙江;赵丽红;;维、哈、柯文搜索引擎中自动分类技术的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
8 赵燕平;李超;;网络安全信息挖掘中的特征选择与专利分析研究[A];2004年中国管理科学学术会议论文集[C];2004年
9 沈志斌;白清源;;基于加权修正的KNN文本分类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
10 王慧芳;张勇;邢春晓;张文珂;杨吉江;;文本摘要算法集成与实现[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国博士学位论文全文数据库 前10条
1 李颖玉;基于语料库的欧化翻译研究[D];上海外国语大学;2010年
2 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
5 方向红;基于内涵逻辑的现代汉语连接词及关联句式语义研究[D];上海师范大学;2004年
6 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
7 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
8 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
9 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年
10 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 白冰;基于数据处理中心的企业竞争情报系统研究[D];山东科技大学;2010年
2 王月;改进的模糊C-均值算法在文本聚类中的应用研究[D];辽宁工程技术大学;2009年
3 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
4 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
5 程淑玉;基于协同过滤算法的个性化推荐系统的研究[D];合肥工业大学;2010年
6 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
7 王雅菲;文本分类中特征降维方法的研究[D];长春工业大学;2010年
8 王阿婷;基于概念集合的网页内容过滤方法的研究[D];北京交通大学;2010年
9 李福转;基于内容的垃圾邮件过滤技术的研究[D];电子科技大学;2010年
10 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
2 朱靖波,姚天顺;词义自动消歧概率模型[J];东北大学学报;2000年05期
3 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
4 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
5 宋东风;张志浩;;短文本数据的自动分类[J];电脑与信息技术;2007年01期
6 吴佑寿,丁晓青;树分类器性能分析[J];电子学报;1991年04期
7 黄萱菁,吴立德,郭以昆,刘秉伟;现代汉语熵的计算及语言模型中稀疏事件的概率估计[J];电子学报;2000年08期
8 王学文,丁晓青,刘长松;基于Gabor变换的高鲁棒汉字识别新方法[J];电子学报;2002年09期
9 吴佑寿,徐宁,丁晓青;一种用于神经网络汉字识别系统的自组织聚类方法[J];电子学报;1994年05期
10 陈肇雄,高庆狮;智能化英汉机译系统IMT/EC[J];中国科学(A辑 数学 物理学 天文学 技术科学);1989年02期
中国博士学位论文全文数据库 前1条
1 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
中国硕士学位论文全文数据库 前1条
1 朱红灿;基于SOM的两阶段中文文本聚类算法的研究[D];湘潭大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 韩腊萍,余雪丽;一个分布式入侵检测系统框架设计[J];计算机工程;2004年13期
2 郭庆琳,樊孝忠;基于文本聚类和NLU的自动文摘系统的研究与实现[J];现代电力;2004年04期
3 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
4 郭庆琳;樊孝忠;柳长安;;基于文本聚类的自动文摘系统的研究与实现[J];计算机工程;2006年04期
5 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
6 姚清耘;刘功申;李翔;;基于向量空间模型的文本聚类算法[J];计算机工程;2008年18期
7 门国尊;;用于信息检索的文本聚类技术[J];今日科苑;2008年20期
8 李众;梁志剑;;一种改进的文本聚类算法[J];陕西科技大学学报(自然科学版);2008年06期
9 张春炉;沈建京;;基于SOM算法的文本聚类实现[J];计算机与现代化;2010年01期
10 马玉春,宋瀚涛;基于搜索引擎的知识发现[J];计算机工程与应用;2004年30期
中国重要会议论文全文数据库 前10条
1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
5 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 罗娜;左万利;袁福宇;张靖波;张慧杰;;使用本体语义提高文本聚类(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
8 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
9 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
10 黎琳;;Web内容挖掘在数字图书馆中的应用[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年
中国重要报纸全文数据库 前2条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
3 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
4 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
5 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
6 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
7 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
8 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
9 王乐;短语消息聚类相关技术研究[D];国防科学技术大学;2008年
10 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
2 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
3 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
4 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
5 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
6 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
7 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
8 刘延亮;一种文本聚类原型系统的设计与实现[D];大连理工大学;2006年
9 谷波;基于粗集模型的聚类方法及其在文献过滤系统中的应用[D];山西大学;2004年
10 胡海龙;基于改进的后缀树算法的中英文聚类引擎的实现[D];吉林大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026