收藏本站
《浙江大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于公安业务信息的文本挖掘技术研究与实现

徐亚娟  
【摘要】: 随着计算机的普及以及互联网技术的飞速发展,公安领域的文本信息量越来越庞大,不论是现有的文本数据库,还是网页实时更新的文本信息,这使公安部门迫切需要一些自动化的工具,以帮助业务人员在海量的信息中快速有效的获取所需要的案件信息,从而使犯罪信息的文本挖掘技术成为数据挖掘中一个研究的热点课题。 目前在文本挖掘领域,对自由文本的处理上,主要的技术大部分都集中在中文分词、文本特征提取、分类、聚类算法上,系统地将这些方法融合在一起应用于实际领域的研究还比较欠缺。本文在分析了文本挖掘各种技术的基础上,提出了一种基于案例相似性计算的文本信息挖掘模型,该模型能够有效地解决传统的文本挖掘系统抽取特征语义信息缺乏、表达能力薄弱等问题。 该文本挖掘模型主要由案件相似性判别以及文本聚类两部分组成。在案件相似性计算中,模型借助改进的中文分词算法,提出了一种基于案件分解的知识匹配方法,该方法通过对案件文本信息的关键词抽取以及匹配计算,有效地增强了相似案件匹配语义分析能力,提高了系统的准确率。该方法不仅增强了单一案例的知识表达能力,大大减少了案件库中相似案件的数量,同时也增强了案件知识库的学习能力。在文本聚类中,模型主要是在分析网页案件信息的基础上,实现了K-Means算法的应用。该方法按照文本信息的关键字聚类,有效地实现了相似网页信息的归并。
【关键词】:文本挖掘 中文分词 关键词抽取 匹配 相似性 文本聚类
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP311.13
【目录】:
  • 摘要3-4
  • Abstract4-10
  • 第1章 绪论10-16
  • 1.1 课题背景10-11
  • 1.2 国内外研究现状分析11-12
  • 1.3 难点与创新12-14
  • 1.3.1 难点12-14
  • 1.3.2 创新14
  • 1.4 论文研究内容14-16
  • 第2章 中文文本挖掘的关键技术16-33
  • 2.1 文本挖掘的一般处理过程16-17
  • 2.2 中文分词技术17-22
  • 2.2.1 进行分词的原因17
  • 2.2.2 中文分词的方法17-21
  • 2.2.3 中文分词技术面临的难题21-22
  • 2.3 文本抽取技术22-26
  • 2.3.1 信息抽取的一般流程23-24
  • 2.3.2 自由文本的信息抽取技术24-26
  • 2.4 特征提取26-28
  • 2.4.1 进行特征提取的原因26-27
  • 2.4.2 文本特征表示27
  • 2.4.3 特征提取的方法27-28
  • 2.5 文本分类28-30
  • 2.5.1 文本分类的一般过程28-29
  • 2.5.2 常用的分类算法29-30
  • 2.6 文本聚类30-32
  • 2.6.1 层次聚类法(Hierarchical Methods)30-31
  • 2.6.2 平面划分法(Partitioning Methods)31-32
  • 2.7 本章小结32-33
  • 第3章 犯罪信息的文本分析及相关数据库设计33-38
  • 3.1 犯罪信息文本挖掘系统的总体思路33-34
  • 3.2 数据源分析34
  • 3.3 犯罪信息文本与一般文本的区别34-36
  • 3.4 犯罪信息文本挖掘模型的数据库设计36-37
  • 3.5 小结37-38
  • 第4章 犯罪信息文本挖掘模型的设计实现38-57
  • 4.1 犯罪信息文本挖掘模型的工作流程38-39
  • 4.2 犯罪信息文本挖掘模型的设计实现39-56
  • 4.2.1 总体功能设计39-40
  • 4.2.2 犯罪信息的文本预处理40-44
  • 4.2.3 犯罪信息文本挖掘模型中的中文分词技术44-48
  • 4.2.4 犯罪信息的数据抽取功能设计与实现48-53
  • 4.2.5 案件相似度的计算53-54
  • 4.2.6 犯罪信息的文本聚类54-56
  • 4.3 本章小结56-57
  • 第5章 犯罪信息文本挖掘模型的实验与结果分析57-65
  • 5.1 短文本相似性判别的实验与结果分析57-61
  • 5.2 网页文本聚类的实验和结果分析61-64
  • 5.3 本章小结64-65
  • 第6章 总结和展望65-67
  • 6.1 总结65-66
  • 6.2 对公安文本挖掘平台的展望66-67
  • 参考文献67-71
  • 致谢71-72
  • 作者简历72

【引证文献】
中国期刊全文数据库 前5条
1 管瑞霞;陆蓓;;TFLD:一种中文文本关键词自动提取方法[J];机电工程;2010年09期
2 张文鹏;王兴;;基于中文关键词提取的预案智能匹配方案[J];科学技术与工程;2012年21期
3 何保锋;张军丽;;基于框架理论的应急预案智能匹配方案[J];科学技术与工程;2012年26期
4 郭金龙;许鑫;陆宇杰;;人文社会科学研究中文本挖掘技术应用进展[J];图书情报工作;2012年08期
5 金保华;林青;吴怀广;;基于中文关键词提取的预案智能匹配方案[J];郑州轻工业学院学报(自然科学版);2013年02期
中国硕士学位论文全文数据库 前4条
1 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
2 贾俊凯;公安业务文本信息挖掘的研究与实现[D];东华大学;2011年
3 陈慧炜;刑事案件文本信息抽取研究[D];南京师范大学;2011年
4 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年
【参考文献】
中国期刊全文数据库 前10条
1 宋东风;张志浩;;短文本数据的自动分类[J];电脑与信息技术;2007年01期
2 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
3 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
4 邹涛,王继成,朱华宇,金翔宇,张福炎;WWW上的信息挖掘技术及实现[J];计算机研究与发展;1999年08期
5 胥桂仙,苏筱蔚,陈淑艳;中文文本挖掘中的无词典分词的算法及其应用[J];吉林工学院学报(自然科学版);2002年01期
6 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
7 徐凤亚,罗振声;文本自动分类中特征权重算法的改进研究[J];计算机工程与应用;2005年01期
8 李飞;薛彬;黄亚楼;;初始中心优化的K-Means聚类算法[J];计算机科学;2002年07期
9 王丽坤;王宏;陆玉昌;;文本挖掘及其关键技术与方法[J];计算机科学;2002年12期
10 蒋澄,马范援,蒋思杰;中英文WWW搜索引擎的信息处理[J];计算机工程;1999年04期
【共引文献】
中国期刊全文数据库 前10条
1 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
2 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
3 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
4 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
5 章曙光;耿焕同;;一种改进的基于聚类的范例添加删除维护模型[J];安徽建筑工业学院学报(自然科学版);2006年01期
6 李永森;潘若愚;李传军;;公共设施选址优化研究[J];安徽建筑工业学院学报(自然科学版);2009年06期
7 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
8 李红梅;贺小扬;王雪冬;;粗糙集理论在农业知识发现中的应用研究[J];安徽农业科学;2008年06期
9 唐超礼;魏圆圆;;基于数据挖掘的植保预测系统[J];安徽农业科学;2008年12期
10 耿焕同,陈少军;一种基于传统VSM和词共现概念的中文文本聚类的研究[J];安徽师范大学学报(自然科学版);2005年01期
中国重要会议论文全文数据库 前10条
1 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 查星云;;一种钢铁企业金属损耗平衡分析方法[A];全国冶金自动化信息网2012年年会论文集[C];2012年
3 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 余骁捷;邵阳;吴及;王侠;;基于SVM和MMR融和的自动文摘方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
5 汤广富;马春实;刘欢;付强;;模糊聚类快速实用方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
6 由立真;穆志纯;;基于GHSOM网络预测客户欺诈行为[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
7 韦艳艳;李陶深;;基于Stacking框架的学习机制研究[A];广西计算机学会2004年学术年会论文集[C];2004年
8 令狐大智;李陶深;;一种面向混合数据的自反馈模糊聚类分析算法[A];广西计算机学会2007年年会论文集[C];2007年
9 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
10 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
3 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
4 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
5 戴小鹏;知识网格及其在农业生物灾害预警中关键技术研究[D];湖南农业大学;2010年
6 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
7 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
8 陈进杰;城市轨道交通项目广义全寿命周期成本理论与应用研究[D];北京交通大学;2011年
9 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年
10 叶小飞;基于自发呈报系统与循证医学的药品不良反应信号挖掘[D];第二军医大学;2011年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
3 白冰;基于数据处理中心的企业竞争情报系统研究[D];山东科技大学;2010年
4 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
5 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
6 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
7 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
8 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
9 冯为军;基于粗糙集理论的数据挖掘算法的研究[D];哈尔滨工程大学;2010年
10 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
2 林鸿飞,高天,姚天顺;中文文本的可视化表示[J];东北大学学报;2000年05期
3 余战秋;中文分词技术及其应用初探[J];电脑知识与技术;2004年32期
4 李学俊;;基于分词算法&VSM的文本主观题自动评分算法研究[J];电脑知识与技术;2011年25期
5 熊小梅;刘永浪;;基于LSA的二次降维法在中文法律案情文本分类中的应用[J];电子测量技术;2007年10期
6 冯元勇;孙乐;张大鲲;李文波;;基于小规模尾字特征的中文命名实体识别研究[J];电子学报;2008年09期
7 叶福军;;文本数据挖掘在数字图书馆中的应用研究[J];硅谷;2009年07期
8 刘莉;;数据挖掘技术在《公安科技信息》数据库中的运用[J];中国人民公安大学学报(自然科学版);2006年01期
9 王维娜;康耀红;伍小芹;;文本分类中特征选择方法研究[J];信息技术;2008年12期
10 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
中国重要会议论文全文数据库 前2条
1 丁堃;李鑫;;基于有序聚类方法的我国知识管理学科的发展历程研究[A];繁荣·和谐·振兴——辽宁省哲学社会科学首届学术年会获奖成果文集[C];2007年
2 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前6条
1 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
2 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
3 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
4 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
5 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
6 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前10条
1 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
2 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年
3 叶娜;面向信息抽取的文本预处理和规则自动学习技术研究[D];东北大学;2005年
4 吴雪军;面向信息抽取的命名实体识别与模板获取技术研究[D];东北大学;2005年
5 苟全登;基于XML的半结构化Web信息提取的研究[D];电子科技大学;2006年
6 廖先桃;中文命名实体识别方法研究[D];哈尔滨工业大学;2006年
7 龚静;中文文本聚类中特征选择算法的研究[D];湘潭大学;2006年
8 冯礼;基于事件框架的突发事件信息抽取[D];上海交通大学;2008年
9 苏劲松;全宋词语料库建设及其风格与情感分析的计算方法研究[D];厦门大学;2007年
10 徐学可;网页文本分类及其在搜索引擎中的应用[D];北京工业大学;2008年
【二级引证文献】
中国期刊全文数据库 前4条
1 齐凌艳;陈荣国;;位置服务的上下文信息模型[J];地球信息科学学报;2014年02期
2 张诗博;;“数字人文”背景下的图书馆知识服务[J];晋图学刊;2013年05期
3 邵晓根;鞠训光;胡局新;马忠伟;;基于改进权重的贝叶斯推理和TFIDF算法文本主题词提取研究[J];南京师大学报(自然科学版);2014年01期
4 孙颖;冯晨旭;;科学知识图谱对人文社会科学研究情报质量的优化——以基于CiteSpace的完美主义热点研究为例[J];图书情报工作;2013年S1期
中国硕士学位论文全文数据库 前7条
1 简璐瑶;基于领域本体的公安案情文本挖掘研究[D];南昌大学;2012年
2 苏挺;中山市公安局情报信息系统的设计与实现[D];电子科技大学;2013年
3 王海如;警用互联网情报采集编辑系统的设计与实现[D];上海交通大学;2012年
4 巩玲玲;英语试题关键词重要性评价算法研究[D];北方工业大学;2013年
5 陆宇杰;中文微博情感分析及其应用[D];华东师范大学;2013年
6 陈泓洁;利用在线评论获取酒店客户知识的研究[D];华东师范大学;2013年
7 李艳;基于本体的毒品案件信息抽取研究[D];西北大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 唐菁;Web文本挖掘系统及聚类算法的研究[J];电信建设;2004年02期
2 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报;2000年03期
3 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
4 史磊,王永成;英文文献自动摘要系统的研制与开发[J];高技术通讯;1999年11期
5 马颖华,王永成,苏贵洋,韩客松,赵海;自动标引中基于概念层次树的主题词轮排选择的算法实现[J];高技术通讯;2003年06期
6 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
7 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
8 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
9 周水庚,周傲英,曹晶;基于数据分区的DBSCAN算法[J];计算机研究与发展;2000年10期
10 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026