收藏本站
《解放军信息工程大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

中文分词技术在公安信息系统中的应用研究

魏进  
【摘要】: 为了达到在保障整体分词效率和准确率基础上充分保障公安信息分析重要词汇切分的需求,本文利用公安信息文本的特点设计开发了公安信息系统分词系统(WSSPIS)。 公安信息文本具有以下特点;1、未登录人名、地名繁多;2、专有名词繁多;3、信息按固定格式书写;4、类似信息和后续信息较多。 本文首先设计了SAFM词典机制,该机制便于构建各种专有词汇词典,同时可以利用特点4将已识别的未登录词方便地加入词典以提高分词效率和准确性。在SAFM词典的基础上实现了全切分算法,在全切分的基础上设计了SDOS歧义识别机制,该机制能够识别所有的歧义字段,对于SDOS识别出的所有歧义字段采用SDOSD歧义处理策略有效地减少了歧义处理工作量,在SDOSD歧义处理策略的基础上设计了WSSPIS的歧义处理策略,该策略能够有效地保证重要词汇在歧义处理中的正确切分。对于重要的未登录人名和地名则利用特点3做重复子串的抽取以保证这些词汇能够被有效识别。 实验显示WSSPIS对于公安信息文本具有较快的切分速度和较高的准确率,能够满足公安信息系统的需求。
【学位授予单位】:解放军信息工程大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP319

免费申请
【引证文献】
中国硕士学位论文全文数据库 前1条
1 孙英;电子病历的XML存储检索关键技术研究[D];电子科技大学;2009年
【参考文献】
中国期刊全文数据库 前10条
1 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报;2000年03期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 马颖华,王永成,苏贵洋;一种在汉语文本中抽取重复字串的快速算法[J];电子学报;2002年S1期
4 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
5 刘禹孜,何中市;一种基于SVM和规则消除组合型歧义的算法[J];重庆大学学报(自然科学版);2005年10期
6 翟凤文;赫枫龄;左万利;;基于统计规则的交集型歧义处理方法[J];吉林大学学报(理学版);2006年02期
7 谭琼,史忠植;分词中的歧义处理[J];计算机工程与应用;2002年11期
8 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
9 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
10 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期
中国硕士学位论文全文数据库 前9条
1 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
2 王源媛;中文未登录名词短语的识别方法研究[D];重庆大学;2004年
3 杨超;基于最大匹配的书面汉语自动分词研究[D];湖南大学;2004年
4 温滔;自适应歧义切分的汉语分词系统的设计与实现[D];苏州大学;2005年
5 代建英;汉语自动分词系统的研究与实现[D];重庆大学;2005年
6 刘禹孜;汉语自动分词中排除歧义字段算法的研究[D];重庆大学;2005年
7 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
8 贺胜;面向现代汉语文本处理的全文检索、自动分词通用系统[D];南京师范大学;2006年
9 许顺;中文分词规范可计算化的研究与实现[D];苏州大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 高艳萍;于红;尹祥贵;綦孝姬;王春永;赵志强;;基于双数组Trie树的渔业领域分词研究[J];安徽农业科学;2008年11期
2 程节华;自动分词中的歧义字段分析及处理[J];安徽农业技术师范学院学报;2000年03期
3 白晓梅;张福利;;校园网中文搜索引擎系统的设计[J];鞍山师范学院学报;2006年06期
4 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
5 胡锡衡;;垃圾邮件过滤系统模型的研究与设计[J];鞍山师范学院学报;2009年02期
6 耿新青;陶凤梅;黄宏光;;一种基于近邻匹配的中文分词算法Jlppeccz[J];鞍山师范学院学报;2010年04期
7 胡锡衡;;径向基函数在文本分类中的应用[J];鞍山师范学院学报;2011年02期
8 赵成龙,薛欣;基于WEB的智能答疑系统的设计与实现[J];安阳师范学院学报;2004年02期
9 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
10 胡顺义;赵晓凡;;基于PB的汉语电子词典管理系统设计与实现[J];安阳师范学院学报;2010年05期
中国重要会议论文全文数据库 前10条
1 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 徐艳华;;面向自动分词的三音节新词语构词法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 潘雪莲;;词频统计在词典收词中的作用[A];中国辞书论集2001[C];2001年
4 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
5 王慧慧;杨国纬;;基于事例的问答系统研究[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
6 安娜;刘海涛;侯敏;;语料库中熟语的标记问题[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
7 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
8 傅思泉;;机器词典中按韵分词及虚词问题[A];江西省语言学会第五届会员大会暨2002年学术年会论文集[C];2002年
9 刮俊杰;吴树国;伊胜伟;;基于词效应的中文术语提取方法[A];第三届中国智能计算大会论文集[C];2009年
10 何伟;侯敏;;利用词汇时间分布信息提取未登录词[A];第九届全国人机语音通讯学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
2 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
3 赵威;电网数据中心的数据安全问题研究[D];燕山大学;2011年
4 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
5 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
6 单建芳;面向事件的文本表示研究[D];上海大学;2012年
7 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
8 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
9 何婷婷;语料库研究[D];华中师范大学;2003年
10 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
中国硕士学位论文全文数据库 前10条
1 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
2 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
3 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
4 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
5 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年
6 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
7 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
8 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
9 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
10 冯晶晶;面向软件测试领域的自动问答系统[D];河南理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 吴永英,雷红利,许向阳;一种自底向上构造索引B~+树的方法[J];计算机工程与应用;2004年06期
2 杨健,熊前兴,陶强,唐国胜;XML文档架构与关系数据模型间的映射研究[J];计算机工程与应用;2004年27期
3 李由,肖卫东,徐振宁,汤大权,黄凯歌;XML数据库存储技术的研究与实现[J];计算机工程;2002年07期
4 宋枫溪,郑如冰,王积忠;自动文本分类中两种文本表示方式的比较[J];计算机工程;2004年18期
5 陆志峰;B~+树阶数m的最优选取[J];计算机应用与软件;2002年07期
6 毛莉,梁为;XQuery中表达式的研究及实例分析[J];计算机与现代化;2003年09期
7 周水庚,关佶红,俞红奇,胡运发;基于Ngram信息的中文文档分类研究[J];中文信息学报;2001年01期
8 陆志峰,陈新建;B~+树索引文件结构的优化设计[J];计算机工程与设计;2000年03期
9 李骥,陈福生;Native-XML数据库综述[J];计算机工程与设计;2004年06期
10 刘政怡,谢荣传,李伟;XQuery查询语言的规范化[J];微机发展;2003年06期
中国硕士学位论文全文数据库 前1条
1 余本功;基于HL7标准的电子病历(EPR)研究[D];合肥工业大学;2005年
【二级引证文献】
中国期刊全文数据库 前1条
1 俞磊;陆阳;田一鸣;朱晓玲;;医院物联网体系结构和关键技术研究[J];传感器与微系统;2012年06期
中国硕士学位论文全文数据库 前1条
1 崔隽;基于医疗系统的异构数据共享的研究与设计[D];吉林大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
2 文庭孝;情报检索中汉语语词自动切分研究[J];图书与情报;2001年02期
3 麻志毅,林鸿飞,姚天顺,马佳琳;基于情境的文本中的时间信息分析[J];东北大学学报;1999年03期
4 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
5 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
6 亢临生,张永奎;利用分词属性解决歧义切分[J];电脑开发与应用;1994年04期
7 王国胜,钟义信;支持向量机的若干新进展[J];电子学报;2001年10期
8 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
9 吴应良,韦岗,李海洲;一种基于N-gram模型和机器学习的汉语分词算法[J];电子与信息学报;2001年11期
10 王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前1条
1 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
中国硕士学位论文全文数据库 前10条
1 王省;基地统计和规则的中文姓名识别系统的研制[D];大连理工大学;2000年
2 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年
3 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
4 关宏超;基于统计的开放式汉语自动分词[D];大连理工大学;2002年
5 张丽静;规则与统计相结合的兼类词处理机制[D];大连理工大学;2002年
6 傅赛香;基于Internet的智能信息检索技术研究[D];广西师范大学;2002年
7 许林杰;中文文本分词研究[D];山东师范大学;2003年
8 刘东旭;在自然汉语中进行分词和词性标注[D];电子科技大学;2003年
9 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
10 梁以敏;基于统计的汉语词性标注方法的研究[D];大连理工大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 陈建秋,邓飞其,刘发贵;智能化搜索引擎分析与探讨[J];广州大学学报(自然科学版);2002年03期
2 ;公安信息系统研究[J];警察技术;2008年05期
3 陈雷霆,张宁;基于中文题名的计算机辅助标引[J];计算机应用;1999年06期
4 翁闻彬;;以用户体验为中心的交互设计——浅议公安信息系统的人机界面设计[J];警察技术;2008年02期
5 县小平;;对中文搜索引擎缺陷的思考[J];科技信息;2009年06期
6 ;日子很长路也很长[J];中国计算机用户;1998年34期
7 黄建设,姚奇富;数据挖掘技术在犯罪行为分析中的应用[J];浙江工商职业技术学院学报;2005年03期
8 萧莉明;于宽;蔡珣;;一种基于Bayes分类器的中文期刊自动分类系统[J];现代情报;2007年04期
9 阙镭;张亚平;;搜索引擎技术研究[J];中山大学学报论丛;2007年07期
10 吴栋,滕育平;中文信息检索引擎中的分词与检索技术[J];计算机应用;2004年07期
中国重要会议论文全文数据库 前10条
1 王爱莲;秦月明;;应用于信息管理的全文检索系统中关键技术的分析与设计[A];全国ISNBM学术交流会暨电脑开发与应用创刊20周年庆祝大会论文集[C];2005年
2 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 江涛;于洪志;徐涛;;互联网藏文内容安全检测过滤系统研究[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
4 黄昌宁;林娟;孙承杰;;何谓金本位[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 王会珍;朱靖波;陈文亮;季铎;张斌;;基于一元语法模型的中文话题追踪[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 孙宇;刘憬;张宇;刘挺;;基于分词和倒排索引的短文本检索技术的研究与实现[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
7 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
8 陈沛;;搜索的未来[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
10 康海燕;樊孝忠;马礼;;自然语言理解的检索技术在数字图书馆中的应用[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国重要报纸全文数据库 前10条
1 苏红 丁震;公安信息系统一应用示范工程试点结束[N];人民公安报;2005年
2 杨凤鸣;科学构建公安信息系统[N];人民公安报;2005年
3 本报评论员 张伟杰;如何化解公民的“身份证烦恼”[N];工人日报;2010年
4 ;科技强警助推执法 管理工作水平提升[N];人民公安报·交通安全周刊;2009年
5 记者 冯锐 肖海员;抓住重点 攻克难点 推出亮点[N];人民公安报;2009年
6 陆元婕;聪明的搜索引擎[N];中国计算机报;2001年
7 见习记者 蒋杨艳 通讯员 梁文军;走近一级派出所[N];恩施日报;2009年
8 记者 杨淑珍;只争朝夕推进信息化建设[N];人民公安报;2009年
9 莫水土;信息围墙一拆 效率紧跟而来[N];人民公安报;2007年
10 楚雄州公安局 赵云;用科学发展观指导公安信息化建设[N];楚雄日报(汉);2009年
中国博士学位论文全文数据库 前2条
1 段建华;基于WebGIS的分布式接处警系统研究[D];中国地质大学(北京);2010年
2 杨旸;基于机器学习方法的生物序列分类研究[D];上海交通大学;2009年
中国硕士学位论文全文数据库 前10条
1 魏进;中文分词技术在公安信息系统中的应用研究[D];解放军信息工程大学;2007年
2 左川;基于非分词技术的科技项目查重研究与实现[D];重庆大学;2010年
3 王茜;基于字符串匹配的中英文混合分词技术研究[D];四川师范大学;2011年
4 尹睿;我国公安信息系统建设理论与实践研究[D];华中师范大学;2002年
5 刘海龙;基于WEB技术的公安信息系统的研究与实现[D];华北电力大学(河北);2010年
6 张颖颖;基于本体和分词技术的非结构化工艺知识管理系统[D];南京航空航天大学;2010年
7 胡佳平;公安信息系统中数据集成的[D];电子科技大学;2011年
8 李圆媛;公安基层综合信息管理系统[D];武汉大学;2005年
9 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
10 王智慧;基于自然语言理解的自动应答技术及应用研究[D];西安电子科技大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026