收藏本站
《北京大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

面向移动端的用户检索实体抽取系统设计与实现

曹圣明  
【摘要】:实体抽取作为自然语言处理的基本任务,在深度学习兴起之际,又取得了一系列突破性的进展。它作为问答系统、人机对话和机器翻译等任务的基础部分,所起的作用是不可替代的。而近来,随着人工智能的兴起和智能语义交互需求的增加,用户检索中的实体抽取成为很重要的一项功能,它相对于传统命名实体识别具有更宽广的领域需求,更严格的精度和准度需求以及更复杂的用户交互逻辑。我们可以借助实体识别结果,完成一系列的资源请求和服务分发,完成用户的需求,以及引导用户的潜在需求,这是新型的文本交互中非常重要的一环。本文基于此目标实现了线上和线下两套系统,其核心系统是实体抽取功能,辅以必要的模式匹配模块,以满足用户的热点需求和修正模型的识别缺陷。关于实体抽取部分,我们主要基于tensorflow框架对模型进行训练、调优和部署。在基线部署上,本文创新性地采用了seq2seq结构,实现了命名实体识别的基础框架;然后根据训练数据规模、输入模块粒度、归一化和注意力机制等对基线模型进行了调优;最后从词向量生成方法、注意力机制和新型模型三个方面对模型的结构进行了改进和优化。最终使得模型的效果提高了10多个点。在算法迭代过程中,我们通过整合模型和词向量增强,取得了最优的结果。最后,我们在微软的命名实体识别公开测试集上进行了模型的测试,并达到了比较好的结果。CNN编码器的实践、注意力机制的深度探讨以及实体去歧模型的调研,将作为本文后续的研究方向。其次在移动端的模型部署上,本文还针对硬件和软件两个方面进行了深层次的优化。软件方面,我们分别进行了模型压缩和数据结构优化;硬件方面则进行了依赖分离和硬件适配。总的来说,较好地解决了深度学习模型在移动端部署时所存在的内存占用高、执行效率低等问题,里边的诸多解决方法有很多值得借鉴的地方。
【学位授予单位】:北京大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前9条
1 冯元勇;孙乐;张大鲲;李文波;;基于小规模尾字特征的中文命名实体识别研究[J];电子学报;2008年09期
2 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
3 向晓雯,史晓东,曾华琳;一个统计与规则相结合的中文命名实体识别系统[J];计算机应用;2005年10期
4 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
5 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
6 季姮,罗振声;基于统计和规则的中文姓名自动辨识[J];语言文字应用;2001年01期
7 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
8 张小衡,王玲玲;中文机构名称的识别与分析[J];中文信息学报;1997年04期
9 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
【共引文献】
中国期刊全文数据库 前10条
1 Yanping Chen;Qinghua Zheng;Feng Tian;Deli Zheng;;A Segmentation Matrix Method for Chinese Segmentation Ambiguity Analysis[J];中文計算語言學期刊;2016年01期
2 洛桑嘎登;赵小兵;;藏文词级处理研究现状及热点方法[J];电脑知识与技术;2015年32期
3 官却多杰;;机器翻译用藏文自动分词探究[J];电子测试;2015年22期
4 刘宝菊;陶宏才;;基于隐马尔可夫的商标词识别[J];成都信息工程学院学报;2015年06期
5 李健;;面向智能电网的多领域海量文本过滤框架研究[J];电力信息与通信技术;2015年11期
6 洛桑嘎登;杨媛媛;赵小兵;;基于知识融合的CRFs藏文分词系统[J];中文信息学报;2015年06期
7 Jie ZHOU;Bi-cheng LI;Gang CHEN;;基于中文维基的大规模命名实体识别语料自动生成方法(英文)[J];Frontiers of Information Technology & Electronic Engineering;2015年11期
8 陈慧;;中文组织名资源库的建设与应用[J];人文丛刊;2014年00期
9 陈鸿;金培权;岳丽华;胡玉娟;殷凤梅;;基于上下文特征分类的评论长句切分方法[J];计算机工程;2015年09期
10 尹存燕;黄书剑;戴新宇;陈家骏;;中英命名实体识别及对齐中的中文分词优化[J];电子学报;2015年08期
【二级参考文献】
中国期刊全文数据库 前10条
1 姜维;王晓龙;关毅;赵健;;基于多知识源的中文词法分析系统[J];计算机学报;2007年01期
2 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[J];通信学报;2006年02期
3 刘非凡;赵军;吕碧波;徐波;于浩;夏迎炬;;面向商务信息抽取的产品命名实体识别研究[J];中文信息学报;2006年01期
4 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
5 庄明,老松杨,吴玲达;一种统计和词性相结合的命名实体发现方法[J];计算机应用;2004年01期
6 张仰森,徐波,曹元大;自然语言处理中的语言模型及其比较研究[J];广西师范大学学报(自然科学版);2003年01期
7 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
8 黄德根,杨元生,王省,张艳丽,钟万勰;基于统计方法的中文姓名识别[J];中文信息学报;2001年02期
9 季姮,罗振声;基于统计和规则的中文姓名自动辨识[J];语言文字应用;2001年01期
10 高升,贾文举,王晓龙,姜亚学;一个基于互信息的规则量化方法[J];计算机研究与发展;2000年08期
【相似文献】
中国期刊全文数据库 前10条
1 刘浏;王东波;;命名实体识别研究综述[J];情报学报;2018年03期
2 朱颢东;杨立志;丁温雪;冯嘉美;;面向中文微博命名实体识别的对比研究[J];湖北民族学院学报(自然科学版);2017年01期
3 包敏娜;斯·劳格劳;;基于词典匹配的蒙古文命名实体识别研究[J];中央民族大学学报(哲学社会科学版);2017年03期
4 罗芳;熊前兴;肖敏;;基于本体的产品命名实体识别研究[J];武汉理工大学学报(信息与管理工程版);2011年06期
5 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
6 彭春艳;张晖;包玲玉;陈昌平;;基于条件随机域的生物命名实体识别[J];计算机工程;2009年22期
7 曲晓棠;沈晓红;;基于最大熵模型的中文命名实体识别研究[J];科技信息(学术研究);2008年30期
8 向晓雯,史晓东,曾华琳;一个统计与规则相结合的中文命名实体识别系统[J];计算机应用;2005年10期
9 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期
10 闫海磊;施水才;;一种面向时政新闻的命名实体识别方法[J];北京信息科技大学学报(自然科学版);2018年06期
中国重要会议论文全文数据库 前10条
1 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 李治国;周俏丽;;在篇章中面向产品类的命名实体识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年
3 付瑞吉;车万翔;刘挺;;一种基于分类方法的音乐命名实体识别技术[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
4 冯元勇;孙乐;张大鲲;李文波;;基于单字提示特征的中文命名实体识别快速算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 刘非凡;赵军;吕碧波;于浩;夏迎炬;;面向商务信息抽取的产品命名实体识别研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 庞薇;徐波;;基于双语平行语料的分层次命名实体抽取[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 史树敏;王志强;周浪;冯冲;黄河燕;;基于条件随机域的中文命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
9 廖先桃;于海滨;秦兵;刘挺;;HMM与自动规则提取相结合的中文命名实体识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 朱佳晖;张文峰;刘卫平;张超;陈渊;;基于双向LSTM和CRF的军事命名实体识别和链接[A];第六届中国指挥控制大会论文集(上册)[C];2018年
中国博士学位论文全文数据库 前10条
1 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
2 付瑞吉;开放域命名实体识别及其层次化类别获取[D];哈尔滨工业大学;2014年
3 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
4 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年
5 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
6 何涛;互联网广告投递中的商品名称识别[D];武汉大学;2014年
7 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
8 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
9 袁锋;中医医案文本挖掘的若干关键技术研究[D];山东师范大学;2016年
10 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
中国硕士学位论文全文数据库 前10条
1 宋沙沙;基于深度学习的命名实体识别与实体关系抽取研究[D];燕山大学;2018年
2 张瑞东;基于循环神经网络的中文命名实体识别研究[D];北京工业大学;2018年
3 曹圣明;面向移动端的用户检索实体抽取系统设计与实现[D];北京大学;2018年
4 余云秀;基于分层标注的地理领域嵌套命名实体识别研究[D];东南大学;2018年
5 杨斌;基于规则与统计方法口语理解的车载语音控制系统的设计与实现[D];河北科技大学;2018年
6 汪晓艳;生物医学文本中细菌命名实体识别算法研究[D];华中师范大学;2018年
7 江林刚;基于生物医学文献数据的命名实体识别并行算法研究[D];湖南大学;2015年
8 田源;基于深度学习的中文命名实体识别方法研究[D];湖南大学;2018年
9 李雁群;中文嵌套命名实体识别及其关系抽取[D];苏州大学;2018年
10 王礼敏;面向法律文书的中文命名实体识别方法研究[D];苏州大学;2018年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026