收藏本站
《中国科学院研究生院(计算技术研究所)》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

中文新词检测与分析

崔世起  
【摘要】:新词指在进行词法切分时词典中未收录的词。中文新词检测是中文信息处理领域一项关键的技术。由于中文的词与词间无间隔的特点,中文词法切分存在着歧义消除和新词检测两大难题,新词检测技术成为分词性能的瓶颈之一。对人名、地名、机构名等专有新词的研究,已经有了较为成熟的技术,而对于普通新词的检测,尚处在不断探索的阶段。 本文在基于词的串频统计基础上,利用语言学的知识把新词检测问题进行分类细化。首先利用熟语料训练得到垃圾串词典、垃圾头词典、垃圾尾词典、词缀字词典以及独立词概率等参数,然后针对不同模式的新词采取不同的垃圾串过滤算法,提高了新词识别的性能。在对400张网页的实验中,我们对频度大于1的新词进行识别,准确率是80.4%,召回率是81.8%。 新词的特征包括字面特征、分布特征和语义特征等方面。对新词特征的分析,已有的研究并不多,而新词的特征是认识新词的一条重要途径。本文的新词检测基于大规模的因特网语料,因此可以获取丰富的上下文信息。在此基础上,我们进行了新词特征的挖掘,从串频、互信息和相似度等角度主要对新词的空间分布规律和时间分布规律进行了分析。 缩略语关系是新词的语义特征的一种。由于新词中缩略语的现象比较普遍,本文提出了一种自扩展获取缩略语词典的方法。以识别的新词以及之前获取的庞大的短语库为数据基础,利用语言学的知识和无监督学习的方法,得到短语的语言模型、短语到词的对齐模型等参数,以此来度量一组缩略语和源短语对有效的程度,最终得到一部缩略语词典。在对50万张网页的实验中,我们以频度大于100的新词为候选缩略语集进行提取,准确率是51.4%,召回率是81.7%。 在以上技术基础上,我们开发了一个B/S结构的基于Internet的中文新词检测与分析系统,实现了对中文新词的实时在线检测。
【学位授予单位】:中国科学院研究生院(计算技术研究所)
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.1

手机知网App
【引证文献】
中国期刊全文数据库 前4条
1 林自芳;蒋秀凤;;基于改进位置成词概率的新词识别[J];福州大学学报(自然科学版);2011年01期
2 廖祥文;林自芳;陈水利;;基于词内部模式的中文新词识别研究[J];集美大学学报(自然科学版);2011年06期
3 林自芳;蒋秀凤;;基于词内部模式的新词识别[J];计算机与现代化;2010年11期
4 段宇锋;鞠菲;;基于N-Gram的专业领域中文新词识别研究[J];现代图书情报技术;2012年02期
中国博士学位论文全文数据库 前1条
1 孙凌云;面向产品概念设计的专利地图技术研究[D];浙江大学;2008年
中国硕士学位论文全文数据库 前4条
1 丁溪源;基于大规模语料的中文新词抽取算法的设计与实现[D];南京理工大学;2011年
2 王伟琼;专利信息采集及分析系统设计与开发[D];浙江大学;2008年
3 吕红良;基于大规模语料库的中文新词识别[D];大连理工大学;2008年
4 朱波;基于特征过滤对比的新词语识别[D];渤海大学;2012年
【参考文献】
中国期刊全文数据库 前9条
1 张涛,杨尔弘;基于上下文词语同现向量的词语相似度计算[J];电脑开发与应用;2005年03期
2 张小克;现代汉语缩略语新论[J];广西民族学院学报(哲学社会科学版);2004年03期
3 葛瑞芳,李涓子;一个汉语词义自动标注系统的设计与实现[J];计算机工程与应用;2001年17期
4 鲁松,白硕;自然语言处理中词语上下文有效范围的定量描述[J];计算机学报;2001年07期
5 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
6 邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇;面向Internet的中文新词语检测[J];中文信息学报;2004年06期
7 罗智勇,宋柔;一种基于可信度的人名识别方法[J];中文信息学报;2005年03期
8 郑家恒,李文花;基于构词法的网络新词自动识别初探[J];山西大学学报(自然科学版);2002年02期
9 鲍明凌,亢世勇;基于数据库的现代汉语新词语缩略语的研究[J];术语标准化与信息技术;2002年04期
【共引文献】
中国期刊全文数据库 前10条
1 潘瑞春;;浅论缩略语结构与修辞功能[J];安徽职业技术学院学报;2007年01期
2 耿新青;陶凤梅;黄宏光;;一种基于近邻匹配的中文分词算法Jlppeccz[J];鞍山师范学院学报;2010年04期
3 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
4 罗智勇;宋柔;;基于多特征的自适应新词识别[J];北京工业大学学报;2007年07期
5 李钝;曹元大;万月亮;;Internet中的新词识别[J];北京邮电大学学报;2008年01期
6 张榕;宋柔;;一种被定义项的识别策略[J];当代语言学;2007年01期
7 吴云芳;;词义消歧研究:资源、方法与评测[J];当代语言学;2009年02期
8 李烯;徐朝军;;基于关键词共现的教育信息化工程发展初探[J];电化教育研究;2010年02期
9 高俊波;杨静;;在线论坛中的意见领袖分析[J];电子科技大学学报;2007年06期
10 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 曾德万;;汉语缩略语引起的歧义类说[A];海峡两岸辞书学研讨会暨福建省辞书学会第十七届学术年会论文集[C];2005年
3 卢伟清;苏新春;;词义开放处理平台的研究和实现[A];第六届汉语词汇语义学研讨会论文集[C];2005年
4 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
5 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
6 邓攀;刘功申;;基于标引信息的网络新概念发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
7 龚才春;贺敏;张华平;许洪波;程学旗;;大规模语料的频繁模式快速发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
8 崔世起 ;刘群 ;林守勋 ;孟遥 ;于浩 ;西野文人;;中文缩略语自动抽取初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 张仰森;俞士汶;段惠明;吴云芳;;汉语词义自动标注研究软件平台的设计与实现[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
10 钱小飞;陈小荷;董宇;何晓丽;;面向大型叙事作品的指人成分识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
2 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
3 范冬梅;基于统计学习的词义识别方法研究[D];哈尔滨工程大学;2011年
4 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
5 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
6 王琦;古代壁画的语义检索技术及应用研究[D];浙江大学;2011年
7 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
8 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
9 熊文新;信息检索Query语言分析[D];北京语言大学;2006年
10 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
中国硕士学位论文全文数据库 前10条
1 程国斌;基于指示词语义扩展的词义识别方法的研究[D];哈尔滨工程大学;2010年
2 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
3 田勃;新词语中的简缩词语[D];辽宁师范大学;2010年
4 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
5 许明敏;基于维基百科和web共现分析的概念关系网构建系统研究与实现[D];华东师范大学;2011年
6 杨晓东;中文命名实体识别及若干相关问题的研究[D];江苏大学;2010年
7 史迎馨;建筑图中有限自然语言的分析与理解的研究[D];长春工业大学;2010年
8 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
9 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
10 张庐颖;基于粗糙集的K-means研究[D];北京交通大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
2 董竟;科技术语中合成词语的语义分析[J];包钢科技;2003年02期
3 韩晨宇;;汉语三音节新词语与类词缀的发展初探[J];北京广播电视大学学报;2007年03期
4 罗智勇;宋柔;;基于多特征的自适应新词识别[J];北京工业大学学报;2007年07期
5 李钝;曹元大;万月亮;;Internet中的新词识别[J];北京邮电大学学报;2008年01期
6 翟东升;王明吉;;专利地图在技术性贸易壁垒预警中的应用[J];图书与情报;2006年01期
7 刘长征;;基于动态流通语料库(DCC)的新词语监测[J];长江学术;2008年01期
8 亢世勇;《新词语大词典》的编纂[J];辞书研究;2003年02期
9 吕学强,张乐,黄志丹,胡俊峰;基于散列技术的快速子串归并算法[J];复旦学报(自然科学版);2004年05期
10 傅国宏;Chinese Word Boundary Ambiguity and Unknown Word Resolution Using Unsupervised Methods[J];High Technology Letters;2000年02期
中国重要会议论文全文数据库 前3条
1 颜伟;;基于动态流通语料库的VSM新词发现策略[A];2004年辞书与数字化研讨会论文集[C];2004年
2 方芳;冯敏萱;;含词尾的三字新词识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 侯敏;;语言监测与词语的计量研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前4条
1 任永功;面向聚类的数据可视化方法及相关技术研究[D];东北大学;2006年
2 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
3 邱明;语义相似性度量及其在设计管理系统中的应用[D];浙江大学;2006年
4 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年
中国硕士学位论文全文数据库 前10条
1 魏莎莎;一种中文未登录词识别及词典设计新方法[D];西南大学;2011年
2 王蕊;仿词造词研究[D];山东师范大学;2004年
3 张涛;中文文本中未知词语的词义知识获取[D];山西大学;2005年
4 王兴义;基于模式匹配的中文专有名词识别[D];山西大学;2005年
5 翁时锋;自适应SOM特征映射研究[D];清华大学;2003年
6 胡吉祥;基于频繁模式的消息文本聚类研究[D];中国科学院研究生院(计算技术研究所);2006年
7 伊兴荣;从《新华新词语词典》看新词语造词法[D];新疆师范大学;2006年
8 步海慧;基于最大熵模型的中文姓名识别研究[D];山东大学;2006年
9 邹纲;中文新词语自动检测研究[D];中国科学院研究生院(计算技术研究所);2004年
10 俞春阳;基于专利本体的产品创新设计技术研究[D];浙江大学;2007年
【二级引证文献】
中国期刊全文数据库 前7条
1 孟嵊;;我国语料库语言学研究现状及展望[J];四川文理学院学报;2012年06期
2 刘征;孙凌云;鲁娜;;面向过程的工业设计知识地图构建[J];机械工程学报;2010年08期
3 漆苏;;企业对专利信息的运用研究[J];情报杂志;2009年08期
4 杨丽;;基于专利地图的专利分析方法及其影响因素探讨[J];图书馆;2011年04期
5 许旱峤;;基于M-Trends专利检索暨分析管理平台的专利分析实例研究[J];图书馆学刊;2010年06期
6 翟东升;禾文汇;;异构专利数据源集成方案设计与实现[J];现代图书情报技术;2010年09期
7 翟东升;陈晨;张杰;黄鲁成;阮平南;;专利信息的技术功效与应用图挖掘研究[J];现代图书情报技术;2012年Z1期
中国硕士学位论文全文数据库 前10条
1 惠国宝;基于统计和语义分析的分词及在产品设计中的应用[D];西安电子科技大学;2011年
2 巴金;电动汽车的专利分析研究[D];吉林大学;2011年
3 禾文汇;基于BI的专利数据整合分析研究及实现[D];北京工业大学;2011年
4 陈景;跨语言专利文本分析技术研究[D];浙江大学;2010年
5 周泓;基于统计面向领域的分词研究以及在产品设计中的应用[D];西安电子科技大学;2010年
6 朱波;基于特征过滤对比的新词语识别[D];渤海大学;2012年
7 袁昕;面向主题的专利分析系统[D];北京工业大学;2012年
8 胡健坤;基于齐次马尔可夫链的中文新术语识别方法研究[D];华南理工大学;2012年
9 于海斌;基于知识发现的专利检索系统分析与设计[D];东北林业大学;2012年
10 薛淑霞;基于专利信息分析的中国物联网数据融合技术发展战略分析[D];上海社会科学院;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
2 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
3 赵铁军,吕雅娟,于浩,杨沐昀,刘芳;提高汉语自动分词精度的多步处理策略[J];中文信息学报;2001年01期
4 吕雅娟,赵铁军,杨沐昀,于浩,李生;基于分解与动态规划策略的汉语未登录词识别[J];中文信息学报;2001年01期
5 韩客松,王永成,陈桂林;无词典高频字串快速提取和统计算法研究[J];中文信息学报;2001年02期
6 周正宇,李宗葛;一种新的基于统计的词典扩展方法[J];中文信息学报;2001年05期
7 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
8 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
9 刘挺,吴岩,王开铸;串频统计和词形匹配相结合的汉语自动分词系统[J];中文信息学报;1998年01期
10 黄萱菁;吴立德;王文欣;叶丹瑾;;基于机器学习的无需人工编制词典的切词系统[J];模式识别与人工智能;1996年04期
中国重要会议论文全文数据库 前1条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 何庄;;试论历史档案资源的空间分布特点及其成因[J];学海;2010年01期
2 付方正;李明;;无序激光器激光出射的空间分布[J];量子电子学报;2009年05期
3 孙君顶,丁振国,周利华;基于图像信息熵与空间分布熵的彩色图像检索方法[J];红外与毫米波学报;2005年02期
4 马瑞;蒋志荣;王继和;魏怀东;丁峰;周兰萍;;基于GIS的黄土丘陵半干旱区退耕还林还草决策系统应用[J];甘肃农业大学学报;2006年06期
5 田友伟;陆云清;邓德刚;;初始相位对周期量级激光脉冲Thomson散射特性的影响[J];强激光与粒子束;2008年12期
6 傅新;李小娟;韩荣青;;招远市农村经济空间分布特征分析[J];测绘与空间地理信息;2009年02期
7 肖强;劳彩莲;王春霞;;植物冠层光辐射分布的快速深度缓存算法[J];计算机工程;2010年15期
8 王曰芬;宋爽;卢宁;朱烨;;共现分析在文本知识挖掘中的应用研究[J];中国图书馆学报;2007年02期
9 陈军,姚玉良,毛志伟,丁双红,叶金祥;脉冲激光光强空间分布的CCD同步接收技术[J];中国激光;1996年06期
10 方军;;闽赣两省发明专利的时空分布及评估[J];江西图书馆学刊;1991年04期
中国重要会议论文全文数据库 前10条
1 马丽君;孙根年;马耀峰;王洁洁;;气候舒适度对东部热点城市入境游客年内时空变化的影响[A];中国地理学会百年庆典学术论文摘要集[C];2009年
2 王会肖;蔡燕;;黄河流域干湿状况变化特征[A];变化环境下的水资源响应与可持续利用——中国水利学会水资源专业委员会2009学术年会论文集[C];2009年
3 孙亚强;万花鸣;;菏泽5.9级地震前后空间分布分数维的变化特征[A];中国地震学会第四次学术大会论文摘要集[C];1992年
4 郑金秀;周连凤;胡菊香;梁友光;汪红军;;乌江中下游江段含汞量空间分布的调查研究[A];第二届全国农业环境科学学术研讨会论文集[C];2007年
5 慕韩锋;王俊;刘康;刘文兆;党廷辉;王兵;;黄土旱塬长期定位施磷对土壤磷素空间分布及有效性的影响[A];中国地理学会2007年学术年会论文摘要集[C];2007年
6 邱灵;申玉铭;任旺兵;;北京市生产性服务业与制造业的产业关联与空间分布特征研究[A];地理学与生态文明建设——中国地理学会2008年学术年会论文摘要集[C];2008年
7 李火根;黄敏仁;;杨树新无性系冠层特性及其空间分布[A];面向21世纪的中国林木遗传育种——中国林学会林木遗传育种第四届年会文集[C];1997年
8 赵作权;;空间分布经济学研究综述[A];全国经济地理研究会第十三届学术年会暨金融危机背景下的中国区域经济发展研讨会论文集[C];2009年
9 戴雪峰;熊草根;陈伟;吴琳;;水下目标噪声源定位方法研究[A];第十二届船舶水下噪声学术讨论会论文集[C];2009年
10 张伟;王军;徐海贤;;2000年以来江苏城镇人口的增长及其空间分布[A];城市规划面对面——2005城市规划年会论文集(上)[C];2005年
中国重要报纸全文数据库 前10条
1 张洪忠 李 昂;空间分布·市场结构·竞争力[N];中华新闻报;2004年
2 证券时报记者 胡学文;市场高位震荡“大非”加速减持[N];证券时报;2007年
3 证券时报记者  胡学文;本月再迎限售股解禁高峰[N];证券时报;2006年
4 顓锡良;高致病性猪蓝耳病流行特点[N];中国畜牧兽医报;2007年
5 李小华;气温持续偏低 影响作物生长[N];大连日报;2008年
6 记者 段金平;专业人才向新能源等领域转移[N];地质勘查导报;2007年
7 白文;百强县遭遇“成长的烦恼”[N];消费日报;2007年
8 记者 龙群;九江沿江开发空间分布与总体架构初现端倪[N];九江日报;2007年
9 李莉;铁西现代物流业发展规划出台[N];沈阳日报;2008年
10 柯森;哈尔滨构建清洁能源使用网络[N];光明日报;2009年
中国博士学位论文全文数据库 前10条
1 王洁;产业集聚理论与应用的研究[D];同济大学;2007年
2 邹怡;明清以来徽州茶业及相关问题研究[D];复旦大学;2006年
3 孙立武;基于3S草原土壤厚度空间分布与草原退化程度关系的研究[D];内蒙古农业大学;2009年
4 王雪;城市绿地空间分布及其热环境效应遥感分析[D];北京林业大学;2006年
5 刘铁军;脑电信号中眼电伪迹去除方法研究[D];电子科技大学;2008年
6 马红亮;虚拟学习社区中的互动结构[D];华南师范大学;2006年
7 张俊华;西北干旱区黑河中游土壤有机碳分布及其变化机制研究[D];兰州大学;2007年
8 邵将;颈脊髓损伤致早期死亡的相关研究[D];第二军医大学;2007年
9 贾艳红;黑河下游地下水波动带生态需水量空间分布研究[D];兰州大学;2008年
10 孙百晔;长江口及邻近海域浮游植物生长的光照效应研究[D];中国海洋大学;2008年
中国硕士学位论文全文数据库 前10条
1 崔世起;中文新词检测与分析[D];中国科学院研究生院(计算技术研究所);2006年
2 王照奎;射频辉光放电等离子体空间特性的质谱诊断[D];汕头大学;2005年
3 张伟科;年度土地供应计划中出让土地空间定位方法研究[D];河北农业大学;2006年
4 王文春;基于科技论文发表量的中国城市知识创新分布研究[D];西北大学;2008年
5 刘峘;基于犯罪预防的城市居住空间规划研究[D];天津大学;2006年
6 沈玲屹;区位条件对滇西经济区小城镇空间分布及发展的影响研究[D];华中科技大学;2006年
7 张怡;GIS技术在平武县基本农田保护规划中的应用[D];成都理工大学;2009年
8 张彩霞;基于DEM的地形湿度指数提取与应用研究[D];西北农林科技大学;2006年
9 陈攀;椰心叶甲田间调查技术研究[D];华南热带农业大学;2007年
10 岳曼;延安地区土壤有机碳空间分布模型建立与储量估算[D];西北农林科技大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026