收藏本站
《北京语言大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于DCC动态流通语料库的中文组织名考察与研究

陈慧  
【摘要】:中文组织名是组织的专有名称。本文首次基于大规模真实文本,对中文组织名进行了宏观到微观、历时动态到共时静态的多角度考察研究。本研究将为中文信息处理提供有效资源和规则知识,为中文组织名命名标准制定及组织名、域名注册管理提供参考,为语言资源监测的深入发展探索新的方向。 本文取得了以下较有特色的研究成果: 一、界定了中文组织名的内涵和外延,厘清它与非中文组织名的界限,从中心词角度提出中文组织名形式化分类体系。 二、基于DCC动态流通语料库建立了中文组织名研究语料库,建立中文组织名资源库。语料库选取2002—2006年六份主流报纸熟语料,共计1,360,416个文本,8,750,105种词、247,257,749个词、16亿字节。 中文组织名资源库包括三个主数据库和五个子数据库。三个主数据库是: ①《中文组织名原始信息库》,记录3,954,716个组织名识别结果及其词性标记(ORG、AORG)、文本领域属性、时间属性、上下文窗口等原始属性。 ②《中文组织名总表》,记录615,681种组织名识别结果,进行中心词标记和二次分词,记录字长、词长、频次等统计数据。 ③《中文组织名分布信息库》,记录615,681种组织名识别结果的频率、累加频率、文本散布数、领域分布数、报纸分布数、年度分布数等统计数据。 五个子数据库分别是: ①《中文组织名用字库》:记录《中文组织名总表》全部5,241种23,130,786个字符。 ②《中文组织名用词库》:记录《中文组织名总表》前60万组织名使用的36类70,110种2,352,589个词。 ③《中文组织名禁用词库》:记录11类组织名禁用词性、6类组织名禁用字符串及三大实词中的禁用词。 ④《常用中文组织名库》:经人工校对获得15,970条正确组织名,累加频率70%。 ⑤《中文组织名简称全称对照词表》:从《中文组织名总表》获取的3000对简称全称。 三、考察了中文组织名分布特征,从频率、字长、领域、年度、报纸等角度考察组织名分布情况。提出并研究中文组织名“领域表征值”及其对文本分类和通用词研究的意义。 四、研究中文组织名的结构、成分、缩略和上下文搭配。提出中文组织名的两种结构模式,分析四类结构成分的形式、性质、规则条件,提出组织名缩略的九项原则和组织名简称识别方法,确定了中文组织名的三类上下文搭配形式及其在消歧、浅层句法分析方面的应用价值。最后应用规则知识,提出中文组织名识别的实用方案,并进行了具体实验。实验表明,禁用词性自动过滤85475种识别错误组织名,占种数13.92%;禁用词自动过滤44,307种识别结果,占种数7.20%;非组织名中心词自动过滤了11,711种识别结果,占种数1.9%,占总数9.2%。 五、提出动态监测中文组织名的意义和方法,以“年度组织名监测”为例进行了监测实验。 六、整理分析中文组织名命名、使用中的不规范现象及新问题,提出了具体的规范化建议。 下一步我们将进一步完善资源库建设,应用语义词典等外部资源对禁用词、分类体系、内部结构模式进行深入研究。
【学位授予单位】:北京语言大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:H136

【参考文献】
中国期刊全文数据库 前10条
1 陆俭明;;要重视特征的研究与描写[J];长江学术;2006年01期
2 冯志伟;;自然语言处理中理性主义和经验主义的利弊得失[J];长江学术;2007年02期
3 张普;;论语言的动态[J];长江学术;2008年01期
4 Г.П.斯莫利茨卡娅;邢行;;普通词典中的专有名词[J];辞书研究;1991年05期
5 冯志伟;基于短语结构语法的自动句法分析方法[J];当代语言学;2000年02期
6 王国胜,钟义信;支持向量机的若干新进展[J];电子学报;2001年10期
7 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
8 宇缨;王晓龙;刘秉权;;一种基于SVM/RS的中文机构名称自动识别方法[J];电子与信息学报;2006年05期
9 冯丽萍;;基于统计的中文组织机构名识别[J];福建电脑;2006年01期
10 黄国春;现代汉语根字与归类构词研究[J];广西民族学院学报(哲学社会科学版);2005年05期
中国重要会议论文全文数据库 前1条
1 廖先桃;于海滨;秦兵;刘挺;;HMM与自动规则提取相结合的中文命名实体识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国硕士学位论文全文数据库 前6条
1 李卫亮;现代汉语分词系统中专名识别的实用策略[D];北京工业大学;2000年
2 王莹莹;汉语组块识别的研究[D];大连理工大学;2006年
3 毛婷婷;中文专有名词识别的研究[D];大连理工大学;2006年
4 李湘平;现代汉语序数的考察与分析[D];广西师范大学;2006年
5 陈霄;基于支持向量机的中文组织机构名识别[D];上海交通大学;2007年
6 钟安妮;国语辞典收录的专有名词研究[D];厦门大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 姜红;;试论当代中国的社会流行语[J];安徽农业大学学报(社会科学版);2005年06期
2 吴慧珍;;基于原型范畴理论的外来语语义偏离现象探析[J];安徽工业大学学报(社会科学版);2011年05期
3 吴昊;耿焕同;吴祥;;一种基于聚类分析的BBS主题发现算法研究[J];安徽师范大学学报(自然科学版);2009年01期
4 李琼;;汉语复句书读前后语言片段的非分句识别[J];安庆师范学院学报(社会科学版);2010年01期
5 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
6 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
7 田宇贺;高等师范院校现代汉语课程改革刍议[J];白城师范学院学报;2003年03期
8 杨华;新的规范观念指导下的词汇规范探索——新造词与生造词的区分标准问题[J];北方论丛;2001年06期
9 杨尔弘;;媒体5年词语使用情况调查分析[J];北华大学学报(社会科学版);2011年04期
10 金添;周智敏;宋千;常文革;;基于模糊超球面支持向量机的超宽带SAR地雷检测[J];兵工学报;2007年12期
中国重要会议论文全文数据库 前10条
1 李金;宋阳;梁洪;;语言残障患者医疗辅助系统设计[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 赛依旦·阿不力米提;吐尔根·依布拉音;;基于规则与统计的维吾尔族人名识别研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 陈鑫;车万翔;刘挺;;基于主动学习的中文依存句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 何正焱;王厚峰;;商品品牌名称挖掘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 隋岩;张普;;基于动态流通语料库的“动态词典”编纂[A];中国辞书论集2000[C];2000年
9 闭剑婷;邓琦;卢佳佳;曹波;;A Model of Bi-directional Translation based on Latent Semantic Analysis[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
10 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
中国博士学位论文全文数据库 前10条
1 曲丽玮;元刊杂剧复字词汇研究[D];南开大学;2010年
2 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
3 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
4 张世宁;广义量词理论研究[D];南开大学;2010年
5 李滨;自然空间查询语言解译机制研究[D];解放军信息工程大学;2009年
6 刘运通;产品设计过程知识配送服务关键技术研究[D];浙江大学;2011年
7 曾庆虎;机械传动系统关键零部件故障预测技术研究[D];国防科学技术大学;2010年
8 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
9 赵鹏;离心泵振动故障诊断方法研究及系统实现[D];华北电力大学(北京);2011年
10 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
2 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
3 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
4 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
5 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
6 吕韶华;面向中文评论文本的情感倾向性研究[D];大连理工大学;2010年
7 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
8 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
9 蒋延生;基于图的适应性相似度估算的半监督学习[D];大连理工大学;2010年
10 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 张黎;汉语句子的语义结构[J];北方论丛;1995年05期
2 胡俊峰,俞士汶;唐宋诗之计算机辅助深层研究[J];北京大学学报(自然科学版);2001年05期
3 任晓敏;祖国大陆与台湾的语言差异辨析[J];北京邮电大学学报(社会科学版);1999年04期
4 李勉东;;语义结构中的结果范畴浅论[J];东北师大学报;1991年03期
5 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
6 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
7 李平;语言习得的联结主义模式[J];当代语言学;2002年03期
8 徐烈炯,沈阳;题元理论与汉语配价问题[J];当代语言学;1998年03期
9 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
10 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
中国重要会议论文全文数据库 前5条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 张艳丽;黄德根;张丽静;杨元生;;统计和规则相结合的中文机构名称识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 宋柔;邹嘉彦;;汉语专名的初步研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
4 俞士汶;;计算语言学的应用研究与基础研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
5 李素建;刘群;;汉语组块的定义和获取[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国重要报纸全文数据库 前1条
1 本报记者 温红彦;[N];人民日报;2002年
中国博士学位论文全文数据库 前1条
1 毛勇;基于支持向量机的特征选择方法的研究与应用[D];浙江大学;2006年
中国硕士学位论文全文数据库 前5条
1 沈培华;支持矢量机的算法研究和应用[D];南京理工大学;2002年
2 周彩莲;现代汉语数词研究[D];黑龙江大学;2002年
3 梁以敏;基于统计的汉语词性标注方法的研究[D];大连理工大学;2004年
4 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
5 吴雪军;面向信息抽取的命名实体识别与模板获取技术研究[D];东北大学;2005年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026