收藏本站
《北京工业大学》 2001年
收藏 | 手机打开
二维码
手机客户端打开本文

面向语言学研究的大规模汉语生语料库检索工具CCRLT

岳炳词  
【摘要】: 对大规模语料进行统计,发现一些语言现象和建立统计语言模型,是语言学和计算语言学研 究常用的方法。我们研制成功了大规模汉语生语料检索工具CCRLT系统,用来辅助语言学和计 算语言学的研究。CCRLT系统与传统的全文检索系统相比,具有许多全新的特征:处理的对象 是生语料,索引库采用PAT_ARRAY数据结构来组织,具高效率的检索算法和索引库生成算法, 可进行基于字的检索、基于词的检索、基于词类的检索和混合检索。,检索的结果保持按某种方 式的有序性。在基于词的检索中支持未登录词的动态归并,可进行未登录词的检索,也可进行 人名、地名、企业名等专名的检索。CCRLT系统独立于词库、词类标记集,具很好的通用性, 可满足不同用户的需要。实验结果表明,现设计出的CCRLT系统,有很高的索引库生成效率和 检索效率,是对语言学研究和计算语言学研究使用价值很高一种检索工具。
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2001
【分类号】:TP391.1

手机知网App
【引证文献】
中国博士学位论文全文数据库 前1条
1 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
【参考文献】
中国期刊全文数据库 前4条
1 杜林,张毅波,孙玉芳;基于Web中文检索系统SEARCH2000的设计与实现[J];中文信息学报;2000年06期
2 沈达阳,孙茂松;Internet中文个人信息搜索[J];中文信息学报;1999年02期
3 杨文清,黄宜华,张福炎;中文Web文档库全文检索技术研究与实现[J];中文信息学报;1999年04期
4 宋柔;关于分词规范的探讨[J];语言文字应用;1997年03期
【共引文献】
中国期刊全文数据库 前10条
1 戴爱兵;面向对象的编程方法在土力学计算中的应用[J];四川建筑科学研究;2004年02期
2 武舫;田智慧;胡鹏;;GIS数据模型中要素对象与要素类别的研究[J];安徽师范大学学报(自然科学版);2006年02期
3 任秦安;有向图边集数组存贮结构最短路径的求法[J];安康师专学报;1997年01期
4 林志,胡向东;EPB盾构信息化管理系统在广州地铁的应用[J];地下空间与工程学报;2005年02期
5 李桂春;;关于逆波兰表达式在程序设计中的应用[J];白城师范学院学报;2007年06期
6 彭泽润;林思佳;;从两个国家标准看汉语的词[J];北华大学学报(社会科学版);2006年06期
7 王磊,宋庆平,刘惠珍,曹海萍;用扩展RDBMS实现多媒体文件存储和查询[J];北京工业大学学报;2002年03期
8 王大康,刘永峰,曹然,石亚宁;基于特征的零件信息建模[J];北京工业大学学报;2003年04期
9 黄一兵;计算最短路径树Dijkstra算法的改进[J];北京机械工业学院学报;2002年04期
10 吴大方,贺小帆,高镇同;瞬态气动模拟加热控制中的快速高精度“E-T”转换[J];北京航空航天大学学报;2002年01期
中国重要会议论文全文数据库 前10条
1 陈凌云;肖斌;;作战模拟初始态势生成系统[A];计算机模拟与信息技术会议论文集[C];2001年
2 彭一凡;陈文;;基于XML的动态数据结构持久化方法之研究[A];促进企业信息化进程——第九届中国Java技术及应用交流大会文集[C];2006年
3 张宝林;崔希亮;任杰;;关于“HSK动态作文语料库”的建设构想[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
4 傅思泉;;机器词典中按韵分词及虚词问题[A];江西省语言学会第五届会员大会暨2002年学术年会论文集[C];2002年
5 蒋忠中;盛莹;汪定伟;袁媛;;物流配送路径优化的双目标模糊规划模型与算法研究[A];中国企业运筹学学术交流大会论文集[C];2008年
6 周红鹃;胡学钢;田卫东;;面向多层次用户的可视化数据结构实验环境研究[A];2005全国计算机程序设计类课程教学研讨会论文集[C];2005年
7 张颖瑶;耿英三;邓永庆;张国钢;;继电线路逻辑表达式抽取的新方法[A];第一届电器装备及其智能化学术会议论文集[C];2007年
8 李永奎;马成林;;信号计算机检测与处理系统数据存储结构的设计[A];第三届全国信息获取与处理学术会议论文集[C];2005年
9 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 韩艳;林煜熙;姚建民;;基于统计信息的未登录词的扩展识别方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 王迈;语言形式化原理[D];上海外国语大学;2011年
2 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
3 张可;车辆导航系统关键技术研究[D];北京工业大学;2001年
4 陈田;基于虚拟原型的机械产品网络化快速开发原理与实施方法及其在水泵CAD系统中的应用[D];四川大学;2001年
5 徐杰;区段站阶段计划自动编制模型和算法研究[D];西南交通大学;2003年
6 张明亮;开放性数控系统关键技术研究[D];中国人民解放军国防科学技术大学;2000年
7 桑为民;基于自适应直角切割及混合网格的Euler/N-S方程数值模拟[D];西北工业大学;2002年
8 邓雪清;栅格型空间数据服务体系结构与算法研究[D];中国人民解放军信息工程大学;2003年
9 李刚;空间可展天线结构的设计分析与索膜结构分析[D];浙江大学;2004年
10 孔金玲;水文地质空间信息系统研究[D];长安大学;2004年
中国硕士学位论文全文数据库 前10条
1 辛光明;电网报警信息解析方法的研究[D];华北电力大学(北京);2011年
2 蒋励;关系数据库中教育信息全文检索效率的改进研究与实现[D];天津师范大学;2011年
3 袁建军;电子商务海量数据的获取、存储以及检索[D];北京化工大学;2011年
4 梁国;一体化网络性能评估与仿真[D];西安电子科技大学;1999年
5 张来生;零件图与装配图一体化参数化设计的研究[D];中国农业大学;2000年
6 齐建东;CAPP系统中工艺尺寸自动求解方法的研究[D];中国农业大学;2000年
7 李卫亮;现代汉语分词系统中专名识别的实用策略[D];北京工业大学;2000年
8 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年
9 高顺纪;基于Agent的中文多元搜索引擎的研究和开发[D];北京工业大学;2000年
10 张震;有限拓扑中的计数问题[D];首都师范大学;2001年
【同被引文献】
中国期刊全文数据库 前10条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 韩客松,王永成,陈桂林;汉语语言的无词典分词模型系统[J];计算机应用研究;1999年10期
3 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
4 黄萱菁;吴立德;王文欣;叶丹瑾;;基于机器学习的无需人工编制词典的切词系统[J];模式识别与人工智能;1996年04期
5 邢红兵;信息领域汉英术语的特征及其在语料中的分布规律[J];术语标准化与信息技术;2000年03期
6 全如瑊;术语的理论与实践 第一部分 引言[J];术语标准化与信息技术;2001年01期
7 张普;关于网络时代语言规划的思考[J];语文研究;1999年03期
8 张普;关于语感与流通度的思考[J];语言教学与研究;1999年02期
9 黄昌宁;关于处理大规模真实文本的谈话[J];语言文字应用;1993年02期
10 张普;中文信息处理专题研究 主持人的话[J];语言文字应用;2000年02期
中国重要会议论文全文数据库 前3条
1 张普;;流通度在IT术语识别中的应用分析——关于术语、术语学、术语数据库的研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
2 李芸;王强军;张普;;信息技术领域术语自动提取和动态更新研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 刘桐菊;于浩;杨沐昀;;基于TFIDF的专业领域词汇获取的研究[A];第一届学生计算语言学研讨会论文集[C];2002年
【二级引证文献】
中国期刊全文数据库 前2条
1 季培培;鄢小燕;岑咏华;;面向领域中文文本信息处理的术语识别与抽取研究综述[J];图书情报工作;2010年16期
2 郑泽芝;;一种字母词语自动标注算法[J];厦门大学学报(自然科学版);2007年05期
中国重要会议论文全文数据库 前2条
1 郭慧志;王强军;刘华;张普;;大规模动态流通语料库的构建[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 郭慧志;刘华;谢学敏;张普;;《人民日报》标注语料的初步统计分析[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前5条
1 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
2 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
3 史艳岚;基于中国主流报纸动态流通语料库的对外汉语报刊新闻主题词群及相关研究[D];北京语言大学;2006年
4 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
5 赵小兵;基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究[D];北京语言大学;2007年
中国硕士学位论文全文数据库 前3条
1 戴姗;基于DCC三年经济日报语料的面向国际大企业商务领域词语统计方法研究[D];北京语言大学;2007年
2 李芳;现代汉语数字缩略语自动提取研究[D];河北大学;2008年
3 王雅莉;哈萨克语通用词汇提取方法及小学语文教材用词调查研究[D];新疆大学;2012年
【二级参考文献】
中国期刊全文数据库 前4条
1 顾春庆,于玉,顾永立,胡运发;汉字全文检索的实现与探讨[J];计算机工程;1998年02期
2 沈达阳,孙茂松,黄昌宁;汉语分词系统中的信息集成和最佳路径搜索方法[J];中文信息学报;1997年02期
3 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
4 都云程,施水才;WWW与中文全文检索系统[J];中国计算机用户;1996年12期
【相似文献】
中国期刊全文数据库 前10条
1 付华军;陈吕芳;;试论数据驱动语言学习对教学模式的影响[J];科技经济市场;2007年12期
2 宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[J];中文信息学报;2009年02期
3 张普;关于大规模真实文本语料库的几点理论思考[J];语言文字应用;1999年01期
4 王爽;熊德兰;王晓霞;;基于实例的古文机器翻译设计与实现[J];许昌学院学报;2009年05期
5 曹英;徐卫;;基于网页的语料库自动生成[J];电脑知识与技术;2010年23期
6 钟梦姣;;谈《全国报刊索引数据库》的优势与改进[J];高等函授学报(哲学社会科学版);2006年03期
7 吴迪;浅谈开发《CONULEXID英汉语言资料库》的意义[J];科技与出版;1998年04期
8 何儒云,汤艳莉;智能化信息检索研究[J];图书馆;2003年03期
9 陆剑江;张霞;;基于Web语料库的知识发现设计与研究[J];计算机应用与软件;2006年07期
10 张亮;王树梅;黄河燕;张孝飞;;面向中文问答系统的问句句法分析[J];山东大学学报(理学版);2006年03期
中国重要会议论文全文数据库 前10条
1 郭曙纶;;基于语料库的HSK多功能例解字典:设想与样例[A];2004年辞书与数字化研讨会论文集[C];2004年
2 梁红梅;尹晓霞;李宇庄;;有关语料库驱动下的外语在线自主学习的工作底稿[A];全国大学英语教学改革暨网络环境下外语教学学术研讨会论文集[C];2004年
3 许小星;亢世勇;孙茂松;刘金凤;;语料库语义成分标注的若干问题[A];第三届学生计算语言学研讨会论文集[C];2006年
4 宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 黄玉;李生;孟遥;丁华福;;基于大规模语料库的英语从句识别[A];第一届学生计算语言学研讨会论文集[C];2002年
6 李明;;语料库·蓝本·双语词典[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
7 郭启新;;论语料库与英汉词典配例[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
8 蔡莲红;蔡锐;吴志勇;陶建华;;语音合成语料库的设计与声学特征分析[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
9 孙述学;;新词语语料库建设的一些构想[A];2004年辞书与数字化研讨会论文集[C];2004年
10 王仁华;胡郁;李威;凌震华;;基于决策树的汉语大语料库合成系统[A];第六届全国人机语音通讯学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 记者 王坤宁;商务方正合作开发辞书语料库及编纂系统[N];中国新闻出版报;2002年
2 本报记者 周建华;数字战略打造核心竞争力[N];中国图书商报;2001年
3 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
4 于发修;寻找搜索的技巧[N];中国计算机报;2001年
5 记者 肖复苏 通讯员 孙小琴;黄州区地税局档案工作目标管理跃上新台阶[N];黄冈日报;2008年
6 记者 曹秀娟;省社科院两项目获得国家社会科学基金[N];山西日报;2010年
7 本报记者 张洪;是检索工具还是评价标准 是学术阶梯还是晋级踏板[N];大众科技报;2002年
8 郑海燕;三大国际检索工具收录我国论文统计分析[N];中国社会科学院院报;2008年
9 顾曰国;语料库语言学的发展[N];中国社会科学院院报;2003年
10 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
中国博士学位论文全文数据库 前10条
1 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
2 夏云;基于语料库的英汉翻译小说常规化研究:历时的视角[D];山东大学;2010年
3 刘建鹏;语料库支撑的系统功能语法研究[D];西南大学;2012年
4 何婷婷;语料库研究[D];华中师范大学;2003年
5 李毅;基于语料库的隐喻普遍性与变异性研究[D];山东大学;2012年
6 赵永青;基于语料库的英语多人冲突性话语研究[D];上海外国语大学;2012年
7 王青;基于语料库的《尤利西斯》汉译本译者风格研究[D];山东大学;2010年
8 唐斌;《人民日报》中(1987-2007)农民工的话语再现[D];上海外国语大学;2010年
9 徐欣;基于语料库的英汉小说语篇中话语标记功能研究[D];山东大学;2011年
10 张建梅;基于语料库的现代蒙古语简单陈述句句型分析研究[D];内蒙古大学;2010年
中国硕士学位论文全文数据库 前10条
1 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
2 徐琰;基于语料库的ONLY研究[D];大连海事大学;2003年
3 杨丽萍;基于语料库的英语专业大学生议论文限时写作中的四字词块研究[D];江西师范大学;2010年
4 李淼;用先进的语料库工具推进英语教学[D];首都师范大学;2004年
5 李春青;[D];电子科技大学;2004年
6 王蓉;新闻英语的批评性语篇分析[D];上海师范大学;2010年
7 刘鼎甲;连接成分的显化:基于语料库的中英文翻译文本对比[D];燕山大学;2010年
8 刘露露;汉语衍名的双事件隐喻分析[D];四川外语学院;2011年
9 倪鹏;非英语专业研究生写作中话语标记语的应用[D];山东师范大学;2009年
10 黄洁;基于语料库的商务英语词汇特点的研究[D];大连海事大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026