收藏本站
《国防科学技术大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

中文报业出版的文字质量智能辅助控制技术研究

侯锋  
【摘要】:从汉字“激光照排”技术的应用开始,中文新闻出版业的信息化水平突飞猛进。近年来,我国中文报业出版规模不断扩大,报社中的采编、组版、印刷、财务和发行等生产环节已实现信息化。但是,报业生产流程中的质量控制环节仍然以传统的全手工方式处理每日见报的新闻稿件及版面,效率低,成本高,成为报业生产的瓶颈所在。 本文从当前报业出版的现状和存在的问题出发,以报业生产流程优化为切入点,以自动文字查错和重稿检测为手段,以期实现智能辅助的报业出版文字质量控制。论文取得的主要成果如下: 1.对现有的报业生产流程和相关软件进行整合优化,提出了文字质量数字化智能辅助控制的概念框架和技术框架。优化后的生产流程不仅为人和计算机提供了协同质量控制的数字化平台,而且为计算机构建了闭环学习的环境,使其能从历史稿件中不断学习新词和语言知识,这些知识又应用于基于词汇语义类的文字查错和重稿检测算法,因此计算机可以较高的智能辅助人工质量控制。 2.为利用词汇语义进行语义层面的文字查错,提出了面向文字查错的汉语实词语义分类体系划分方法及种子词获取方法。并提出一种基于种子词的汉语实词义类自动获取算法,利用句法和构词素两种特征,从大规模未分词语料库中自动获取实词的义类标签,该算法能自动获取多义词的多个义类,并能识别情感词。给出了基于词汇义类的汉语词法分析过程,利用条件随机场模型标注词汇义类并识别名词短语边界。 3.根据新闻稿的文字错误类型及造成错误的原因,针对中文自动校对研究中没有解决的语法、语义以及前后不一致等错误,提出了四种针对不同错误类型的文字查错算法。基于义类3-gram的语义查错算法是利用词汇义类之间的邻接异常查找普通查错算法无法查出的真词替换错误,以及部分语法、语义错误。基于语义优选的查错算法是利用动词对主语和宾语的语义优选,查找长距离的动宾或主谓搭配错误。基于点互信息的复句结构和标点查错算法,是利用复句连词和标点之间的共现概率查找语法和标点错误。人名-职务不一致检测利用人名-职务对的比较,查找人名或职务在前后文的不一致错误。 4.针对重稿检测对历史稿件自动更新的需求,提出了重稿检测的流程与具体算法。算法首先对历史稿件按照广义话题进行分类,并在广义话题内对稿件聚类。在线重稿检测时,首先根据待测稿件的首段文字将其分配到相应的事件类下;然后利用全文特征在事件类内判断其是否为重稿。算法可以同时实现历史稿件自动更新和重稿检测,通过段落间的相似比较,提高重稿检测的精度。 基于生产流程优化的应用系统在《长江日报》上线并运行2年多,其在效率和成本方面的优势得到证明。本文提出的自动文字查错和重稿检测算法绝大多数也已在系统中得到应用。
【关键词】:文字质量 语义类 语义优选 自动查错 重稿检测
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP391.1
【目录】:
  • 摘要12-14
  • Abstract14-16
  • 第一章 绪论16-27
  • 1.1 研究背景16-18
  • 1.2 问题的提出18-20
  • 1.3 论文的研究思路20-24
  • 1.4 论文的主要工作及贡献24-25
  • 1.5 论文的组织结构25-27
  • 第二章 相关研究工作现状27-44
  • 2.1 词汇的语义分类与短语识别27-35
  • 2.1.1 外文词汇的语义分类27-30
  • 2.1.2 汉语词汇的语义分类30-32
  • 2.1.3 情感词汇的自动分类32-33
  • 2.1.4 短语识别方法33-35
  • 2.2 句子和篇章级语义分析35-40
  • 2.2.1 有监督的语义角色标注35-38
  • 2.2.2 半监督和无监督的语义角色标注38
  • 2.2.3 篇章级意见挖掘研究现状38-40
  • 2.3 新事件检测与复制检测40-44
  • 2.3.1 新事件检测与复制检测的异同40
  • 2.3.2 新事件检测方法40-42
  • 2.3.3 文本复制检测方法42-44
  • 第三章 文字质量智能辅助控制的概念和技术框架44-51
  • 3.1 文字质量智能辅助控制的相关概念44-47
  • 3.2 报业出版文字质量智能辅助控制的生产流程47-49
  • 3.2.1 报业出版文字质量智能辅助控制的概念及其内涵47-48
  • 3.2.2 报业出版文字质量智能辅助控制的生产流程48-49
  • 3.3 报业出版文字质量智能辅助控制技术框架49-50
  • 3.3.1 文字质量智能辅助控制系统技术框架49-50
  • 3.3.2 文字质量智能辅助控制的关键技术50
  • 3.4 本章小结50-51
  • 第四章 面向文字查错的汉语实词和短语义类标记51-86
  • 4.1 构建面向文字查错的新闻语料库51-53
  • 4.1.1 分词标注新闻语料库的来源51
  • 4.1.2 以系统工程法标注分词新闻语料库51-52
  • 4.1.3 辅助的未分词语料库来源52-53
  • 4.2 面向文字查错的汉语实词语义分类53-56
  • 4.2.1 进行语义分类的目的53
  • 4.2.2 面向文字查错的词汇分类原则与理想分类53-54
  • 4.2.3 汉语实词分类与种子词的标记54-56
  • 4.3 汉语实词义类的自动获取56-65
  • 4.3.1 分类特征的选择56-60
  • 4.3.2 分类学习语料库的抽取60-61
  • 4.3.3 基于BootStrapping 的义类自动获取算法61-64
  • 4.3.4 低频词汇的义类自动获取64-65
  • 4.4 词义消歧与义类自动标注65-74
  • 4.4.1 面向义类的粗粒度词义消歧65-67
  • 4.4.2 条件随机场模型67-72
  • 4.4.3 词性与义类的联合标注72-74
  • 4.5 复合名词与名词短语的义类标注74-78
  • 4.5.1 复合名词的离线义类学习74-75
  • 4.5.2 基本名词短语的自动识别75-78
  • 4.5.3 基本名词短语义类识别78
  • 4.6 实验结果与讨论78-85
  • 4.6.1 实词义类的自动获取算法实验78-81
  • 4.6.2 词性与义类联合标注实验81-83
  • 4.6.3 名词短语识别实验83-85
  • 4.7 本章小结85-86
  • 第五章 基于义类标记的新闻稿自动查错86-123
  • 5.1 新闻稿中的文字质量问题分析86-88
  • 5.1.1 字词错误86
  • 5.1.2 标点、数字与计量单位使用错误86-87
  • 5.1.3 语法错误87
  • 5.1.4 语义错误87-88
  • 5.1.5 前后不一致88
  • 5.2 利用基于义类的N-gram 模型查找局部错误88-97
  • 5.2.1 统计语言处理的N-gram 语言模型及其问题88-94
  • 5.2.2 基于类的n-gram 模型94-95
  • 5.2.3 利用基于义类的3-gram 模型的自动查错95-97
  • 5.3 基于语义优选的长距离查错97-109
  • 5.3.1 动词对主语和宾语的语义优选97-101
  • 5.3.2 针对的问题101-102
  • 5.3.3 基于半监督语义角色标注的主谓和动宾搭配提取策略102-103
  • 5.3.4 句子核心谓语动词的识别103-108
  • 5.3.5 基于语义优选的主谓和动宾搭配查错108-109
  • 5.4 基于点互信息的复句结构与标点查错109-113
  • 5.4.1 问题分析109-110
  • 5.4.2 熵与互信息110-112
  • 5.4.3 基于复句连词点互信息的复句结构与标点查错112-113
  • 5.5 人名-职务前后不一致检测113-117
  • 5.5.1 问题分析113
  • 5.5.2 基于小规模特征的人名识别113-117
  • 5.5.3 人名-职务前后不一致检查算法117
  • 5.6 实验结果与讨论117-122
  • 5.6.1 实验数据与评价指标117-118
  • 5.6.2 基于义类的Tri-gram 模型的查错性能实验118-119
  • 5.6.3 基于语义优选的查错算法性能实验119-120
  • 5.6.4 复句结构与标点查错实验120-121
  • 5.6.5 人名-职务的前后不一致检测实验121-122
  • 5.7 本章小结122-123
  • 第六章 历史稿件话题内聚类与重稿检测123-154
  • 6.1 重稿检测问题分析123-125
  • 6.1.1 重稿问题描述123
  • 6.1.2 重稿检测与相关技术的区别123-124
  • 6.1.3 重稿检测算法流程124-125
  • 6.2 历史稿件分类组织与聚类125-131
  • 6.2.1 基于广义话题的稿件分类125-128
  • 6.2.2 历史稿件的话题内事件聚类128-131
  • 6.3 基于首段文字特征的新事件检测131-140
  • 6.3.1 首段内容的多语义类描述131-135
  • 6.3.2 改进的相似性度量135-139
  • 6.3.3 广义话题内新事件检测算法139-140
  • 6.4 基于全文特征的重稿检测140-147
  • 6.4.1 面向重稿检测的特征提取140-142
  • 6.4.2 话题内历史查重算法142
  • 6.4.3 新闻评论的意见识别及重稿检测142-146
  • 6.4.4 预见报稿件内查重146-147
  • 6.5 实验结果与讨论147-153
  • 6.5.1 基于首段文字特征的新事件检测实验147-151
  • 6.5.2 基于全文特征的重稿检测实验151-152
  • 6.5.3 新闻评论的重稿检测实验152-153
  • 6.6 本章小结153-154
  • 第七章 结束语154-157
  • 7.1 论文的主要贡献154-155
  • 7.2 进一步的工作155-157
  • 致谢157-158
  • 参考文献158-169
  • 作者在学期间取得的学术成果169

【参考文献】
中国期刊全文数据库 前10条
1 吴云芳;;并列成分中心语语义相似性考察[J];当代语言学;2005年04期
2 冯元勇;孙乐;张大鲲;李文波;;基于小规模尾字特征的中文命名实体识别研究[J];电子学报;2008年09期
3 孙广路;王晓龙;刘秉权;关毅;;基于词聚类特征的统计中文组块分析模型[J];电子学报;2008年12期
4 宋擒豹,沈钧毅;数字商品非法复制和扩散的监测机制[J];计算机研究与发展;2001年01期
5 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
6 陈浪舟,黄泰翼;一种新颖的词聚类算法和可变长统计语言模型[J];计算机学报;1999年09期
7 李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期
8 洪宇;张宇;范基礼;刘挺;李生;;基于子话题分治匹配的新事件检测[J];计算机学报;2008年04期
9 周强,冯松岩;构建知网关系的网状表示[J];中文信息学报;2000年06期
10 闻扬,苑春法,黄昌宁;基于搭配对的汉语形容词-名词聚类[J];中文信息学报;2000年06期
中国重要会议论文全文数据库 前1条
1 董静;孙乐;吕元华;冯元勇;;基于线性链条件随机场模型的语义角色标注[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前1条
1 徐新文;基于内容的新闻视频挖掘方法研究[D];国防科学技术大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 徐文莉;;基于最大熵方法的DaR风险度量模型[J];安徽师范大学学报(自然科学版);2007年01期
2 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
3 焦健;瞿有利;;知网的话题更新与跟踪算法研究[J];北京交通大学学报;2009年05期
4 林正奎;唐焕玲;鲁明羽;王敬东;;基于特征多视图提升Naive Bayesian的Boosting改进算法[J];北京交通大学学报;2009年06期
5 蒋宗礼;徐学可;;一种基于集成学习与类指示器的文本分类方法[J];北京工业大学学报;2010年04期
6 吕学强;舒燕;施水才;;搜索日志中“V+N”、“V+V”型短语识别[J];北京信息科技大学学报(自然科学版);2012年02期
7 张国英,沙芸,刘玉树;模式识别中基于Boosting的特征筛选[J];北京理工大学学报;2004年07期
8 张仰森;曹元大;俞士汶;;最大熵方法中特征选择算法的改进与纠错排歧[J];北京理工大学学报;2006年01期
9 吕琳;刘玉树;;最大熵和Brill方法结合识别英语BaseNPs[J];北京理工大学学报;2006年06期
10 谭咏梅;王小捷;周延泉;钟义信;;使用SVMs进行汉语浅层分析[J];北京邮电大学学报;2008年01期
中国重要会议论文全文数据库 前10条
1 毛存礼;余正涛;线岩团;郭剑毅;雷雄丽;;基于短信的旅游景点酒店问答系统研究[A];中国自动化学会控制理论专业委员会A卷[C];2011年
2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 马骥;朱慕华;肖桐;朱靖波;;面向移进-归约句法分析器的单模型系统融合算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 潘雪莲;;词典中名词释义模式的选择[A];中国辞书学会第六届中青年辞书工作者学术研讨会论文集[C];2010年
5 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
6 王红军;徐林;张继宏;;一种模糊综合决策汉语谓词识别算法[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
7 边海容;万常选;李国林;杨莉;;Web金融信息情感倾向与上市公司财务危机的关系研究[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
8 孙涌;韦小丽;;领域本体构建研究及在专利信息服务中的应用[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
9 朱宏博;张芊;赵海;宋纯贺;;基于贝叶斯网络英文电影对白的潜在语义分析[A];第八届沈阳科学学术年会论文集[C];2011年
10 ;Comparison of Text Categorization Algorithms[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
3 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
4 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
5 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 杨峰;本体映射关键技术研究[D];吉林大学;2011年
8 王中锋;树型贝叶斯网络分类器鉴别式训练研究[D];北京交通大学;2011年
9 凯瑟(Qaisar Abbas);基于皮肤镜图像的皮肤病变检测方法研究[D];华中科技大学;2011年
10 刘冲;模拟电路故障诊断AdaBoost集成学习方法研究[D];大连海事大学;2011年
中国硕士学位论文全文数据库 前10条
1 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
2 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
3 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
4 程国斌;基于指示词语义扩展的词义识别方法的研究[D];哈尔滨工程大学;2010年
5 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
6 王森;基于主题树的自上而下文本复制检测研究[D];大连理工大学;2010年
7 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
8 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
9 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
10 孙伟;基于文档复制检测技术的研究与实现[D];辽宁工程技术大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 穗志方,俞士汶;汉语单句谓语中心词识别知识的获取及应用[J];北京大学学报(自然科学版);1998年Z1期
2 董振东,董强;知网和汉语研究[J];当代语言学;2001年01期
3 徐延勇,周献中,井祥鹤,郭忠伟;基于最大熵模型的汉语句子分析[J];电子学报;2003年11期
4 卢志茂;刘挺;李生;;统计词义消歧的研究进展[J];电子学报;2006年02期
5 裴继红,范九伦,谢维信;聚类中心的初始化方法[J];电子科学学刊;1999年03期
6 宋擒豹,沈钧毅;数字商品非法复制和扩散的监测机制[J];计算机研究与发展;2001年01期
7 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
8 韩习武,赵铁军;基于子类的汉语动词SCF获取回退[J];计算机工程与应用;2005年30期
9 钱雪忠;孔芳;;关联规则挖掘中对Apriori算法的研究[J];计算机工程与应用;2008年17期
10 熊华,老松杨,吴玲琦,李恒峰,吴玲达,李国辉;NewsVideoCAR:一个基于内容的视频新闻节目浏览检索系统[J];计算机工程;2000年11期
中国博士学位论文全文数据库 前1条
1 姚志强;说话人识别中提高GMM性能方法的研究[D];中国科学技术大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 姜吉发;一种跨语句汉语事件信息抽取方法[J];计算机工程;2005年02期
2 曹建荣;蔡安妮;;基于支持向量机的语义视频摘要[J];北京邮电大学学报;2006年04期
3 李亚丽;徐为群;颜永红;;语义类的提取及其在语音搜索系统中的应用[J];声学学报;2011年05期
4 周笑天;;决策树中数字型连续属性的语义化研究[J];计算机系统应用;2009年02期
5 梁晓弘;杨文安;;分词技术在信息处理中的研究综述[J];电脑知识与技术(学术交流);2007年22期
6 温苗苗;吴云芳;;基于SVM融合多特征的介词结构自动识别[J];中文信息学报;2009年05期
7 ;汉语语义范畴的计算机模拟[J];中文信息;1994年04期
8 张晶,姚建民,赵铁军,李生;基于Word Net和How Net建设双语语义词典[J];高技术通讯;2001年12期
9 黄鸿森;;这样的辞书,何必引进——评《建宏成语义类辞典》[J];中国出版;2007年10期
10 董明楷;张明义;;语义类比:AI的一个重要发展方向[J];计算机科学;1996年06期
中国重要会议论文全文数据库 前10条
1 贾玉祥;俞士汶;;语义选择限制的自动获取及其在隐喻处理中的应用[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
2 王惠;苏新春;;XHK基于语法知识的汉语词义描述[A];第六届汉语词汇语义学研讨会论文集[C];2005年
3 王惠;;汉英机器翻译中基于大型语义词典的汉语词义消歧[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
4 邱立坤;;现代汉语动名语串结构关系的判定[A];第六届汉语词汇语义学研讨会论文集[C];2005年
5 王萌;贾玉祥;俞士汶;;基于语料统计的量词对名词语义选择倾向的研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 海银花;那顺乌日图;;面向“蒙古语语义信息词典”的名词语义分类体系[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
7 吴平;;“NP+在+处所+VP”句式的逻辑语义分析[A];2004年逻辑研究专辑[C];2004年
8 李斌;曲维光;陈小荷;;名词转喻的自动理解[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 李向阳;张亚非;;一种基于语义的汉语短语识别方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 高晓超;韩世辉;;语义与社会信息加工过程中视听交互作用的神经机制[A];第十一届全国心理学学术会议论文摘要集[C];2007年
中国博士学位论文全文数据库 前10条
1 颜红菊;现代汉语复合词语义结构研究[D];首都师范大学;2007年
2 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
3 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
4 荚济民;基于互联网数据集的图像标注技术研究[D];中国科学技术大学;2009年
5 王欣;类型逻辑语法与现代汉语“是”和“的”[D];北京语言大学;2009年
6 吴尉林;可移植的稳健口语理解方法研究[D];上海交通大学;2007年
7 凌坚;新闻视频主题识别与跟踪的研究[D];浙江大学;2007年
8 孟凯;现代汉语“X+N_(役事)”致使复合词研究[D];北京语言大学;2009年
9 李线宜;上海手语类标记结构调查研究[D];复旦大学;2010年
10 海银花;面向信息处理的蒙古语名词语义研究[D];内蒙古大学;2010年
中国硕士学位论文全文数据库 前10条
1 方利;“外X”词语的多角度考察[D];华中师范大学;2012年
2 韩娟;《韩非子》形容词研究[D];河南大学;2008年
3 陈文慧;HSK名词的图片可表达性和表达方法研究[D];北京语言大学;2004年
4 沈新宇;基于直推式支持向量机的图像分类算法研究与应用[D];北京交通大学;2008年
5 刘丽丽;汉英民用陆地交通工具词语语义对比研究[D];鲁东大学;2008年
6 刘宗保;形、名语素构成复合词的语义类组合分析[D];南京师范大学;2008年
7 刘蓉;违反合作原则的汉语语义类修辞格及其语用功能研究[D];湖南农业大学;2011年
8 高研博;汉语动词论元约束优选信息的获取[D];上海交通大学;2008年
9 贾晓东;汉语动宾搭配识别研究[D];大连理工大学;2008年
10 张涛;中文文本中未知词语的词义知识获取[D];山西大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026