收藏本站
《国防科学技术大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

中文报业出版的文字质量智能辅助控制技术研究

侯锋  
【摘要】:从汉字“激光照排”技术的应用开始,中文新闻出版业的信息化水平突飞猛进。近年来,我国中文报业出版规模不断扩大,报社中的采编、组版、印刷、财务和发行等生产环节已实现信息化。但是,报业生产流程中的质量控制环节仍然以传统的全手工方式处理每日见报的新闻稿件及版面,效率低,成本高,成为报业生产的瓶颈所在。 本文从当前报业出版的现状和存在的问题出发,以报业生产流程优化为切入点,以自动文字查错和重稿检测为手段,以期实现智能辅助的报业出版文字质量控制。论文取得的主要成果如下: 1.对现有的报业生产流程和相关软件进行整合优化,提出了文字质量数字化智能辅助控制的概念框架和技术框架。优化后的生产流程不仅为人和计算机提供了协同质量控制的数字化平台,而且为计算机构建了闭环学习的环境,使其能从历史稿件中不断学习新词和语言知识,这些知识又应用于基于词汇语义类的文字查错和重稿检测算法,因此计算机可以较高的智能辅助人工质量控制。 2.为利用词汇语义进行语义层面的文字查错,提出了面向文字查错的汉语实词语义分类体系划分方法及种子词获取方法。并提出一种基于种子词的汉语实词义类自动获取算法,利用句法和构词素两种特征,从大规模未分词语料库中自动获取实词的义类标签,该算法能自动获取多义词的多个义类,并能识别情感词。给出了基于词汇义类的汉语词法分析过程,利用条件随机场模型标注词汇义类并识别名词短语边界。 3.根据新闻稿的文字错误类型及造成错误的原因,针对中文自动校对研究中没有解决的语法、语义以及前后不一致等错误,提出了四种针对不同错误类型的文字查错算法。基于义类3-gram的语义查错算法是利用词汇义类之间的邻接异常查找普通查错算法无法查出的真词替换错误,以及部分语法、语义错误。基于语义优选的查错算法是利用动词对主语和宾语的语义优选,查找长距离的动宾或主谓搭配错误。基于点互信息的复句结构和标点查错算法,是利用复句连词和标点之间的共现概率查找语法和标点错误。人名-职务不一致检测利用人名-职务对的比较,查找人名或职务在前后文的不一致错误。 4.针对重稿检测对历史稿件自动更新的需求,提出了重稿检测的流程与具体算法。算法首先对历史稿件按照广义话题进行分类,并在广义话题内对稿件聚类。在线重稿检测时,首先根据待测稿件的首段文字将其分配到相应的事件类下;然后利用全文特征在事件类内判断其是否为重稿。算法可以同时实现历史稿件自动更新和重稿检测,通过段落间的相似比较,提高重稿检测的精度。 基于生产流程优化的应用系统在《长江日报》上线并运行2年多,其在效率和成本方面的优势得到证明。本文提出的自动文字查错和重稿检测算法绝大多数也已在系统中得到应用。
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 吴云芳;;并列成分中心语语义相似性考察[J];当代语言学;2005年04期
2 冯元勇;孙乐;张大鲲;李文波;;基于小规模尾字特征的中文命名实体识别研究[J];电子学报;2008年09期
3 孙广路;王晓龙;刘秉权;关毅;;基于词聚类特征的统计中文组块分析模型[J];电子学报;2008年12期
4 宋擒豹,沈钧毅;数字商品非法复制和扩散的监测机制[J];计算机研究与发展;2001年01期
5 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
6 陈浪舟,黄泰翼;一种新颖的词聚类算法和可变长统计语言模型[J];计算机学报;1999年09期
7 李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期
8 洪宇;张宇;范基礼;刘挺;李生;;基于子话题分治匹配的新事件检测[J];计算机学报;2008年04期
9 周强,冯松岩;构建知网关系的网状表示[J];中文信息学报;2000年06期
10 闻扬,苑春法,黄昌宁;基于搭配对的汉语形容词-名词聚类[J];中文信息学报;2000年06期
中国重要会议论文全文数据库 前1条
1 董静;孙乐;吕元华;冯元勇;;基于线性链条件随机场模型的语义角色标注[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前1条
1 徐新文;基于内容的新闻视频挖掘方法研究[D];国防科学技术大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 徐文莉;;基于最大熵方法的DaR风险度量模型[J];安徽师范大学学报(自然科学版);2007年01期
2 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
3 焦健;瞿有利;;知网的话题更新与跟踪算法研究[J];北京交通大学学报;2009年05期
4 林正奎;唐焕玲;鲁明羽;王敬东;;基于特征多视图提升Naive Bayesian的Boosting改进算法[J];北京交通大学学报;2009年06期
5 蒋宗礼;徐学可;;一种基于集成学习与类指示器的文本分类方法[J];北京工业大学学报;2010年04期
6 吕学强;舒燕;施水才;;搜索日志中“V+N”、“V+V”型短语识别[J];北京信息科技大学学报(自然科学版);2012年02期
7 张国英,沙芸,刘玉树;模式识别中基于Boosting的特征筛选[J];北京理工大学学报;2004年07期
8 张仰森;曹元大;俞士汶;;最大熵方法中特征选择算法的改进与纠错排歧[J];北京理工大学学报;2006年01期
9 吕琳;刘玉树;;最大熵和Brill方法结合识别英语BaseNPs[J];北京理工大学学报;2006年06期
10 谭咏梅;王小捷;周延泉;钟义信;;使用SVMs进行汉语浅层分析[J];北京邮电大学学报;2008年01期
中国重要会议论文全文数据库 前10条
1 毛存礼;余正涛;线岩团;郭剑毅;雷雄丽;;基于短信的旅游景点酒店问答系统研究[A];中国自动化学会控制理论专业委员会A卷[C];2011年
2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 马骥;朱慕华;肖桐;朱靖波;;面向移进-归约句法分析器的单模型系统融合算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 潘雪莲;;词典中名词释义模式的选择[A];中国辞书学会第六届中青年辞书工作者学术研讨会论文集[C];2010年
5 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
6 王红军;徐林;张继宏;;一种模糊综合决策汉语谓词识别算法[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
7 边海容;万常选;李国林;杨莉;;Web金融信息情感倾向与上市公司财务危机的关系研究[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
8 孙涌;韦小丽;;领域本体构建研究及在专利信息服务中的应用[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
9 朱宏博;张芊;赵海;宋纯贺;;基于贝叶斯网络英文电影对白的潜在语义分析[A];第八届沈阳科学学术年会论文集[C];2011年
10 ;Comparison of Text Categorization Algorithms[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
3 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
4 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
5 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 杨峰;本体映射关键技术研究[D];吉林大学;2011年
8 王中锋;树型贝叶斯网络分类器鉴别式训练研究[D];北京交通大学;2011年
9 凯瑟(Qaisar Abbas);基于皮肤镜图像的皮肤病变检测方法研究[D];华中科技大学;2011年
10 刘冲;模拟电路故障诊断AdaBoost集成学习方法研究[D];大连海事大学;2011年
中国硕士学位论文全文数据库 前10条
1 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
2 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
3 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
4 程国斌;基于指示词语义扩展的词义识别方法的研究[D];哈尔滨工程大学;2010年
5 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
6 王森;基于主题树的自上而下文本复制检测研究[D];大连理工大学;2010年
7 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
8 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
9 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
10 孙伟;基于文档复制检测技术的研究与实现[D];辽宁工程技术大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 穗志方,俞士汶;汉语单句谓语中心词识别知识的获取及应用[J];北京大学学报(自然科学版);1998年Z1期
2 董振东,董强;知网和汉语研究[J];当代语言学;2001年01期
3 徐延勇,周献中,井祥鹤,郭忠伟;基于最大熵模型的汉语句子分析[J];电子学报;2003年11期
4 卢志茂;刘挺;李生;;统计词义消歧的研究进展[J];电子学报;2006年02期
5 裴继红,范九伦,谢维信;聚类中心的初始化方法[J];电子科学学刊;1999年03期
6 宋擒豹,沈钧毅;数字商品非法复制和扩散的监测机制[J];计算机研究与发展;2001年01期
7 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
8 韩习武,赵铁军;基于子类的汉语动词SCF获取回退[J];计算机工程与应用;2005年30期
9 钱雪忠;孔芳;;关联规则挖掘中对Apriori算法的研究[J];计算机工程与应用;2008年17期
10 熊华,老松杨,吴玲琦,李恒峰,吴玲达,李国辉;NewsVideoCAR:一个基于内容的视频新闻节目浏览检索系统[J];计算机工程;2000年11期
中国博士学位论文全文数据库 前1条
1 姚志强;说话人识别中提高GMM性能方法的研究[D];中国科学技术大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 肖文辉;;基于MySQL的全文检索系统的研究与应用[J];广西质量监督导报;2008年06期
2 崔晓玲;;数控代码查错与仿真[J];科技资讯;2009年23期
3 肖克曦;;在线英语语料库自动分词和分句的实现[J];电脑知识与技术;2010年28期
4 徐九韵,仝兆岐,向逐聪,王新民;数据库汉语查询语言的分词研究与实现[J];中文信息学报;1998年04期
5 李家福,张亚非;一种基于概率模型的分词系统[J];系统仿真学报;2002年05期
6 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
7 许云,樊孝忠,张锋;一种不需分词的中文文本分类方法[J];北京理工大学学报;2005年09期
8 陈福生;;全文检索在网站搜索系统中的应用[J];电脑编程技巧与维护;2009年12期
9 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
10 韩世欣,王开铸;基于短语结构文法的分词研究[J];中文信息学报;1992年03期
中国重要会议论文全文数据库 前10条
1 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李怡平;吴飞;;多语言环境下的分布式互联网分词平台[A];第十六届全国数据库学术会议论文集[C];1999年
3 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
4 徐冰;姚建民;杨沐昀;赵铁军;;汉语分词在机器翻译评价中的影响[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 陈丽江;;ACL-SIGHAN第一届国际中文分词竞赛评述[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
7 周俊;孙啸;;频繁序列算法在生物信息挖掘中的应用[A];第十次中国生物物理学术大会论文摘要集[C];2006年
8 苏新春;顾江萍;;“人”“机”分词差异及规范词典的收词依据——对645条常用词未见于《现汉》的思考[A];中国辞书论集2000[C];2000年
9 刘桐菊;于浩;赵铁军;;基于标引技术的特定领域XML文本自动生成[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 王厚峰;;机器翻译中汉语词节点的识别[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国重要报纸全文数据库 前10条
1 见习记者 魏东柱;2008年(开封)淮海经济区域城市报业联盟印务经营管理研讨会召开[N];开封日报;2008年
2 记者 胡光耀 韩万宁;美报业巨擘资不抵债申请破产[N];新华每日电讯;2008年
3 记者 杨菁;长江报业园步入全面建设期[N];长江日报;2008年
4 记者 禹超;促进报业更好更快发展[N];秦皇岛日报;2008年
5 曹亚宁;报业《落实“十一五”规划的发展措施》发布[N];中国改革报;2008年
6 广字;本报四项目获评中国数字报业第二批创新项目[N];广州日报;2008年
7 王伟;用科学发展观引领报业[N];齐齐哈尔日报;2008年
8 余丽娜;贵州金黔报业发行物流有限责任公司成立[N];中华新闻报;2008年
9 许宝健;迎接没有报纸的报业新时代[N];中国县域经济报;2009年
10 记者 杨蕾;危机促转型,美报业寻找新生存模式[N];新华每日电讯;2009年
中国博士学位论文全文数据库 前10条
1 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
2 颜红菊;现代汉语复合词语义结构研究[D];首都师范大学;2007年
3 祝文骏;基于视觉皮层网络的物体整体特征分析与算法研究[D];上海交通大学;2011年
4 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
5 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
6 荚济民;基于互联网数据集的图像标注技术研究[D];中国科学技术大学;2009年
7 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
8 王欣;类型逻辑语法与现代汉语“是”和“的”[D];北京语言大学;2009年
9 吕宁;基于数据驱动的故障诊断模型及算法研究[D];哈尔滨理工大学;2009年
10 吴尉林;可移植的稳健口语理解方法研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
2 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
3 赵春红;外包数据库模型中文本数据完整性检测方案的研究[D];燕山大学;2010年
4 卢育红;半结构化药物数据智能分类技术研究与系统实现(全日制专业学位)[D];北京交通大学;2011年
5 卢忠良;基于多类的汉语文本自动分类研究[D];中国人民解放军国防科学技术大学;2002年
6 苗玺;中文语料库切分不一致字串分类校验方法研究[D];山西大学;2006年
7 盛鹏;基于全文过滤的垃圾邮件防范机制[D];昆明理工大学;2006年
8 张楚屏;从分词的静词作用看分词在计算机英语中的翻译方法[D];华中科技大学;2006年
9 皮鹏;智能搜索引擎系统的研究[D];哈尔滨工程大学;2002年
10 都菁;基于论坛语料的未登录词自动识别新方法[D];西南大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026