收藏本站
《中国科学院研究生院(计算技术研究所)》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

短文本语言计算的关键技术研究

龚才春  
【摘要】: 伴随着信息时代的到来,我国互联网事业和通讯事业发生了翻天覆地的变化,导致以电子形式存储和处理的数据爆炸性增长,存储成本的降低进一步使海量数据的存储和处理成为可能。这些数据中有很大一部分是长度很短的文本数据,如移动通信网络发出的手机短消息、即时通讯软件发出的即时消息、在线聊天室的聊天记录、BBS标题、博客评论、新闻评论等。各种形式的短文本已经成为我国各阶层普遍接受的信息沟通渠道和情感交流手段,深刻改变了亿万中国人的沟通方式和生活习惯。短文本数据量异常庞大,数据中包含人们对社会各种现象的种种观点和立场,话题涉及政治、经济、军事、娱乐、生活等各个领域,因此短文本语言计算在话题跟踪与发现、流行语分析、舆情预警等领域有广泛的应用前景。 短文本伴随着Web2.0的兴起而逐步引起研究者的注意,目前短文本语言计算的研究方兴未艾。短文本独特的语言特征导致其语言计算不同于传统文本的自然语言处理。单条短文本一般长度都非常短,样本特征非常稀疏,很难准确地抽取有效的语言特征;短文本实时性特别强,数量异常庞大,对短文本语言计算提出了比常规文本语言计算更高的效率要求;短文本表达简洁,错误拼写、不规范用语和噪音比较多,给短文本语言计算带来了更大挑战。针对短文本的特点,本文对短文本语言计算的若干关键技术进行了研究,主要包括短文本的冗余检测、短文本的有意义串发现和幽默短信的识别等。本文的主要研究成果包括: 首先,本文提出了短文本网络的概念,给出了两种常见的短文本网络的构建算法,这两种短文本网络分别为短文本指纹网络和短文本共现网络。通过构建短文本指纹网络实现了短文本语料的快速精确去重;通过构建短文本共现网络实现了短文本语料的快速近似去重。通过构建相应短文本网络,将短文本冗余检测问题转换为无向图的连通分支查找问题。本文还发现近似冗余短文本之间共现的一般是那些具有较高区分能力的词语,两条近似冗余短文本一般只是连词、代词、数词、标点符号等的使用不同,冗余传递性也是短文本语料特有的性质。本文提出的SimFinder冗余检测算法就是利用短文本语料的这些特性,进一步提高短文本网络挖掘的速度,从而提高短文本冗余检测的速度。 再次,本文提出了一种大规模语料频繁模式发现算法──Crusher。Crusher提出了一种大规模语料的划分策略,将待发现频繁模式的原始语料划分为若干子语料。Crusher对每个子语料独立发现其频繁模式结果,并能保证对各子语料发现的频繁模式结果的并集即为原始语料的频繁模式集。Crusher能够避免处理低频模式,从而大大提高频繁模式发现的速度。本文还提出了有意义串的局部性原理。有意义串的局部性原理包括时间局部性、空间局部性、地域局部性、说话人局部性和会话局部性等。本文将局部性原理应用于有意义串发现,先使用Crusher算法发现若干候选有意义串,并记录各候选有意义串的出现位置,依据其出现位置计算各候选有意义串的局部性,AV值差不多的两个候选有意义串,局部性较好的更有可能为有意义串。局部性原理的应用能够更好地发现频次不是非常高的有意义串,从而提高了有意义串发现算法的准确率和召回率。 最后,本文对人们熟悉的幽默手机短信的识别进行了若干探索,将幽默手机短信分为形式幽默和内容幽默两种,并对每一条短信分别计算排比指数、对联指数、押韵指数、内容幽默指数等,并综合计算其最终的幽默指数。实验表明,本文提出的幽默指数的计算方法总体上能够反映短信息的幽默程度,人工检验的结果表明,幽默手机短信的识别准确率能够满足实用需要,对短信关联的幽默指数也能够一定程度上反映短信的幽默程度。
【学位授予单位】:中国科学院研究生院(计算技术研究所)
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP391.1

手机知网App
【相似文献】
中国重要会议论文全文数据库 前3条
1 俞晓明;许洪波;;短文本时间敏感字串的提取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 彭泽映;俞晓明;许洪波;;大规模短文本的不完全聚类[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前2条
1 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年
2 翟延冬;基于WordNet的短文本语义网挖掘算法研究[D];吉林大学;2012年
中国硕士学位论文全文数据库 前10条
1 柴春梅;互联网短文本信息分类关键技术研究[D];上海交通大学;2009年
2 吴薇;大规模短文本的分类过滤方法研究[D];北京邮电大学;2007年
3 金瓯;长文本辅助短文本的知识迁移聚类方法[D];上海交通大学;2012年
4 马渊;短文本情感分析技术研究[D];重庆大学;2011年
5 蔡月红;基于类短语串和半监督学习的短文本分类研究[D];江苏大学;2010年
6 徐易;基于短文本的分类算法研究[D];上海交通大学;2010年
7 崔争艳;中文短文本分类的相关技术研究[D];河南大学;2011年
8 曹叶盛;基于关联扩展的中文短文本分类方法研究[D];北京邮电大学;2012年
9 姜英杰;基于本体的短文本分类研究[D];东北师范大学;2010年
10 贾洪强;面向海量短文本的舆情系统实现[D];北京邮电大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026