收藏本站
《北京邮电大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于博文分布特征的博客精选技术研究

高晖吉  
【摘要】: 博客精选技术(Blog Distillation)是一种在大量博客中检索出围绕某个专一主题发表文章的博客的过程。在互联网上,用户往往希望找出一些特别关注某个兴趣的博客,例如篮球,电影,政治选举等等,这些博客所发表的博文往往大部分都集中于一个专一的兴趣或主题上,用户可以通过RSS订阅来关注该博客的更新动态,以获得该领域的知识。博客精选技术可以帮助互联网用户方便的找到志同道合的博客朋友,或找到自己感兴趣的某话题的专家,从而满足自己对该领域了解、学习与交友的需求。基于这个目的,本文重点研究了博客精选技术,并提出了基于博文分布特征的精选方法。与传统方法相比,本文的主要创新工作与成果如下: 1)设计并实现了一组基于博文相似度均值的基线实验,并结合博文的召回率-精确率分布曲线,在不浪费系统资源的前提下计算获得最高精确率的最小召回文档数,极大地提高了计算的效率与准确度。同时,该基线实验方案在2009年TREC全球Blog Distillation测试任务中获得了单项指标第一的成绩。 2)本文使用博客的博文相似分布为特征,侧重于挖掘特定话题下不同相关度的博客所含博文的分布特点。与传统侧重于挖掘主题与文章关键词之间相关度的方法不同,本文将检索的本质从“主题-关键词”的关系转化为“相关性-分布特征”的关系,更本质的揭露了相关博客的特征,并以此提出了一种质-数曲线,该曲线除了能很好的表征不同类别博客的分布特点外,也直接抽象出了博客的特征向量,本文以此特征向量进行分类识别取得了较高的精确度。 3)将类别不平衡问题的研究引入到博客精选技术中。由于本文使用的训练集中类别严重失衡,为了满足机器学习方法获得高精度结果的基本前提——即训练数据与测试数据拥有一致的类别分布,本文对测试数据集的类别分布进行了预测,利用预测结果调整训练集的类别分布,并重新进行训练与测试,结合样本选择以及对测试集大小的限定,本文实验在与2007年TREC Blog测试结果对比下名列前茅。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.092

手机知网App
【参考文献】
中国期刊全文数据库 前2条
1 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
2 刘江华,程君实,陈佳品;支持向量机训练算法综述[J];信息与控制;2002年01期
【共引文献】
中国期刊全文数据库 前10条
1 王东霞;张楠;路晓丽;;基于育种算法的SVM参数优化[J];安徽大学学报(自然科学版);2009年04期
2 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
3 程伟;张燕平;赵姝;;支持向量机在粮食产量预测中的应用[J];安徽农业科学;2009年08期
4 武素华;;基于最小二乘支持向量机的土壤含水量检测的研究与分析[J];安徽农业科学;2009年09期
5 陈念;沈佐民;;基于化学成分检测和SVM分类的茶叶品质鉴定[J];安徽农业科学;2010年15期
6 黄远顺;;矫直机的自动故障预报技术[J];安徽冶金;2012年01期
7 林春丽;齐欣;王克成;;SVM-KNN分类器在异常行为检测中的应用[J];辽宁科技大学学报;2010年05期
8 王亮;胡静涛;;基于LS-SVM的光刻过程R2R预测控制方法[J];半导体技术;2012年06期
9 梁万路;;代价敏感支持向量机的投影次梯度求解方法[J];兵工自动化;2011年04期
10 高学金;王普;孙崇正;易建强;张亚庭;张会清;;一种建立发酵过程模型的新方法[J];北京工业大学学报;2006年05期
中国重要会议论文全文数据库 前10条
1 宋海鹰;桂卫华;阳春华;;基于核偏最小二乘的简约最小二乘支持向量机及其应用研究[A];第二十六届中国控制会议论文集[C];2007年
2 顾小军;杨世锡;钱苏翔;;基于支持向量机的旋转机械多类故障识别研究[A];第二十六届中国控制会议论文集[C];2007年
3 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
4 姜明辉;袁绪川;;基于GA优化的个人信用评估SVM模型[A];第二十六届中国控制会议论文集[C];2007年
5 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
6 吴静珠;刘翠玲;孙晓容;;支持向量机在近红外光谱检测技术中的应用研究[A];第二十九届中国控制会议论文集[C];2010年
7 尹钟;张建华;;基于支持向量机方法的过程操作员功能状态分类[A];中国自动化学会控制理论专业委员会A卷[C];2011年
8 杨坤;纪志成;;基于峰值识别的改进SVM用电需求预测[A];中国自动化学会控制理论专业委员会B卷[C];2011年
9 晋朝勃;胡刚强;史广智;李玉阳;;一种采用支持向量机的水中目标识别方法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
10 郭玮;李智勇;朱晟;孙慧;;支持向量机在变压器油溶解气体检测中的应用[A];第一届电力安全论坛优秀论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 母丽华;煤矿安全预警系统的方法研究[D];哈尔滨工程大学;2010年
2 朱广平;混响干扰中的信号检测技术研究[D];哈尔滨工程大学;2009年
3 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
4 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
5 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
6 李先锋;基于特征优化和多特征融合的杂草识别方法研究[D];江苏大学;2010年
7 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
8 汪春梅;癫痫脑电信号特征提取与自动检测方法研究[D];华东理工大学;2011年
9 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
10 向国齐;支持向量回归机代理模型设计优化及应用研究[D];电子科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 展慧;基于多源信息融合技术的板栗分级检测方法研究[D];华中农业大学;2010年
2 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
3 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
4 安文娟;Fisher和支持向量综合分类器[D];辽宁师范大学;2010年
5 姜成玉;基于支持向量机的时间序列预测[D];辽宁师范大学;2010年
6 姜念;区间自适应粒子群算法研究及其应用[D];郑州大学;2010年
7 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
8 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年
9 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
10 刘松;基于OCSVM和主动学习的DDOS攻击分布式检测系统[D];郑州大学;2010年
【二级参考文献】
中国期刊全文数据库 前3条
1 田盛丰,黄厚宽;基于支持向量机的数据库学习算法[J];计算机研究与发展;2000年01期
2 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
3 卢增祥,李衍达;交互支持向量机学习算法及其应用[J];清华大学学报(自然科学版);1999年07期
【相似文献】
中国期刊全文数据库 前10条
1 王丽君,高迎,王锡钢;中文检索系统中查询的扩展[J];小型微型计算机系统;2002年07期
2 王明文,聂建云;基于Dempster-Shafer理论的查询扩展模型(英文)[J];江西师范大学学报(自然科学版);2005年03期
3 章旭;石进;谢立;;基于相似性叙词表的模糊集合模型[J];计算机科学;2008年09期
4 闭剑婷;苏一丹;;基于潜在语义分析的跨语言查询扩展方法[J];计算机工程;2009年10期
5 申丽平;;WordNet在查询扩展中的应用研究[J];科技信息;2009年14期
6 张超盟;李战怀;温宗臣;;局部上下文分析剪枝概念树的查询扩展[J];计算机工程;2009年14期
7 李东园;白宇;蔡东风;;面向中文问答的信息检索系统及评测[J];沈阳航空工业学院学报;2009年03期
8 王会进,陈超华,李清;基于动态知识库搜索引擎的技术[J];暨南大学学报;2004年01期
9 牟力科;张蕾;张晓孪;;基于概念图的用户兴趣查询扩展模型的研究[J];计算机工程与应用;2008年06期
10 陈晓金;王兵;;信息检索扩展技术研究[J];图书情报工作;2008年12期
中国重要会议论文全文数据库 前10条
1 黄明初;钟威;何拥军;蒙斌;;基于查询扩展的数字档案检索策略[A];广西计算机学会2010年学术年会论文集[C];2010年
2 张志强;孟庆海;谢晓芹;;个性化的社会标签查询扩展技术研究[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
3 陈忆群;曹瑾音;印鉴;;查询扩展树:关系数据库中的文本检索[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
4 马云龙;林鸿飞;;基于权重标准化SimRank方法的查询扩展技术研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 周斌;刘茂福;陈建勋;;IR4QA系统中基于维基百科的查询扩展[A];第五届全国青年计算语言学研讨会论文集[C];2010年
6 钟敏娟;万常选;;基于伪反馈的XML查询扩展[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
7 黄名选;;基于正负关联规则挖掘的局部反馈查询扩展[A];第六届全国信息检索学术会议论文集[C];2010年
8 邵兵;关毅;王强;王晓龙;任瑞春;;基于上下文平均互信息的问句查询扩展模型[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 黄佳来;王立波;袁道敏;;基于语义相似度的查询扩展研究[A];浙江省电子学会2008年学术年会论文集[C];2008年
10 李东园;白宇;蔡东风;;基于用户日志分析的查询扩展研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国重要报纸全文数据库 前1条
1 彭遂莅 李涛;成都公开保险营销员信用信息[N];中国保险报;2011年
中国博士学位论文全文数据库 前10条
1 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
2 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
3 王俊义;正负相关反馈与查询扩展技术的研究[D];内蒙古大学;2012年
4 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
5 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
6 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年
7 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年
8 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年
9 王秉卿;基于机器学习的查询优化研究[D];复旦大学;2012年
10 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 贾淑芳;基于用户日志聚类的查询扩展[D];北京邮电大学;2010年
2 王水利;基于互信息的语义查询扩展技术研究[D];河南科技大学;2011年
3 崔琰;基于用户兴趣及术语关系的查询扩展方法[D];河北大学;2011年
4 方勇;基于语义的信息检索方法研究与应用[D];浙江大学;2010年
5 刘清江;同义词在文本特征提取与查询扩展中的应用[D];河北大学;2010年
6 于水;专利术语知识库的建立与应用[D];沈阳航空工业学院;2010年
7 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
8 周剑烽;基于语义本体的信息检索方法的研究[D];杭州电子科技大学;2010年
9 赵春辉;基于关联规则挖掘的查询扩展[D];河南大学;2011年
10 胡珍新;面向用户的查询扩展研究与实现[D];江西师范大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026