收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于搜索日志和点击日志的同义词挖掘的研究和实现

宋宇轩  
【摘要】:随着互联网的高速发展,电子商务逐步发展起来。对于电子商务网站的站内搜索引擎而言,都普遍存在效率底下的现象,本文就是在准确理解用户意图的基础上来完成的。本文是基于用户行为的搜索日志和点击日志的同义词挖掘的研究和实现,主要是针对现在互联网领域的近义词、错别词、外来词、新出词等不断增多的特点,来提炼出一个同义词表,用来做同义词的自动识别。 本文首先通过模式切分商品标题和基于SimRank思想聚集查询这两种方法获取侯选集合,同时也要用中英文挖掘和中中文挖掘的方法对搜索日志和点击日志提取出一个初始词表,然后再提取特征,本文主要研究了两词的字面特征、标题特征、查询特征和点击特征,最后对初始词里的每对词组计算各个特征的值,然后用这些特征值对机器学习模型进行训练,得到同义词判定的阂值,最后在候选集中筛选同义词,得到一份同义词表。 同义词表已经在公司得以应用,反应效果很好。本文分别运用GBDT和SVM两个模型进行同义词判定,实验表明GBDT取得更好的结果,准确率为56.52%,召回率为27.37%。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 孟海涛;陈笑蓉;;基于模糊相似度的科技文献软聚类算法[J];贵州大学学报(自然科学版);2007年02期
2 李旭;刘国华;余靖;王蕾;;一种面向文档复制检测的特征提取方法[J];小型微型计算机系统;2008年05期
3 杨子华;吴敏;刘琤;;基于灰度共生矩阵的笔迹识别[J];信息安全与通信保密;2006年06期
4 熊富琴;;多媒体数据库数据项的特征提取与检索[J];科技信息;2009年28期
5 陈洪敏;;3维模型2维投影图序列特征的异常检测[J];三明学院学报;2010年06期
6 谈文蓉;刘莉;;基于汉语相似性文献检测的特征提取算法研究[J];西南民族大学学报(自然科学版);2011年03期
7 黎龙;陈龙;王国胤;马永波;;基于特征融合的安全审计分析[J];重庆邮电学院学报(自然科学版);2006年05期
8 邓中亮;黄涛;;一种计算昆虫翅脉拓朴图相似度的方法[J];工业控制计算机;2010年03期
9 薛少娟;左万利;赫枫龄;;基于颜色分块全局直方图的图像检索方法及系统实现[J];吉林大学学报(理学版);2006年04期
10 李柳柏;;基于感知意象的图像检索技术[J];西南师范大学学报(自然科学版);2010年06期
11 宋麦玲,李欢;基于内容的图像检索系统[J];自动化博览;2005年05期
12 汪文睿;周良;;基于层次的草图检索框架[J];中国制造业信息化;2006年19期
13 李元臣;李志先;;基于综合特征的图像信息检索[J];情报杂志;2008年05期
14 于彩香;邱书波;;基于纹理特征提取的图像相似性检索[J];皮革科学与工程;2008年06期
15 黄传波;邵杰;万鸣华;金忠;;Contourlet变换在图像检索中的应用[J];计算机工程与应用;2009年03期
16 余东良;刘金瑄;;基于内容的图像检索技术研究[J];电脑知识与技术;2009年28期
17 贺妮;周明全;耿国华;王小凤;;一种基于加强三维模型细节的形状分布检索算法[J];计算机应用研究;2010年05期
18 王利卿;视频内容检索统计系统的研究与设计[J];微电子学与计算机;2005年09期
19 曾接贤;毕东格;;一种基于轮廓特征和拓扑关系的图像检索方法[J];计算机工程与应用;2008年05期
20 刘学平;李一波;;关于人脸识别原型系统设计的研究[J];沈阳航空工业学院学报;2009年04期
中国重要会议论文全文数据库 前10条
1 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
2 马坤;何英秋;;基于内容的害虫图像检索技术的研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
3 辛毅;方滨兴;贺龙涛;云晓春;李志东;;基于通信特征分析的蠕虫检测和特征提取方法的研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
4 龚慧超;项文波;侯晓霞;茅耀斌;;基于多示例学习的不良内容图像过滤算法研究[A];第十四届全国图象图形学学术会议论文集[C];2008年
5 林土胜;赖声礼;;视网膜血管特征提取的拆支跟踪法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
6 钱小聪;郑宝玉;穆明鑫;;神经网络联机手写签名验证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
7 张羽;汪源源;王威琪;余建国;林继耕;;狭窄血管多普勒信号特征提取的实验研究[A];21世纪医学工程学术研讨会论文摘要汇编[C];2001年
8 柳林霞;陈杰;窦丽华;;不变矩理论及其在目标识别中的应用[A];2002中国控制与决策学术年会论文集[C];2002年
9 杨日杰;施建礼;林洪文;;一种雷达视频回波特征提取方法研究[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年
10 代克杰;张红梅;盛赛斌;;基于BP网络的故障特征提取方法研究[A];2004中国控制与决策学术年会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 张旗;基于属性的图像分类研究[D];大连海事大学;2005年
2 张立福;通用光谱模式分解算法及植被指数的建立[D];武汉大学;2005年
3 苏彩红;墙地砖质量自动检测技术的研究[D];华南理工大学;2004年
4 宋余庆;医学图像数据挖掘若干技术研究[D];东南大学;2005年
5 宋晴;基于液滴分析技术和液滴指纹图的液体识别方法的研究[D];天津大学;2005年
6 吴婷;自发脑电脑机接口模式识别关键技术与实验研究[D];上海交通大学;2008年
7 孙真真;基于光学区雷达目标二维像的目标散射特征提取的理论及方法研究[D];中国人民解放军国防科学技术大学;2001年
8 武子玉;矿物近红外光谱信息提取及应用研究[D];吉林大学;2005年
9 王承;基于神经网络的模拟电路故障诊断方法研究[D];电子科技大学;2005年
10 孙蕾;医学图像智能挖掘关键技术研究[D];西北大学;2005年
中国硕士学位论文全文数据库 前10条
1 宋宇轩;基于搜索日志和点击日志的同义词挖掘的研究和实现[D];北京交通大学;2011年
2 李旭;基于串匹配方法的文档复制检测系统研究[D];燕山大学;2006年
3 曹晋高;视频关键帧提取方法研究[D];重庆大学;2008年
4 汤赛丽;常识知识问答系统中知识库构建的研究与设计[D];河南大学;2005年
5 周长录;基于保局子空间的人脸识别研究[D];吉林大学;2009年
6 曹志宏;维吾尔文字联机手写体识别系统的研究与实现[D];新疆大学;2007年
7 杨士红;分布式防火墙日志的入侵检测方法研究[D];湖北工业大学;2008年
8 李朋杰;基于形状直方图的三维模型检索算法的研究[D];燕山大学;2009年
9 宋星华;基于哼唱的音乐检索[D];南京理工大学;2008年
10 曾红梅;情绪图片视觉诱发EEG特征提取与分析[D];天津大学;2012年
中国重要报纸全文数据库 前10条
1 证券时报记者  韩如冰;基金投资相似度趋高[N];证券时报;2006年
2 聂磊 曹进 罗国安;中药指纹图谱相似度评价方法各有千秋[N];中国医药报;2006年
3 洪蕾;让日志管理“智能化”[N];中国计算机报;2005年
4 孟祥宁 张亚萌 郭青剑;山寨文化:是一种什么样的文化[N];中国艺术报;2009年
5 聂磊;曹进;罗国安;中药指纹图谱相似度评价方法作用各一[N];中国医药报;2005年
6 海潮;俄研究发现妊娠中毒症疑与夫妇HLA基因相似度有关[N];中国医药报;2007年
7 燕海霞;王忆勤;李福凤;脉象信号研究日渐深入[N];中国医药报;2005年
8 栾海;妊娠中毒症可能与夫妇 HLA基因相似度有关[N];医药经济报;2007年
9 沈阳药科大学药学院 孙国祥;中药指纹图谱研究新进展[N];中国中医药报;2007年
10 记者 李学梅;研究证实:父亲“偏爱”与自己相像的孩子[N];新华每日电讯;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978