基于搜索日志和点击日志的同义词挖掘的研究和实现
【摘要】:随着互联网的高速发展,电子商务逐步发展起来。对于电子商务网站的站内搜索引擎而言,都普遍存在效率底下的现象,本文就是在准确理解用户意图的基础上来完成的。本文是基于用户行为的搜索日志和点击日志的同义词挖掘的研究和实现,主要是针对现在互联网领域的近义词、错别词、外来词、新出词等不断增多的特点,来提炼出一个同义词表,用来做同义词的自动识别。
本文首先通过模式切分商品标题和基于SimRank思想聚集查询这两种方法获取侯选集合,同时也要用中英文挖掘和中中文挖掘的方法对搜索日志和点击日志提取出一个初始词表,然后再提取特征,本文主要研究了两词的字面特征、标题特征、查询特征和点击特征,最后对初始词里的每对词组计算各个特征的值,然后用这些特征值对机器学习模型进行训练,得到同义词判定的阂值,最后在候选集中筛选同义词,得到一份同义词表。
同义词表已经在公司得以应用,反应效果很好。本文分别运用GBDT和SVM两个模型进行同义词判定,实验表明GBDT取得更好的结果,准确率为56.52%,召回率为27.37%。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|