收藏本站
《中国科学院大学(中国科学院沈阳计算技术研究所)》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

垂直分类信息采集及推荐系统的设计与实现

杨红立  
【摘要】:企业之间的竞争关键体现在科技创新上,而技术发展和进步的前提条件是对前人经验的总结和超越,这就需要科研人员收集并整理相关的文献资源。科研人员从海量网络文献资源中搜索自己所需的文献需要花费大量的精力和时间,因此对文献的收集和推荐也逐渐成为当前重要的研究方向之一。本文以实验室企业云服务平台项目为背景,设计并实现了一个垂直分类信息采集及推荐系统,完善了基于用户兴趣模型的推荐算法。本文完成的主要工作如下:1.实现了基于Scrapy开源框架的信息采集项目。该项目实现了对垂直型网站和分类信息网站的数据采集,并结合Scrapyd实现了爬虫项目的可视化管理。2.利用LDA算法训练文献集和预测新文献主题概率。通过LDA算法对文献集进行训练不仅降低了文献特征向量的维度和计算的复杂度,而且还可以挖掘出文献间潜在的主题信息。3.提出了一种基于用户兴趣模型的个性化推荐算法,该算法首先依据文献信息构建文献模型,然后结合用户历史操作信息创建用户历史兴趣模型,最后使用协同过滤算法挖掘出用户潜在偏好模型,再将两种模型融合成用户兴趣模型。经过实验验证,基于用户兴趣模型的推荐不仅弥补了基于内容推荐中的多样性不足问题,而且在一定程度上缓解了协同过滤推荐中的冷启动和数据稀疏性问题。
【学位授予单位】:中国科学院大学(中国科学院沈阳计算技术研究所)
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前10条
1 黄文彬;张惟恺;徐扬;;基于作者共引分析的推荐系统研究知识图谱构建[J];现代情报;2015年11期
2 朴尚哲;超木日力格;于剑;;模糊C均值算法的聚类有效性评价[J];模式识别与人工智能;2015年05期
3 于娟;刘强;;主题网络爬虫研究综述[J];计算机工程与科学;2015年02期
4 梁喜涛;顾磊;;中文分词与词性标注研究[J];计算机技术与发展;2015年02期
5 冷亚军;陆青;梁昌勇;;协同过滤推荐技术综述[J];模式识别与人工智能;2014年08期
6 荣辉桂;火生旭;胡春华;莫进侠;;基于用户相似度的协同过滤推荐算法[J];通信学报;2014年02期
7 王振振;何明;杜永萍;;基于LDA主题模型的文本相似度计算[J];计算机科学;2013年12期
8 史庆伟;李艳妮;郭朋亮;;科技文献中作者研究兴趣动态发现[J];计算机应用;2013年11期
9 黄恩博;;基于布隆过滤器的网页搜索去重方法[J];现代计算机;2013年21期
10 曹一鸣;;协同过滤推荐瓶颈问题综述[J];软件;2012年12期
中国硕士学位论文全文数据库 前6条
1 安子建;基于Scrapy框架的网络爬虫实现与数据抓取分析[D];吉林大学;2017年
2 钱宇;科研文献开放获取系统中的推荐算法研究与应用[D];浙江大学;2017年
3 马联帅;基于Scrapy的分布式网络新闻抓取系统设计与实现[D];西安电子科技大学;2015年
4 杨峥;基于用户兴趣变化的协同过滤推荐算法研究[D];燕山大学;2015年
5 欧晓恒;基于协同过滤的推荐算法研究[D];大连海事大学;2015年
6 代金龙;协同过滤算法中数据稀疏性问题研究[D];重庆大学;2013年
【共引文献】
中国期刊全文数据库 前10条
1 吕太之;毕家钦;;基于Hadoop平台的岗位分析和推荐系统的构建[J];河北软件职业技术学院学报;2017年04期
2 安政磊;姚文斌;;一种基于用户购买意向的个性化推荐模型[J];软件;2015年12期
3 潘昊;鄂海红;宋美娜;;布隆过滤器在网页消重中的应用[J];软件;2015年12期
4 田伟;韩海涛;;实现我国“互联网+档案”关键问题刍议[J];中国档案;2015年12期
5 俞晨光;朱允斌;金城;陆斐;;基于自动编码器的协同过滤推荐算法[J];微型电脑应用;2015年11期
6 曹斌;龚佼蓉;彭宏杰;赵立为;范菁;;基于用户阅读时间-频次行为的书籍推荐方法[J];计算机科学;2015年S2期
7 陈松景;李姣;侯震;侯丽;;移动健康技术在慢性病管理中的应用[J];中华医学图书情报杂志;2015年11期
8 张博;周瑞瑞;鱼冰;;协同过滤推荐算法专利综述[J];河南科技;2015年19期
9 吴应良;姚怀栋;李成安;;一种引入间接信任关系的改进协同过滤推荐算法[J];现代图书情报技术;2015年09期
10 宫小翠;赵迎光;安新颖;;研究前沿识别方法探析[J];医学信息学杂志;2015年09期
中国硕士学位论文全文数据库 前10条
1 乔佳新;科技信息自动跟踪管理系统研究与实现[D];西安理工大学;2018年
2 陈永杰;面向舆情的网页敏感度分析系统的设计与实现[D];新疆大学;2018年
3 孙小越;基于商务智能的竞品分析系统的设计与实现[D];青岛理工大学;2018年
4 杨红立;垂直分类信息采集及推荐系统的设计与实现[D];中国科学院大学(中国科学院沈阳计算技术研究所);2018年
5 许洋溢;计算机课程体系本体系统[D];吉林大学;2018年
6 钟宇;面向网络自媒体的空间数据挖掘研究[D];江西理工大学;2018年
7 韩云凤;基于Lucene的期刊论文库的检索技术研究[D];北方工业大学;2018年
8 于志浩;基于Android和网络爬虫的课外阅读系统设计与实现[D];山东大学;2018年
9 郑苗;基于网络爬虫的北京市房价研究[D];长江大学;2018年
10 刘熠;基于python的Web数据挖掘技术研究与实现[D];长江大学;2018年
【二级参考文献】
中国期刊全文数据库 前10条
1 孟祥保;钱鹏;;国际图书情报学研究群体结构——以核心作者互引分析为视角[J];情报科学;2015年05期
2 孙彦超;韩凤霞;;基于协同过滤算法的个性化图书推荐系统的研究[J];图书馆理论与实践;2015年04期
3 詹川;;大数据研究的知识图谱分析[J];图书馆论坛;2015年04期
4 高鹏斌;于渤;吴伟伟;郝生宾;;基于知识图谱的即兴领域知识结构及其演化分析[J];科技管理研究;2015年06期
5 向剑勤;赵蓉英;;国内外图书情报学研究主题的知识图谱比较研究[J];情报杂志;2014年02期
6 蔡强;韩东梅;李海生;胡耀光;陈谊;;基于标签和协同过滤的个性化资源推荐[J];计算机科学;2014年01期
7 冷亚军;梁昌勇;丁勇;陆青;;协同过滤中一种有效的最近邻选择方法[J];模式识别与人工智能;2013年10期
8 梁昌勇;冷亚军;王勇胜;戚筱雯;;电子商务推荐系统中群体用户推荐问题研究[J];中国管理科学;2013年03期
9 王连喜;;微博短文本预处理及学习研究综述[J];图书情报工作;2013年11期
10 邱均平;吕红;;近五年国际图书情报学研究热点、前沿及其知识基础——基于17种外文期刊知识图谱的可视化分析[J];图书情报知识;2013年03期
中国硕士学位论文全文数据库 前10条
1 崔泽峰;基于项目聚类和用户兴趣的个性化推荐系统研究[D];燕山大学;2014年
2 袁利;基于聚类的协同过滤个性化推荐算法研究[D];华中师范大学;2014年
3 赵鹏程;分布式书籍网络爬虫系统的设计与实现[D];西南交通大学;2014年
4 王欢;基于小世界隐式信任网络的自适应推荐算法[D];燕山大学;2013年
5 王晓辉;智能信息检索系统的设计与实现[D];中南民族大学;2013年
6 李贤芳;面向作战系统应用的数据分发中间件的研究与设计[D];南京理工大学;2013年
7 代金龙;协同过滤算法中数据稀疏性问题研究[D];重庆大学;2013年
8 岳可诚;个性化推荐技术的多样性研究[D];安徽大学;2013年
9 朱丽中;协同过滤系统的冷启动问题研究[D];大连理工大学;2013年
10 王颖;基于关联规则的电子商务个性化推荐模型研究[D];东北财经大学;2012年
【相似文献】
中国期刊全文数据库 前10条
1 杨玉霞;汤金金;;太阳能农机发动机监测系统设计—基于智慧农业物联网信息采集[J];农机化研究;2018年05期
2 张丽娜;范兴丰;李珂灵;;大数据下图书馆信息采集编撰整合研究[J];无线互联科技;2018年06期
3 本刊编辑部;;江苏启动知识产权质押融资需求信息采集工作[J];河南科技;2018年08期
4 张帅亮;马鹏博;张向磊;;农业信息采集与开发及信息资源开发利用模式探讨[J];山东工业技术;2016年23期
5 ;山东推进“多表合一”信息采集[J];农村电气化;2017年09期
6 熊先青;钱文婷;方露;庞小仁;吴智慧;赵雅洁;;大规模定制家具销售过程中的信息采集与处理[J];林业工程学报;2016年01期
7 刘青;刘钊;;美国管理预算局对政府信息采集的影响及启示[J];图书馆论坛;2014年12期
8 夏南强;胥伟岚;;嵌入性视角下信息采集学课程“翻转课堂”教学模式研究[J];现代情报;2015年01期
9 王军;;浅谈“互联网+”时代的数字化校园建设[J];吉林教育;2016年43期
10 刘燕德;周衍华;赵文星;刘德力;;数字化果园信息采集方法的研究进展[J];中国农机化学报;2014年02期
中国重要会议论文全文数据库 前10条
1 李静;张建;李淼;胡泽林;杨巍;张浩东;;便携式农田信息采集与管理系统的设计[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
2 周洪清;;客户动销信息采集工作的思考[A];湖北省烟草学会2007年学术年会论文集[C];2007年
3 汤众;;空间信息采集中三维激光扫描技术应用[A];2006年全国高等学校建筑院系建筑数字技术教学研讨会论文集[C];2006年
4 刘丽丽;;一种用于加油站信息采集的中控机设计[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
5 张庆毛;李矿;;基于互联网思维的市场信息采集研究[A];中国烟草学会学术年会优秀论文集[C];2017年
6 吴传宇;方文熙;;精准农业中的土壤信息采集和平衡施肥[A];福建省农业机械学会2004年学术年会论文集[C];2004年
7 李广义;王瑜;赵溪;;防汛应急移动信息采集处理系统研究[A];2018(第六届)中国水利信息化技术论坛论文集[C];2018年
8 郑爱华;陈晓强;吴晓刚;叶伟康;杜倩昀;;水调系统信息采集优化[A];浙江省电力学会2013年度优秀论文集[C];2013年
9 柯俊帆;;物联网射频识别技术应用在棉包信息采集工作的研究[A];第十五届中国标准化论坛论文集[C];2018年
10 陈渝光;施海;游四海;廖仕利;;基于车载网络的多模态信息采集[A];四川省电工技术学会第九届学术年会论文集[C];2008年
中国重要报纸全文数据库 前10条
1 记者 马燕 通讯员 李茜茜;云南部署“一标三实”信息采集运用工作[N];人民公安报;2017年
2 廖雪莹;强化信息采集 摸清真实需求[N];东方烟草报;2018年
3 本报记者 阮仕喜 通讯员 康志峰;佳县白云山派出所信息采集“五项指标”全部达标[N];人民公安报;2018年
4 程小刚 蔡忠和;山阳全面完成党组织和党员信息采集[N];商洛日报;2018年
5 见习记者 张慧膑 记者 赵庆山;三亚将实现流动人口和出租屋信息采集全覆盖[N];三亚日报;2018年
6 记者 樊未晨;北京“幼升小”不参加信息采集不能入学[N];中国青年报;2014年
7 孙敬国;全方位采集 规范化应用[N];东方烟草报;2018年
8 记者 赵静;切实增强责任感使命感 按时保质完成信息采集工作[N];青海日报;2018年
9 王海 蓝勇;一次信息采集 补发一笔涉军优待金[N];中国国防报;2018年
10 曹钰华;南通:鲜活数据成为精确打防的源头活水[N];人民公安报;2016年
中国博士学位论文全文数据库 前7条
1 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
2 张卫正;基于视觉与图像的植物信息采集与处理技术研究[D];浙江大学;2016年
3 许金普;农产品市场信息采集的语音识别鲁棒性方法研究[D];中国农业科学院;2015年
4 周真;云平台下运行环境感知的虚拟机异常检测策略及算法研究[D];重庆大学;2015年
5 李琦;面向行人群信息提取的视频图像目标跟踪算法研究[D];北京交通大学;2013年
6 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
7 舒昌俊;建设工程造价信息管理系统集成研究[D];武汉理工大学;2013年
中国硕士学位论文全文数据库 前10条
1 杨红立;垂直分类信息采集及推荐系统的设计与实现[D];中国科学院大学(中国科学院沈阳计算技术研究所);2018年
2 乔静轩;基于HITS算法的微博采集系统设计与实现[D];山东师范大学;2018年
3 李博涵;油气资源网络信息采集与分析方法研究[D];长江大学;2018年
4 徐兴丰;语音/传真系统信息采集优化方法的研究[D];山东师范大学;2018年
5 张丽;基于信息采集与监控的车联网服务系统的设计与实现[D];沈阳师范大学;2017年
6 汪思光;居民社区信息采集管理系统的设计与实现[D];湖北工业大学;2017年
7 郭会;基于有源RFID的高校人员信息采集与传输系统设计[D];河北大学;2017年
8 何宇南;深圳市龙岗区政府信息采集问题研究[D];广西民族大学;2016年
9 张刚;农业信息采集机器人结构及控制系统设计[D];东北林业大学;2016年
10 王小强;基于农业信息采集嵌入式系统的设计与实现[D];电子科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026