收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向分类效用的流数据文本聚类和局部敏感哈希算法研究

周梦泉  
【摘要】:流数据往往是由连续的数据块组成,数据流场景下的检索研究是数据挖掘领域的重要基础应用,其在机器学习等各种分析任务中扮演着不可替代的重要作用。特别地,其是电子邮件的分类、新闻推送、医学诊断、文本识别、信用卡欺诈检测等的基石。传统的检索方法不能充分考虑到样本间的语义关系从而在效用和效率方面表现较差。本文基于聚类算法和局部敏感哈希算法来检索数据流文本信息的类别标签属性。特别地,在对文本检索、文本聚类和局部敏感哈希的进行综述的基础上,深入研究和分析了现有聚类算法和近似最近邻检索技术,设计了对应的研究方案。具体内容如下:聚类算法是解决无标签数据检索分类的的有效手段,但在研究中经常面临着相似度的选择比较武断带来的聚类效用较差的问题,许多学者提出一些改进算法来缓解。无论选择皮尔逊相似度还是TF-IDF(Term Frequency-Inverse Document Frequency)相似度都不能保证聚类的效用,而且可能在一个数据集上的效果好,在另外个数据集上的效果差。同时,在数据流场景下,服务器在初始阶段需要对到来的数据块进行聚类。为了满足实时响应的要求,同时达到较高的聚类效用,本文提出“误差驱动的多相似度模糊C均值聚类”算法PCM(PSObased FCM)。在PCM中,采用皮尔逊相似度、TF-IDF相似度以及杰卡德等相似度进行融合,同时采用粒子群优化算法来自适应地求解各个相似度所占用的权重以避免遍历所有权重带来的大量计算开销。最后,由于到来的数据块往往存在不均衡的问题,直接采用现有的硬聚类比如KMeans算法会导致大多数样本被分给样本数较多的类别,提出扩展T-S(TakagiSugeno)优化的模糊C均值算法进行处理。在爬取的数据集和两个真实数据集上的实验结果表明,PCM算法相比较传统聚类算法有较大提升,同时由于采用粒子群这样的启发式优化算法,从而有效地降低了时间开销。在数据流中新的数据块到来的时候,本文对数据块中的每条记录结合局部敏感哈希进行特征匹配以求达到精度和效率的均衡。显然,数据流中每条特征的构造方式以及好坏关系到检索的精度和复杂度。传统的特征构造方式构造的特征区分度低,而且构建时间较长,不能满足本文数据流场景下的实时性需要。现有研究表明,基于哈希的方法在效用和效率方面表现较优。为了在较低复杂度的前提下构造出精度较高的特征,本文基于局部敏感哈希,提出“数据驱动的分层监督核局部敏感哈希”算法SKH(Supervised Kernel Hash)。在SKH中,首先利用分层思想精心构建的的监督信息,采用数据驱动的形式学习哈希码,引入核函数增强了数据的可分能力,进一步提升了检索的效率。在爬取的数据集和两个真实数据集上的实验结果表明,SKH算法的检索效用相比较传统检索算法有提升,同时由于采用核函数来提取特征从而也有效地降低了时间开销。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 胡子悦;;对行动鉴别论题的辩护——一种行动效用的路径[J];江西社会科学;2021年11期
2 林小惠;聂雪坤;林敏华;黄维英;陈子春;;儿童九维健康效用量表的应用介绍[J];中国卫生经济;2020年05期
3 聂卉;;基于内容特征的评论效用排名预测——以豆瓣书评为例[J];管理评论;2021年02期
4 闫志华;唐锡晋;;融合高效用模式的在线媒体突发话题发现[J];系统工程理论与实践;2021年05期
5 杨云;刘彦戎;;一种高平均效用项集挖掘的有效算法[J];信息与电脑(理论版);2020年05期
6 李增源;;实验材料在演讲稿写作中的独特效用[J];应用写作;2019年12期
7 張子鶴;;我對中药效用臨床研究目標的意見[J];北京中醫;1954年01期
8 李增源;;情景描述在演讲稿写作中的独特效用[J];应用写作;2017年12期
9 宣颖超;;论医生收入组成对患者效用的影响[J];商;2016年13期
10 张行;顾永红;;居民医疗保险中道德风险引致福利效用损失测度——理论分析模型及框架[J];西北人口;2011年05期
11 刘腾飞;徐富明;孙彦;张军伟;蒋多;;基于体验效用的幸福及其测量[J];心理科学进展;2010年07期
12 伊辉勇;刘伟;;效用空间驱动下的产品在线定制过程研究[J];科技进步与对策;2009年12期
13 黄勇昌;;论语言文化与政治效用的关系[J];中州学刊;2009年05期
14 陆超;;吉芬商品的效用层次分析[J];现代经济信息;2009年23期
15 刘静;;快乐与效用[J];企业文明;2006年10期
16 ;效用计算趋于清晰[J];每周电脑报;2005年01期
17 Jan Stafford ,Tech Target;效用计算减少人力成本——专访Qlusters公司CIO David Martin[J];信息系统工程;2005年03期
18 刘军;效用计算定义新存储[J];中国计算机用户;2004年33期
19 马天蔚;;VERITAS引爆效用计算[J];每周电脑报;2004年16期
20 王宗绍;;新闻价值中的效用关系分析[J];记者摇篮;2004年03期
中国重要会议论文全文数据库 前20条
1 周燚;;论影响企业制度效用的因素[A];第二十九届荆楚学术研讨交流会论文集[C];2019年
2 韩颖;;城乡一体化建设的价值效用与进程评析——以宝鸡市为例[A];《资本论》与全面深化经济体制改革——陕西省《资本论》研究会2014年学术年会论文集[C];2014年
3 戴昌钧;刘广;;信息效用及其在决策行为中的应用[A];中国信息经济学会2007年学术年会论文集[C];2007年
4 张琴;周红芹;;探析公共性对政府行为的双重效用[A];“落实科学发展观推进行政管理体制改革”研讨会暨中国行政管理学会2006年年会论文集[C];2006年
5 王海龙;肖剑杰;;半导体产业模块化知识网络对发明效用的影响研究[A];第九届中国科技政策与管理学术年会论文集[C];2013年
6 施宏伟;王发年;;内生增长过程的知识共生模型与科技信息效用优化目标[A];第三届(2008)中国管理学年会——市场营销分会场论文集[C];2008年
7 熊毅;;效用可测量:一场“序数主义革命”的再革命——一个心理学与经济学杂交的幸福经济学成果[A];外国经济学说与中国研究报告(2014)[C];2015年
8 朱晓;蒋文军;;利用统计分析建立地下空间楼层效用比[A];中国房地产估价与经纪2014年第5期(总第108期)[C];2014年
9 彭红;赵丹青;许虹;谢小保;欧阳友生;陈仪本;;测试驱螨织物驱螨效用的新方法初探[A];第五届中国抗菌产业发展大会论文集[C];2006年
10 姜青舫;姜树元;;可测效用的函数式系统[A];科学发展观与系统工程——中国系统工程学会第十四届学术年会论文集[C];2006年
11 宋捷民;;《本经》药物效用解难与临床应用[A];2015年糖尿病学术年会暨第十六次中医糖尿病大会论文集[C];2015年
12 于凤杰;陈亮;刘震;张文新;;留守青少年的未来规划与教师支持、教育效用的关系[A];第二十届全国心理学学术会议--心理学与国民心理健康摘要集[C];2017年
13 宋国杰;王腾蛟;唐世渭;杨冬青;;数据流中频繁模式的评估与维护[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
14 张冬冬;李建中;王伟平;郭龙江;;分布式复式数据流的处理[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
15 后小亮;刘奇志;高先锋;檀宝权;;大量多态数据流的综合压缩算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
16 李翔;徐建南;戴志坚;;逻辑分析仪中多路数据流的图文融合显示[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
17 魏敏;曾涛;;论使用价值与效用的关系[A];社会主义社会劳动和劳动价值理论探析[C];2002年
18 杜晓晓;;试论时间距离对决策预测效用的影响[A];第十二届全国心理学学术大会论文摘要集[C];2009年
19 于亚新;王国仁;陈灿;苏林;朱歆华;赵相国;;基于操作符优先级的两种分布式数据流负载分配算法研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
20 罗秀;王大玲;冯时;于戈;;一种面向周期性概念漂移的数据流分类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国博士学位论文全文数据库 前20条
1 尚雪松;绝对与相对效用权衡的自己-他人差异:预测偏差的视角[D];华东师范大学;2021年
2 甘文生;效用挖掘技术及其应用[D];哈尔滨工业大学;2020年
3 马婷婷;效用主义的争论与现状[D];浙江大学;2008年
4 何伟;我国医药卫生领域成本-效用阈值的估算研究[D];沈阳药科大学;2020年
5 耿晓伟;决策的经验效用判断偏差的机制及校正[D];浙江大学;2007年
6 施宏伟;论成本效用差异及其系统控制[D];西北农林科技大学;2003年
7 叶子平;基于需求角度的我国成本-效用阈值研究[D];沈阳药科大学;2021年
8 林玲;面向概念漂移的数据流统计抽样方法研究[D];南京大学;2020年
9 姚远;海量动态数据流分类方法研究[D];大连理工大学;2013年
10 郝身永;决策效用、感受效用与幸福—理论分析与中国实证[D];南开大学;2013年
11 郑军;网络恶意数据流的检测与控制技术研究[D];哈尔滨工业大学;2006年
12 李艳红;面向符号数据流的演化聚类分析[D];山西大学;2015年
13 王斌锋;SDN网络数据流测量关键技术研究[D];国防科技大学;2019年
14 李军;基于用户行为挖掘的数据流管理技术研究[D];北京邮电大学;2012年
15 金澈清;数据流上若干查询处理算法的研究[D];复旦大学;2005年
16 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
17 杨颖;分布式数据流查询处理若干关键技术的研究[D];东华大学;2006年
18 秦首科;数据流上的异常检测[D];复旦大学;2006年
19 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
20 王伟凯;生物智能启发的数据流安全存储与实时计算[D];东华大学;2020年
中国硕士学位论文全文数据库 前20条
1 周梦泉;面向分类效用的流数据文本聚类和局部敏感哈希算法研究[D];南京邮电大学;2021年
2 刘博;基于余弦相似度的概念漂移数据流分类方法研究[D];辽宁师范大学;2017年
3 李海鹏;宋代效用兵研究[D];西北大学;2020年
4 张孟姣;基于效用的负序列规则挖掘关键技术研究[D];齐鲁工业大学;2021年
5 姜强男;基于主体效用的产学研协同创新机制研究[D];重庆理工大学;2016年
6 张照;非股权安排条件下的治理效用资产假说[D];苏州大学;2005年
7 崔圣敏;带有博弈元素和区间数效用的影图[D];云南大学;2013年
8 袁鹏举;制度效用有限论[D];湘潭大学;2007年
9 刘璐;高平均效用项集挖掘算法研究[D];北方工业大学;2020年
10 钟陈;论提高法律移植的效用[D];对外经济贸易大学;2007年
11 刘小东;货币等效用测度研究及应用[D];重庆工商大学;2014年
12 牛耕;保健品“效用网”运营模式及管理研究[D];华北电力大学(北京);2016年
13 贺春梅;自我设限对印象管理效用的影响[D];北京体育大学;2010年
14 张珍年;村落经济与孩子成本效用变化的分析[D];华中师范大学;2010年
15 刘金玲;中学地理课堂有效用图的研究[D];首都师范大学;2007年
16 吴小琴;基于效用管理的图书使用因子评价模型的研究[D];南京邮电大学;2012年
17 杨进国;高技术企业效用扩散研究[D];北方工业大学;2008年
18 张博岚;基于数据流的频繁高效用集挖掘算法研究[D];兰州财经大学;2020年
19 芮家琪;产品效用的随机性对企业定价决策的影响研究[D];南京大学;2019年
20 韩雨;效用感知下的动态车辆合乘分配方法研究[D];郑州大学;2021年
中国重要报纸全文数据库 前20条
1 记者 黄晓芳;深度贫困地区土地释放更大效用[N];经济日报;2017年
2 本报记者 李江华 通讯员 朱若葵;合署合心合力 发挥“1+1>2”效用[N];郴州日报;2018年
3 王;VERITAS力推“效用计算”合作伙伴商机凸显[N];电脑商报;2004年
4 ;HP、Cisco携手效用计算[N];计算机世界;2003年
5 记者 郭平;VERITAS实现效用计算[N];计算机世界;2003年
6 本报记者 张峰;存储效用计算[N];网络世界;2003年
7 本报记者 李珂;发挥好1+1>2的效用,推进文化与旅游深度融合[N];福建日报;2018年
8 本报记者 丁鑫;发改委:明年将推出一批激活力强动力效用明显的改革措施[N];证券日报;2014年
9 ;通过软件实现效用计算[N];中国电子报;2004年
10 陇东报、掌中庆阳记者 张烨 通讯员 何鹏涛;西峰:水利小工程发挥大效用[N];陇东报;2017年
11 本报记者 李巍 通讯员 宋有军;创效用高招 提质有新法[N];中国冶金报;2021年
12 记者 吕进玉;法匹拉韦治疗新冠肺炎效用被肯定 原研及仿制公司意外走红[N];第一财经日报;2020年
13 记者 郭晋晖;经济强韧性叠加减税降费利好 就业稳定器效用渐显[N];第一财经日报;2019年
14 记者 王炤坤 邹伟;为百姓花钱效用最大[N];新华每日电讯;2009年
15 记者 胡毓;希腊船东关注船舶长期效用[N];中国船舶报;2010年
16 杨世军 张宏飞;黄卫要求充分发挥普查效用[N];中国测绘报;2013年
17 本报记者 张峰;实现效用计算 异构软件当先[N];网络世界;2004年
18 本报记者 撰述;ERP普及提速“易化”是关键[N];亚太经济时报;2006年
19 本报两会报道组记者 朱晓波;在钢铁、化工等行业注重煤炭替代及高效用煤[N];中国冶金报;2021年
20 记者 唐彪;有序抓好相关工作 让工程尽早发挥效用[N];广元日报;2016年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978