文本挖掘算法及其在知识管理中的应用研究
【摘要】:
随着知识经济的到来,知识管理在社会经济中的作用日益重要。大多数的知识管理研究是为企业服务的,针对科研管理部门的知识管理研究非常少,本文对我国科研管理部门的知识管理问题进行研究。与其他领域相比,科研管理部门的知识管理有一定的特殊性。比如,科研管理部门管理着蕴含大量知识的立项建议申请书。挖掘并利用申请书中的知识,能够在从科学研究整体层面、学科领域层面和项目管理层面对科研管理工作提供决策支持。
申请书中的知识隐含在申请书内容之中,从申请书中挖掘知识会面临如下问题:申请书的知识表示不能完全依赖于词典;申请书研究内容与申报学科领域不能完全吻合;学科代码体系结构与实际研究领域的体系结构不能完全一致。针对上述问题,本文在以下几个方面进行了研究:
第一,提出一种不依赖于词典抽取高频词的桥接模式滤除算法(BPFA)。首先基于N-gram技术获取文本中的汉字结合模式及出现频率,然后通过消除桥接频率得到模式的支持频率,并依此来判断和提取正确词语。实验结果显示,BPFA能够有效提高分词结果的查准率和查全率。该算法适用于对词语频率敏感的中文信息处理。本文应用该算法,抽取申请书中出现的新术语,补充到系统词表中。
第二,粗分类数据中包含有文本内容与类别标记不符的噪声数据,这些噪声数据会对文本分类结果的精度产生不良影响。本文提出一种针对粗分类数据的噪音修正算法。首先建立文档关联网络,把文档上标记的类别作为原始的社团结构,并用模块度衡量社团结构的质量,通过优化模块度指标把噪声数据调整到正确的类别中,从而提高数据质量。实验结果表明,本文所提算法能够有效修正粗分类数据中的噪声,具有较高的有效性和鲁棒性。该算法可以用于文本分类训练数据的预处理,或作为辅助技术用于文献库建设等工作。本文把申报到各个学科代码下的申请书作为粗分类数据,应用该算法把与代码不符的申请书调整到正确的代码中。并根据调整后的数据建立代码模型,分析代码所代表研究领域的内涵和外延、代码之间的交叉关系。
第三,提出基于公共连接强度的快速聚类算法。利用社团成员之间的相似关系定义了社团连接强度,根据社团的公共连接强度定义了一种新的相似度计算方法,并应用该相似度计算方法提出一种凝聚聚类算法。在相似度计算中,综合考虑了社团内部和外部结构关系,因此能够避免其他算法在聚类初期容易出现的聚类错误。分别对拓扑和加权的实验数据进行聚类,实验结果证明了所提算法比其他算法更为有效。本文应用该算法对申请书进行聚类分析,形成了项目类,并对项目类和学科代码之间的关系进行了分析。
本文在理论方法研究的基础上,对国家自然科学基金委员会的基金管理工作进行了应用研究,分析了我国基础科学研究的整体发展状况和发展规律、各个学科领域的研究状况及其关系等,为制定发展规划、发展战略、学科代码体系调整以及项目管理提供决策支持。
|
|
|
|
1 |
王书贵,薛澜;现代企业的知识管理及成功因素分析[J];中国软科学;1999年03期 |
2 |
高尚;知识管理—强有力的竞争武器[J];煤矿现代化;1999年04期 |
3 |
洪明
,冉棋文
,蒋斌;新趋势:知识管理[J];市场观察;1999年02期 |
4 |
尼福
,章文光;知识管理:前景广阔[J];国外社会科学文摘;1999年09期 |
5 |
王如富,徐金发;知识管理的组织基础[J];科研管理;2000年05期 |
6 |
恩普森,容平;知识管理的挑战[J];国外社会科学文摘;2000年05期 |
7 |
王道,尤陶江;浅谈企业如何适应知识管理时代的要求[J];经济师;2001年07期 |
8 |
吴金希
,刘冀生;加强知识管理 提高我国高科技企业核心竞争能力[J];中外企业文化;2001年21期 |
9 |
甘永成
,祝智庭;知识管理的绩效评估[J];科学学与科学技术管理;2002年09期 |
10 |
袁桂琴;从信息管理到知识管理[J];河北大学学报(哲学社会科学版);2002年04期 |
11 |
郭涛;企业实施知识管理的误区和对策[J];科技与管理;2002年03期 |
12 |
彭亚利,卢淑琼,汤晓梅;埃森哲的秘密[J];软件世界;2002年09期 |
13 |
刘穗宏;企业竞争力与“知识管理”[J];西安政治学院学报;2002年02期 |
14 |
邓珍琴;21世纪的新管理模式—知识管理[J];华北科技学院学报;2002年01期 |
15 |
张新安;基于人本的知识管理[J];人才开发;2002年11期 |
16 |
王哲;知识管理与高校图书馆[J];经济师;2003年03期 |
17 |
刘希宋,邓立治;知识管理在现代企业中的运用[J];经济师;2003年06期 |
18 |
孟伟;现代企业的知识经济与知识管理[J];经济师;2003年12期 |
19 |
厉小军,胡上序;知识管理在化工企业中的应用[J];计算机与应用化学;2003年04期 |
20 |
王胜洲;知识管理的运作及其策略[J];企业经济;2003年02期 |
|