开发工具:
文件大小: 2mb
下载次数: 0
上传时间: 2019-07-08
详细说明:科技文献数据挖掘关键技术研究分类号
密级:
UDC
编号
工学硕士学位论文
科技文献数据挖掘关键技术研究
硕士研究生:李梦阳
指导教师:姚念民教授
学位级别:工学硕士
学科、专业:计算机科学与技术
所在单位:计算机科学与技术学院
论文提交日期:2015年3月3日
论文答日期:2015年3月13日
学位授予单位:哈尔滨工程人学
Classified Index
U. D. C.
A Dissertation for the degree of M. Eng
Research on key technology of scientific literature
data mining
Candidate: Li
Mengyang
Supervisor: Prof. Yao Nianmin
Academic Degree Applied for: Master of Engineering
Specialty: Computer science and technology
Date of Submission: Mar 3, 2015
Date of oral Examination Mar13.2015
University: Harbin Engineering University
科技文献数据挖掘关键技术研究
摘要
科技文献的薮量呈爆炸性増加,科硏知识的演变和进化更加迅捷,难以快速掌握
如何从大量科技文献中快速分辨岀貝冇较髙阅读价值的文献成为硏究者普遍关注的问
题
被引频次是指在一段指定的时间段内科技文献被其他文献引用的次数,是评估科技
文献影响力和质量的重要方法。但被引频次的统计易受到当前时间点的限制,很难获得
未来时间段内的被引用情况,进而影响对科技文献在科技贡献力方面的评估。亟待提供
种自动化地预测科技文献被引频次的方法,更快的识别有潜力的文献,促进科学研究
和新知识的传播。
本文研究科技文献被引频次预测算法。
木文具伓研究内容如下:首先提岀对国际顶级数据挖掘比赛 KDDCUP中冠军算法
进行优化改进,在划分训练和测试集合之前加入对文献主题词的分析,按照主题词对文
献集合进行聚类,在每个类中进行回归预测,以减少因为主题时间点引用情况差异对预
测准确性的影响。实验分析显示,改进的算法比原算法的预测准确度提高3.4%。
其次针对目前已有算法的不足,本文提出一种新的基于时间序列相似度聚类的被引
频次时间序列预测方法,运用时间序列回归建模和相似度聚类等数据挖掘技术,不但能
够自动分析每个文献岀版后的被引用情况,获得每个月份的平均被引频次,还通过聚类
挖掘岀文献的不同被引模式,进而根据待测文献的已有时间序列预测出未来的被引频
次。通过实验分析发现,新的算法比原算法预测准确度提高6.5%。
关键词:被引频次预测:时问序列;聚类分析;回归预测
科技文献数据挖掘关键技术研究
Abstract
With the rapid incrcasc of the number of scicntific literatures, the devclopment and
evolution of scientific knowledge become more and more quickly. It is very difficult for
researchers to grasp and understand the informations quickly. Therefore, how to discover the
literatures which have higher value of reading from a large amount of scientific literatures has
attracted a lot of attention from more and more researchers
Citation count refers to the total number of citations which is obtained by a scientific
literature in a specified period of time. Citation count is an important method to evaluate the
influence and quality of scientific literatures. But it has many limitations to analysis the
citation count, such as the current time point. Based on these circumstances, it is a challenging
task to get the citation count in the future which will has a bad effection on the assessment of
sccicntific litcraturcs'contribution. In order to identify the potcntial literatures quickly and
promote the dissenmination of new knowledge, a method which can predict the citation count
automatically and exactly is needed
This paper focus on the algorithm which is used to prediction citation count of
scientific literatures
The research details of this paper are as follow: Firstly, we present a improved
algortihem for the citation count prediction task in the international top competition on data
mining which is named by KDDCUP. Compared with the algorithm of the team in the first
place, we analysis the topic words of literatures in the dataset. Then we cluster the literatures
according to their topic words, do regression forecast in each class in order to reduce the
impact cause by the diffcrcnccs of cach topic on academic activity. Expcrimcntal analysis
shows that the improved algorithm can improve the prediction accuracy compared with the
original algorithm
Based on our findings about the shortage of existing algorithms, this paper propose a
new citation count time series predicting algorithm and evaluate it using the real citation data
This algorithm is based on the similarity of citation pattern, using time-series regression
modeling and similarity clustering data mining technology. On one hand, our algorithm can
analyze the citation count of each literature in the dataset automatically and get the average
哈尔滨工程大学硕士学位论文
citation count in each month. On the other hand we also mine the different citation patterns by
similarity clustering, so we can predict the citation count based on the existing citation count
time series. Analytical and simulation results show that our prediction algorithm can achieve
higher accuracy
Keywords: citation count prediction; time series; cluster analysis; regression forecast
科技文献数据挖掘关键技术研究
目录
第1章绪论
.···:·
1研究背景….…
1.2科技文献被引频次预测国内外研究现状,
121国内研究现状
12.2国外研究现状
3论文的主要工作
1.3.1研究方案
223446
1.3.2预期结果
1.4论文的组织结构.
第2章 KDD Cup被引频次时间序列预测算法……
看··4音,D垂看。音看看看·4·鲁D
21 KDD Cup竞赛仁务概述
21 KDD Cup赛背景概述
212 KDD Cup竞赛任务概述…
213 KDD Cup竞赛结果概述
22基于KNNC的被引频次时间序列预测算法
221时间序列预测研究概述.
222基于KNNC的被引频次时间序列预测算法
,,
16
3基于KNNC的被引频次时间序列预测算法评估..20
2.3.1预测结果
20
232结果分析
20
24本章小结
20
第3章改进的被引频次预测算法
21
3.1改进的被引频次预测算法概述.
21
3.1.1改进的被引频次时间序列预测算法思想.
3.1.2改进的被引频次吋间序列预测算法流程.
2
3.,2改进算法中的主题聚类了算法.………………………………2
32.1聚类方法概述
.22
322基于划分的聚类方法
3
32.3基于层次的聚类方法
24
324基于密度的聚类方法
3.2.5基于网格的聚类方法
哈尔滨工程大学硕士学位论文
32.6改进算法中的主题聚类子算法思想…
3.2.7改进算法中的主题聚类子算法流程..
28
33本章小结
30
第4章基于时间序列聚类的被引频次预测算法….
31
4.1时间序列相似度研究概述
31
4.1.1基于形状的相似度衡量方法
4.1.2基于特征的相似度衡量方法
32
4.1.3基于模型的相似度衡量方法,
4.1.4基于压缩的相似度衡量方法
4.1.5基于符号转换的相似度衡量方法
42时间序列聚类分析方法概述
··········
34
43基于时间序列聚类的被引频次预测算法
,35
4.3.1基丁吋间序列聚类的被引频次预测算法思想、…
35
4.3.2基于吋间序列聚类的被引频次预测算法流程.
38
44本章小结.
垂。.··看·4.
看··
39
第5章实验结果及分析.
看着垂
41
51实验方案
41
51.1实验设置
5.1.2实验数据集
513实验数据预处理
.4l
514实验测试方案
52实验测试
48
5,2.1改进后的被引频次预测算法测试
522基于时间序列聚类的被引频次预测算法测试
48
53实验结果分析
50
53.1改进后的被引频次预测算法结果分析
5.3.2基于时间序列聚类的被引频次预测算法结果分析.
54本章小结
51
结论
53
参考文献
55
攻读硕士学位期间发表的论文和取得的科研成果
b音音垂音·看看着垂垂音D着D音垂音音垂音
致谢………..63
第1章绪论
第1章绪论
1.1研究背景
科技文献是科硏工作者研究成果的重要载体,乜是启发科硏领域新想法并推动科研
进步的强大助力。研究人员在科学研究的过程中需要阅读和参考大量的科技文献。但随
着信息科技的快速发展,科技文献的数量也飞速增加,另一方面科研知识的演变和进化
也变得更加迅捷,给研究者带来了比较大的挑战。现有的文献筛选办法大多依靠人工
阅读,这不仅要求阅读人员具有较高的专业知识水平,而且此方法在遇到大规模的论文
集时,伴随着工作量的上升,筛选的正确率和效率会有明显的下降。文献的庞大数量和
有限的工作时间及精力之间形成了日益紧迫的矛盾,科研工作者往往在筛选有阅读价值
的文栿方面耗费大量的精力和时间。如何从大量科技文献中快速分辨出具有较高阅读价
值的文献成为了近年来的研究热点。
数据挖掘作为信息科学技术的重要新兴领域之一,致力于从大量的、不完全的、有
噪声的、模糊的、随杋的薮据中,提取隐含在其中的新颖的潜在信息和知识。通过数据
挖掘可以发现有价值的规则、规律、模式等有用知识凹。近年来薮据挖掘技术已绎受到
文献分析工作者与研究者的重视和关注。
海量的科技文献数据分析需要使用数据挖掘技杺,从而挖掘岀隐含在人量科技文献
数据集中的冇用信息,进而更好地支持广大科技研究工作者对信息获取的需要叫。同时,
通过将数据挖掘技术应用到科技文献分析中,能够更好地促进科研事业的发展,辅助科
研工作,具有一定的实践意义。但科研文献具有自身独特的结构特点出,文献不仅是半
结构化的,而且其中包含的数据往往具备较强的专业性和复杂性。如何快速有效地挖掘
岀此类文献数据源中的知识和规律,一直是数据挖掘研究工作者们努力解决的复杂课
题
科技文献区别于普通文献的一个很重要的特点是被引频次s。所谓被引频次是指在
段指定的时间段内,某篇科技文献被其他文献所引用的总次数,是评估科技文献影响
力和质量的重要方法,是判断和衡量文献阅读价值的主要参考因素。但被引频次的统
计易受到当前时间点的限制,很难获得未来时间段内的被引用情况,进而影响对科技文
献在科技贡献力方面的评估。
因此,使用数据挖掘方对科技文献的被引频次进行自动化预测有着很强的实用价
值和市场前景,能够更快速吏准确地识别有澘力有价值的文献,促进科学硏究和新知识
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.