首页 > 学生学习 > 毕业论文

数据挖掘论文(最新4篇)

发布时间

数据挖掘论文 篇一

摘 要:数据挖掘技术在各行业都有广泛运用,是一种新兴信息技术。而在线考试系统中存在着很多的数据信息,数据挖掘技在在线考试系统有着重要的意义,和良好的应用前景,从而在众多技术中脱颖而出。本文从对数据挖掘技术的初步了解,简述数据挖掘技术在在线考试系统中成绩分析,以及配合成绩分析,完善教学。

关键词:数据挖掘技术;在线考试;成绩分析 ;完善教学

随着计算机网络技术的快速发展,计算机辅助教育的不断普及,在线考试是一种利用网络技术的重要辅助教育手段,其改革有着重要的意义。数据挖掘技术作为一种新兴的信息技术,其包括了人工智能、数据库、统计学等学科的内容,是一门综合性的技术。这种技术的主要特点是对数据库中大量的数据进行抽取、转换和分析,从中提取出能够对教师有作用的关键性数据。将其运用于在线考试系统中,能够很好的处理在线考试中涉及到的数据,让在线考试的实用性和高效性得到进一步的增强,帮助教师更加快速、完整的统计考试信息,完善教学。

1.初步了解数据挖掘技术

数据挖掘技术是从大量数据中"挖掘"出对使用者有用的知识,即从大量的、随机的、有噪声的、模糊的、不完全的实际应用数据中,"挖掘"出隐含在其中但人们事先却不知道的,而又是对人们潜在有用的信息与知识的整个过程。

目前主要的商业数据挖掘系统有SAS公司的Enterprise Miner,SPSS公司的Clementine,Sybas公司的Warehouse Studio,MinerSGI公司的Mineset,RuleQuest Research公司的See5,IBM公司的Intelligent,还有 CoverStory, Knowledge Discovery,Quest,EXPLORA, DBMiner,Workbench等。

2.数据挖掘在在线考试中的主要任务

2.1数据分类

数据挖掘技术通过对数据库中的数据进行分析,把数据按照相似性归纳成若干类别,然后做出分类,并能够为每一个类别都做出一个准确的描述,挖掘出分类的规则或建立一个分类模型。

2.2数据关联分析

数据库中的数据关联是一项非常重要,并可以发现的知识。数据关联就是两组或两组以上的数据之间有着某种规律性的联系。数据关联分析的作用就是找出数据库中隐藏的联系,从中得到一些对学校教学工作管理者有用的信息。就像是在购物中,就可以通过顾客的购买物品的联系,从中得到顾客的购买习惯。

2.3预测

预测是根据已经得到的数据,从而对未来的情况做出一个可能性的分析。数据挖掘技术能自动在大型的数据库中做出一个较为准确的分析。就像是在市场投资中,可以通过各种商品促销的数据来做出一个未来商品的促销走势。从而在投资中得到最大的回报。

3.数据挖掘的方法

数据挖掘技术融合了多个学科、多个领域的知识与技术,因此数据挖掘的方法也呈现出很多种类的形式。就目前的统计分析类的数据挖掘技术的角度来讲,光统计分析技术中所用到的数据挖掘模型就回归分析、逻辑回归分析、有线性分析、非线性分析、单变量分析、多变量分析、最近邻算法、最近序列分析、聚类分析和时间序列分析等多种方法。数据挖掘技术利用这些方法对那些异常形式的数据进行检查,然后通过各种数据模型和统计模型对这些数据来进行解释,并从这些数据中找出隐藏在其中的商业机会和市场规律。另外还有知识发现类数据挖掘技术,这种和统计分析类的数据挖掘技术完全不同,其中包括了支持向量机、人工神经元网络、遗传算法、决策树、粗糙集、关联顺序和规则发现等多种方法。

4.数据挖掘在考试成绩分析中的几点应用

4.1运用关联规则分析教师的年龄对学生考试成绩的影响

数据挖掘技术中的关联分析在教学分析中,是一种使用频繁,行之有效的方法,它能挖掘出大量数据中项集之间之间有意义的关联联系,帮助知道教师的教学过程。例如在如今的一些高职院校中,就往往会把学生的英语四六级过级率,计算机等级等,以这些为依据来评价教师的教学效果。将数据挖掘技术中的关联规则运用于考试的成绩分析当中,就能够挖掘出一些对学生过级率产生影响的因素,对教师的教学过程进行重要的指导,让教师的教学效率更高,作用更强。

还可以通过关联规则算法,先设定一个最小可信度和支持度,得到初步的关联规则,根据相关规则,分析出教师的组成结构和过级率的影响,从来进行教师队伍的结构调整,让教师队伍更加合理。

4.2采用分类算法探讨对考试成绩有影响的因素

数据挖掘技术中的分类算法就是对一组对象或一个事件进行归类,然后通过这些数据,可以进行分类模型的建立和未来的预测。分类算法可以进行考试中得到的数据进行分类,然后通过学生的一些基本情况进行探讨一些对考试成绩有影响的因素。分类算法可以用一下步骤实施:

4.2.1数据采集

这种方法首先要进行数据采集,需要这几方面的数据,学生基本信息(姓名、性别、学号、籍贯、所属院系、专业、班级等)、学生调查信息(比如学习前的知识掌握情况、学习兴趣、课堂学习效果、课后复习时间量等)、成绩(学生平常学习成绩,平常考试成绩,各种大型考试成绩等)、学生多次考试中出现的易错点(本次考试中出现的易错点,以往考试中出现的易错点)

4.2.2数据预处理

(1)数据集成。把数据采集过程中得到的多种信息,利用数据挖掘技术中的数据库技术生产相应的学生考试成绩分析基本数据库。(2)数据清理。在学生成绩分析数据库中,肯定会出现一些情况缺失,对于这些空缺处,就需要使用数据清理技术来进行这些数据库中数据的填补遗漏。例如,可以采用忽略元组的方法来删除那些没有参加考试的学生考试数据已经在学生填写的调查数据中村中的空缺项。(3)数据转换。数据转换主要功能是进行进行数据的离散化操作。在这个过程中可以根据实际需要进行分类,比如把考试成绩从0~59的分到较差的一类,将60到80分为中等类,81到100分为优秀等。(4)数据消减。数据消减的功能就是把所需挖掘的数据库,在消减的过程又不能影响到最终的数据挖掘结果。比如在分析学生的基本学习情况的影响因素情况中,学生信息表中中出现的字段很多,可以选择性的删除班别、籍贯等引述,形成一份新的学生基本成绩分析数据表。

4.2.3利用数据挖掘技术,得出结论

通过数据挖掘技术在在线考试中的应用,得出这些学生数据的相关分析,比如说学生考试中的易错点在什么地方,学生考试成绩的自身原因,学生考试成绩的环境原因,教师队伍的搭配情况等等,从中得出如何调整学校教学资源,教师的教学方案调整等等,从而完善学校对学生的教学。

5.结语

数据挖掘技术在社会各行各业中都有一定程度的使用,基于其在数据组织、分析能力、知识发现和信息深层次挖掘的能力,在使用中取得了显著的成效,但数据挖掘技术中还存在着一些问题,例如数据的挖掘算法、预处理、可视化问题、模式识别和解释等等。对于这些问题,学校教学管理工作者要清醒的认识,在在线考试系统中对数据挖掘信息做出合理的使用,让数字挖掘技术在在线考试系统中能够更加有效的发挥其长处,避免其在在线考试系统中的的缺陷。

参考文献:

[1]胡玉荣。基于粗糙集理论的数据挖掘技术在高校学生成绩分析中的作用[J]。荆门职业技术学院学报,20xx,12(22):12.

[2][加]韩家炜,堪博(Kam ber M.) 。数据挖掘:概念与技术(第2版)[M]范明,译。北京:机械工业出版社,20xx.

[3]王洁。《在线考试系统的设计与开发》[J]。山西师范大学学报,20xx(2)。

[4] 王长娥。数据挖掘技术在教育中的应用[J]。计算机与信息技术,20xx(11)

数据挖掘论文 篇二

随着互联网技术的迅速发展,尤其移动互联网的爆发性发展,越来越多的公司凭借其备受欢迎的系统和APP如雨后春笋般发展起来,如滴滴打车、共享单车等。海量数据自此不再是Google等大公司的专利,越来越多的中小型企业也可以拥有海量数据。如何从浩如烟海的数据中挖掘出令人感兴趣和有用的知识,成为越来越多的公司急需解决的问题。因此,他们对数据挖掘分析师求贤若渴。在这一社会需求下,培养出优秀的数据挖掘分析师,是各个高校目前急需完成的一项任务。

一、教学现状反思

目前,各大高等院校本科阶段争相开设数据挖掘课程。然而,该课程是一门相对较新的交叉学科,涵盖了概率统计、机器学习、数据库等学科的知识内容,难度较大。因此,大部分高校一般将此课程开设在研究生阶段,在本科生中开设此课程的学校相对较少。另外,不同的学校将其归入不同的专业中,如计算机专业、信息管理专业、统计学、医学等。可以说,这一课程基本上处于探索的过程中。我院灾害信息系于20xx年在信息管理与信息系统本科学生中首次开设了该课程。通过开设此课程,学生能够掌握数据挖掘的基本原理和各种挖掘算法等,掌握数据分析和处理、高级数据库编程等技能,达到数据聚类、分类、关联分析的目的。然而,通过前期教学过程,我们发现教学效果不理想,存在很多问题。

1、数据内驱力差

以往数据挖掘课程重点讲授数据挖掘算法,对数据源的获取和处理极少获取。目前各大教材都在使用一些公共数据资源,这些数据资源有些已经非常陈旧了,比如20世纪80年代的加州房价数据。这些数据脱离现实,分析这些数据,学生没有任何兴趣和学习动力,也就无法发现价值。

2、过于强调学习数据挖掘理论及算法的学习

大量具有难度的数据挖掘算法的学习,使学生丧失了学习兴趣,学完即忘,不知所用。

3、忽视对数据预处理过程的学习

以往所使用的公共数据源或软件自带数据源,数据量小,需要的预处理工作比较少;这部分内容基本只安排一次理论课、一次实验课。而实际通过爬虫获取的数据源数据量大;这部分工作量比较大,需要占到整个数据挖掘工作量的一半以上。因此,一次理论课和一次实验课是无法让学生掌握数据预处理技能的。

4、算法编程实现难度较大

要求学生学习一门新的编程语言,如R语言、Python语言,对本科非计算机专业的学生来说难度是非常大的,尤其是课时安排只有48课时。

5、数据挖掘分析及应用技能较差

学生能够理解课堂案例,但在实际应用中,无法完成整个数据分析流程。

二、数据挖掘课程改革

该课程的教学对象是信息管理与信息系统专业本科大四学生。因此,培养实际应用人才,使其完成整个实际数据挖掘分析流程是教师的教学目的。笔者对智联招聘、中华英才网、51job等几个大型招聘网站的几百个数据挖掘分析师相关职位进行分析,主要分析了相關职位的工作内容、职位要求以及需求企业。数据分析师主要利用数据挖掘工具对运营数据等多种数据源进行预处理、建模、挖掘、分析及优化。该职位是受业务驱动的,特点是将现有数据与业务相结合,最大程度地变现数据价值。该职位对计算机编程等相关技术不作要求,但是需要有深厚的数据挖掘理论基础,熟练使用主流的数据挖掘(或统计分析)工具。基于此,教师可以采取以下策略进行教学改革。

1、加强对业务数据的理解

数据挖掘分析师是受业务驱动的,所以要理解实际业务,明确本次数据挖掘要解决什么问题。教师可以构建案例库,包括教师案例库、学生讨论案例库。教师案例库由教师构建,可用于课堂讲授。学生案例库由学生分组构建,并安排讨论课,由学生讲述、讨论并提交报告。

2、加强对数据的获取

对学生感兴趣的数据源进行挖掘,这样才能更好地帮助学生理解吸收知识。因此,可以教授学生爬虫技术,编写爬虫程序,使其自主获取感兴趣的数据。

3、加强对数据的预处理工作

在数据挖掘之前使用数据预处理技术,能够显著提高数据挖掘模式的质量,降低实际挖掘所需要的时间,应将其作为整门课程的重点进行学习。增加理论课程和实验课时,使学生掌握数据清理、数据集成、数据变换、数据归纳等数据预处理技术,并能够应对各种复杂数据源,最终利用爬虫程序获取的各种数据源进行预处理工作。

4、强化数据挖掘分析

教师可以选择SPSS Modeler这款所见即所得的数据挖掘软件作为配套实验平台。该软件具有必需的数据预处理工具及预设的挖掘算法,学生可以把注意力放在要挖掘的数据及相关需求上,设定挖掘的主题,然后通过鼠标的点击拖拉即可完成相关主题的数据挖掘过程。学生最终可对自己获取并已处理过的数据进行挖掘分析。

5、加强教师外出培训学习

数据挖掘技术以及大数据技术是近来比较新颖而且发展迅速的技术。教师长期身处三尺讲台之上,远离了新技术,脱离了实际。因此,需派遣教师到知名高校学习数据挖掘教学技术,到培训机构进行系统学习,到企业进行实战学习。

基于以上分析,形成了新的数据挖掘理论课程内容和实践课程内容,安排如表1和表2所示。共安排48学时,其中理论课24学时,实验课24学时。理论课重点讲授数据的获取、数据的理解、数据的预处理以及常用挖掘算法。实验课重点学习基于SPSS modeler的数据挖掘,对理论课的内容进行实践。整个学习以工程项目为载体,该工程贯穿整个学习过程。学生通过爬虫程序获取自己感兴趣的数据源,根据课程进度,逐步完成后续数据的理解,再进行预处理,建模分析,评估整个过程。在课程结束时,完成整个项目,并提交报告。

三、结论

在数字时代,越来越多的企业急需数据挖掘分析人才。教师应以培养实际应用人才为目的,充分培养学生对数据挖掘的学习兴趣,以工程项目为载体,贯穿整个课程周期。在教学中,打牢数据获取、理解预处理这一基石,加强建模挖掘分析,弱化对晦涩算法的编程学习,使学生真正掌握数据挖掘技术,满足社会需求。

参考文献:

[1]李海林。大数据环境下的数据挖掘课程教学探索[J]。计算机时代,20xx(2):54-55.

[2]宋威,李晋宏。项目驱动的数据挖掘教学模式探讨[J]。中国电力教育,20xx(27):116-177.

[3]徐琴。应用型本科数据挖掘技术课程教学探讨与实践[J]。电脑知识与技术,20xx,12(8):148-149.

[4]李姗姗,李忠。就业需求驱动下的本科院校数据挖掘课程内容体系探讨[J]。计算机时代,20xx(2):60-61.

数据挖掘论文 篇三

摘要:随着科学技术的不断发展,计算机的使用也愈来愈广泛,他已经发展到各个行业,现如今保险行业也就相应的业务引进了计算机业务系统,而在20xx年8月,我国也出台了《国务院关于加快发展现代保险服务业的若干意见》这一举措的有效实施,从政策上为保险行业的快速发展提供相应了保障。而如何在这些被积累下来的宝贵数据中,分析挖掘出新的商机及财富,就成为了我国当前保险行业发展的重要突破口。本篇文章就从数据挖掘技术的应用方面、概念、必要性,以及方法手段进行了深入探讨与分析其对财产保险应用的意义。

关键词:数据挖掘技术;财产保险;应用;分析

在最近几年中,我国对于保险行业给予了高度的关注与重视并出台了许多与之相对应的相关政策,这些政策的发行对于我国的保险行业带来的极大程度的发展空间。而我国的保险行业也开始了转型,正在从粗放型经营向集约化经营管理进行过度,最明显的改变就是之前只注重新客户的开发而忘记顾忌老客户的需求与发展,但是现在是同时注重新老客户的需求与发展,从根本上实现“两手抓”的政策,所以这种新的形式背景下,计算机中保险行业所留的数据就成为极为重要的挖掘资源。

一、解析数据挖掘技术在财产保险分析中的应用

(一)提升财险客户服务能力

对于任何一个公司来说没有客户所有的产品经营都是纸上谈兵,这对于服务行业的财产保险公司更是如此,所以对此所以财产保险行业就面临着转型升级的事情财产行业的转型就意味着面临着面向客户的服务质量的提升。在现如今的经济情况下,保险消费者对于保险行业知识的了解日益增加,保险意识也是越发的加强。客户对于保险行业也出现了个性化与差异化的需求。从这里就要求保险公司通过数据挖掘技术对客户的需求进行更深一层的分析与探索,通过探究与分析的结果明确而客户的需要,并为有更高需求的客户提供更适合他的保险产品,从而提高业务服务水平,吸引更多的优质客源,来增强市场的竞争力。例如,在对客户进行细分的时候,可以通过数据挖掘技术中的“二八定律”,对客户进行细分。通过细分得出结果,参照数据根据每个客户群体的风险偏好、特点以及需求为他们量身定制适合他们自身的新产品,并制定对应适合的费照新差旅费管理办法正确规范填写市内交通补助、伙食补助、城市间交通费、和住宿费金额。并填写上合计金额,不得出现多报的行为,从而提高差旅费报销工作的质量。

(二)风险管理和合规经营

每个保险公司的生命底线就是合规经营以及对风险的管理,所以每个保险公司必须在运营生产中严格的遵守国家的法律法规,不许做出违反法律底线的事情,而风险管理对于保险公司来说具有两层含义,其实并不简单,一方面是需要对于企业自身的风险进行管理;另一方面是对于客户所带来的风险进行管理。对于保险公司来说这两方面的风险是相互作用、相辅相成的,第一个方面的风险管理出现问题后者的风险管理就会成为空谈,反之第二方面的风险管理没有得到很好的管理,极大可能会引起前者管理出现问题。而恰恰数据挖掘技术的应用,就可以为财产保险企业规避风险起到很大的帮助。保险公司可以以计算机为使用的工具,通过数据挖掘的技术,可以对数据内大量的信息进行查找并比对分析,高效的识别出在计算机内不符合正常业务逻辑的数据,这样管理者就可以及时就这些风险数据和业务漏洞进行监测与管控,以减少违法乱纪的事情发生,逐步消除或减少隐藏的风险。保障保险业健康有序的发展,为市场经济持续健康的进一步发展保驾护航。

(三)开发新产品

新的保险产品的开发对于增强保险公司的公司收益、内容、满足消费者的需求以及竞争力等方面起着重要的作用,这也是经营保险公司的首要内容。新产品的开发是指保险公司针对当前市场的需求、想要达到的效果与自身情况相结合的产物,而在原有的产品上加以重新的组合与设计的创造与改良,来满足市场的需求,进而提高公司自身的竞争力的过程与行为。后者自不必说,基于我国财产保险公司数据库信息方面已经积累了很多,而后通过对信息的数据进行发掘,使实现新产品的开发成为可能。譬如,通过数据挖掘技术,我们可以使用现有产品进行进一步的完善、修正或者拆分、组合的,使其变成一全新的保险产品,他会更接近客户的需求,满足客户的真实所需,同时也能够增加市场的销量,增强市场竞争力。就以原有的普通财产保险为例子,在保险有效期内未出现任何对客户的产才造成损失的情况下,客户所缴纳的保险费用是不予以退还的,在财产保险的有效期过后,客户所缴纳的保险费是由保险公司所拥有的。这样的保险产品是不被大多数客户所看好与接受的,即使有客户在第一次购买了此保险,但之后是不会〈WWW.CHAYI5.COM〉在对本产品进行第二次的投资的。而现在通过数据挖掘的技术,保险公司可以根据对客户信息的了解进行分析,保险公司推出了一款新的家庭财产两全保险保险,这是一种全新的保险类别。全新的家庭财产保险,他所需要交纳的是保险储备金,比如每份保险金额为50000元的家庭财产两全保险,则保险储金为5000元,投保人必须根据保险金额一次性交纳保险储备金,保险人可以将保险储备金的利息作为保险费。在保险期满后,无论是不是在保险期内发生赔付的情况,保险公司都会将保险人的全部的保险储金如数退还。自从出现了这种投保方式,客户的接受度得到了大大的提高,全新的家庭财产保险,一方面使保险人保险中得到了应得的利益,另一方面投保人的财产也得到了保险,从而在市场的销售份额上面也得到了迅速提升。

二、保险业数据挖掘技术及应用的必要性

(一)保险业数据挖掘技术的含义

什么是保险行业的数据挖掘技术,就是从客户管理的角度出发,针对保险行业数据库系统内大量的保险单,对客户的信用数据进行属性变量提取,进而采用自动化或半自动化等多种挖掘技巧和方法来对客户的数据进行分析,找到潜在的有价值的信息。

(二)数据挖掘的过程及方法

数据挖掘是一个跨越多种学科的交叉技术,主要的用途是利用各种数据为商业上存在的问题提供切实可行的方法与数据。数据挖掘的过程有以下几个步骤:业务理解→数据准备→数据理解→构建模型→测试设计→做出评价→实施应用。在数据挖掘方面有三个常用的方法:DM、SEMMA以及CRISP等分析方法。同时我们需要根据实际情况来运用数据挖掘技术,选择最适当的方法,要想将数据挖掘技术达到最佳的效果必须针对具体的流程做出相应的调节。

(三)保险行业应用数据挖掘技术的必要性

在保险行业的运营中,常常会出现一下的几个问题:例如,细分客户的问题:对于不同的社会收入阶层、不同年龄段、不同的行业的客户,该怎么样去确定其的保险金额呢?客户的成长问题:如何把握时机对客户进行交叉销售;险种关联分析问题:在对购买某种保险的客户进行分析与探查,观察其是否在同一时间购买另一种保险产品,客户的获取问题:如何在付出最小的成本获得最有价值的客户的挽留及索赔优化的问题:如何对索赔受理的过程进行优化,挽留住有价值的投保人。保险公司在完成数据的汇总后,所获取的业务及大量客户信息,不过是对公司当前所处的市场环境、企业经营情况及客户基本资料的记录及反映。而进行数据集中的信息系统,也只能是对数据库中的这部分数据进行简单的操作处理,并不能从中发现并提取这些数据中蕴含的具有深层次价值的信息。所以,如若想在决策层面给出解决答案,是不可能实现的。而如果采用数据挖掘技术来对数据库中所存在的大量的数据进行高水平而深层次的分析,就能够为实现保险公司的决策及科学经营提供切实可行的依据,因此此技术的出现从而得到了许多保险公司的应用与重视。

三、结论

我国经济的发展正在向新常态的方向进行转变,而我国财产保险市场的竞争也日益激烈。为了面对这些挑战,各个保险公司都复出了努力在积极的面向转型,由传统的粗放式经营向集约化经营的方式进行过度,面向客户的营销模式也是在这之中产生出来的。在这种转型过度的过程中,财产保险公司对于数据挖掘技术进行充分的利用,使公司的风险管理能力、产品创新能力经营能力、盈利能力、客户服务能力、和业务发展潜力都得到了全面的大幅度提升。在对我国经济建设的繁荣以及促进财产保险公司自身的长远发展,都做出了不可磨灭的贡献,也是对国家的号召积极的响应,进而对市场经济持续发展也做出了不少的贡献。

参考文献:

[1]高文文。数据挖掘技术在财产保险分析中的应用[D]。河北科技大学,20xx.

[2]杨杉,何跃。数据仓库和数据挖掘技术在保险公司中的应用[J]。计算机技术与发展,20xx.

[3]葛春燕。数据挖掘技术在保险公司客户评估中的应用研究[J]。软件,20xx.

[4]陈庆文。数据挖掘在财产保险公司应用研究——以人保财险公司为例[D]。对外经济贸易大学,20xx.

数据挖掘论文 篇四

随着互联网技术的快速发展,学术研究环境较以前更加开放,对传统的科技出版业提出了开放性、互动性和快速性的要求; 因此,以信息技术为基础的现代数字化出版方式对传统的科技出版业产生着深刻的影响。为了顺应这一趋势,不少科技期刊都进行了数字化建设,构建了符合自身情况、基于互联网B /S 结构的稿件处理系统。

以中华医学会杂志社为代表的部分科技期刊出版集团均开发使用了发行系统、广告登记系统、在线销售系统以及站。这些系统虽然积累了大量的原始用户业务数据; 但从工作系统来看,由于数据本身只属于编辑部的业务数据,因此一旦相关业务工作进行完毕,将很少再对这些数据进行分析使用。

随着目前人工智能和机器学习技术的发展,研究人员发现利用最新的数据挖掘方法可以对原始用户业务数据进行有效分析和学习,找出其中数据背后隐含的内在规律。这些有价值的规律和宝贵的经验将对后续科技期刊经营等工作提供巨大的帮助。

姚伟欣等指出,从STM 期刊出版平台的技术发展来看,利用数据存取、数据管理、关联数据分析、海量数据分析等数据挖掘技术将为科技期刊的出版和发行提供有力的帮助。通过使用数据挖掘( data mining) 等各种数据处理技术,人们可以很方便地从大量不完全且含有噪声或相对模糊的实际数据中,提取隐藏在其中有价值的信息,从而对后续科技期刊出版工作起到重要的知识发现和决策支持的作用。

1 数据挖掘在科技期刊中应用的现状

传统的数据库对数据的处理功能包括增、删、改、查等。这些技术均无法发现数据内在的关联和规则,更无法根据现有数据对未来发展的趋势进行预测。现有数据挖掘的任务可以分为对数据模型进行分类或预测、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系发现、异常或例外点检测以及趋势发现等,但目前国内科技期刊行业利用数据挖掘方法进行大规模数据处理仍处在起步阶段。张品纯等对中国科协所属的科技期刊出版单位的现状进行分析后发现,中国科协科技期刊出版单位多为单刊独立经营,单位的规模较小、实力较弱,多数出版单位不具备市场主体地位。这样就导致国内大部分科技期刊既没有能力进行数据挖掘,也没有相应的数据资源准备。以数据挖掘技术应用于期刊网站为例,为了进行深入的数据分析,期刊经营人员需要找到稿件与读者之间、读者群体之间隐藏的内在联系。目前,数据挖掘的基本步骤为: 1) 明确数据挖掘的对象与目标;2) 确定数据源; 3) 建立数据模型; 4) 建立数据仓库; 5)数据挖掘分析; 6) 对象与目标的数据应用和反馈。

2 期刊数据的资源整合

编辑部从稿件系统、发行系统、广告系统、站等各个系统中将相关数据进行清洗、转换和整理,然后加载到数据仓库中。进一步,根据业务应用的范围和紧密度,建立相关数据集市。期刊数据资源的整合过程从数据体系上可分为数据采集层、数据存储处理层和数据展现层。

要获得能够适合企业内部多部门均可使用、挖掘和分析的数据,可以从业务的关联性分析数据的准确性、一致性、有效性和数据的内在关联性。

3 期刊数据的信息挖掘

信息挖掘为了从不同种类和形式的业务进行抽取、变换、集成数据,最后将其存储到数据仓库,并要对数据的质量进行维护和管理。数据挖掘可以有效地识别读者的阅读行为,发现读者的阅读模式和趋势,对网站改进服务质量、取得更好的用户黏稠度和满意度、提高科技期刊经营能力有着重要的意义。作为一个分析推荐系统,我们将所分析的统计结果存储于服务器中,在用户或决策者需要查询时,只需输入要找寻的用户信息,系统将从数据库中抽取其个人信息,并处理返回到上网时间分布、兴趣点所在、适配业务及他对于哪些业务是有价值客户,甚至包括他在什么时段对哪类信息更感兴趣等。只有这些信息才是我们的使用对象所看重和需要的。

网站结构挖掘是挖掘网站中潜在的链接结构模式。通过分析一个网页的链接、链接数量以及链接对象,建立网站自身的链接结构模式。在此过程中,如果发现某一页面被较多链接所指向,则说明该页面信息是有价值的,值得期刊工作人员做更深层次的挖掘。网站结构挖掘在具体应用时采用的结构和技术各不相同; 但主要过程均包括预处理、模式发现和模式分析3 部分。为了反映读者兴趣取向,就需要对数据库中的数据按用户进行抽样分析,得到兴趣点的统计结果,而个人的兴趣分析也可基于此思路进行。下面以《中华医学杂志》为例做一介绍。

预处理预处理是网站结构挖掘最关键的一个环节,其处理得到的数据质量直接关系到使用数据挖掘和模式分析方法进行分析的结果。预处理步骤包括数据清洗、用户识别、会话识别、路径补充和事件识别。以《中华医学杂志》网站www. nmjc. net. cn 的日志分析为例。首先给出一条已有的Log,其内容为“20xx-03-04 12: 13: 47 W3SVC80003692 172. 22. 4. 3GET /index. asp-80-123. 185. 247. 49Mozilla /5. 0 +( Windows + NT + 6. 1; + WOW64 ) + AppleWebKit /537. 36 + ( KHTML,+ like + Gecko) + Chrome /28. 0.1500. 95 + Safari /537. 36 + SE + 2. X + MetaSr + 1. 0200 0 0”。从Log 的内容,工作人员可以得到相关信息,如用户IP、用户访问页面事件、用户访问的页面、用户请求的方法、返回HTTP 状态以及用户浏览的上一页面等内容。

由于服务器同时部署了多个编辑部网站,这就要求工作人员必须对得到的访问www. nmjc. net. cn 日志,去除由爬虫软件产生的记录。这些记录一般都会在日志结尾包含“Spider”的字样。同时,还需要去除不是由GET 请求产生的日志以及请求资源不是页面类型的日志。最后,工作人员还需要去除访问错误的请求,可以根据日志中请求的状态进行判断。一般认为,请求状态在( 200, 300) 范围内是访问正确的日志,其他如403、400 和500 等都是访问错误的日志。用户识别可以根据用户的IP 地址和用户的系统信息来完成。只有在IP 地址和系统信息都完全一致的情况下,才识别为一个用户。会话识别是利用面向时间的探索法,根据超时技术来识别一个用户的多次会话。如果用户在一段时间内没有任何操作,则认为会话结束。用户在规定时间后重新访问,则被认为不属于此次会话,而是下次会话的开始。

利用WebLogExplore 分析日志、用户和网页信息在获得了有效的日志数据后,工作人员可以利用一些有效数据挖掘算法进行模式发现。目前,主要的数据挖掘方法有统计分析、关联规则、分类、聚类以及序列模式等技术。本文主要讨论利用Apriori 算法来发现科技期刊日志数据中的关联规则。本质上数据挖掘不是用来验证某个假定的模式的正确性,而是在数据库中自己寻找模型,本质是一个归纳的过程。支持度( Support) 的公式定义为: Support ( A≥B) = P( A ∪B) 。支持度可以用于度量事件A 与B 同时出现的概率。如果事件A 与B 同时出现的概率较小,说明事件A 与B 的关系不大; 如果事件A 与B 同时出现非常频繁,则说明事件A 与B 总是相关的。置信度( Confidence) 的公式定义为: Confidence( A≥B) = P( A | B) 。置信度揭示了事件A 出现时,事件B 是否也会出现或有多大概率出现。如果置信度为100%,则事件A 必然会导致事件B 出现。置信度太低,说明事件A 的出现与事件B 是否出现关系不大。

对所有的科技期刊日志数据进行预处理后,利用WebLogExplore 软件可得到日志汇总表。表中存储了所有用户访问网站页面的详细信息,工作人员可将其导入数据库中。以查看到所选择用户访问期刊页面的详细信息。

同样,在WebLogExplore 软件中选择感兴趣的页面,可以查看所有用户访问该页面的统计信息,如该页面的访问用户数量等。工作人员可以对用户访问排名较高的页面进行进一步的模式分析。

步骤1: 将图2 日志信息汇总表中的数据导入数据库中,建立日志总表。

步骤2: 在数据库中建立一个新表命名为tj。

步骤3: 通过查询程序得到日志总表中每一个用户访问的页面,同时做distinct 处理。

步骤4: 将查询得到的用户访问页面记录进行判断。如果用户访问过排名前20 位的某个页面,则在数据库中写入true,否则写入false。依次循环判断写入数据库中。

步骤5: 统计每个访问排名靠前页面的支持度,设置一维项目集的最小阀值( 10%) 。

步骤6: 统计大于一维阀值的页面,写入数组,并对数组内部页面进行两两组合,统计每个组合2 个页面值均为true 时的二维项目集的支持度。

步骤7: 设置二维项目集支持度的阀值,依次统计三维项目集支持度和置信度( A≥B) ,即当A 页面为true 时,统计B 页面为true 的数量,除以A 为true 的数量。设置相应的置信度阀值,找到访问排名靠前页面之间较强的关联规则。

4 数据挖掘技术应用的意义

1) 对频繁访问的用户,可以使用用户识别技术分析此用户的历史访问记录,得到他经常访问的页面。当该用户再次登录系统时,可以对其进行个性化提示或推荐。这样,既方便用户使用,也可将系统做得更加友好。很多OA 期刊网站,不具备历史浏览记录的功能; 但浏览记录对用户来讲其实十分重要,隐含了用户对文章的筛选过程,所以对用户经常访问的页面需要进行优化展示,不能仅仅提供链接地址,需要将文章题名、作者、关键词等信息以列表的方式予以显示。

2) 由数据挖掘技术而产生的频繁项目集的分析,可以对网站的结构进行改进。支持度很高的页面,说明该页面的用户访问量大。为了方便用户以及吸引更多的读者,可以将这些页面放置在更容易被访问的位置,科技期刊的网站内容一般以年、卷、期的形式展示。用户如果想查看某一篇影响因子很高的文章,也必须通过年卷期的方式来查看,非常不方便而且页面友好性不高。通过数据挖掘的分析,编辑部可以把经常被访问或者高影响因子的文章放在首页展示。

3) 对由数据挖掘技术产生的频繁项目集的分析,可以发现用户的关注热点。若某些页面或项目被用户频繁访问,则可以用这些数据对用户进行分析。一般来说科技期刊的读者,每个人的专业和研究方向都是不同的,编辑部可以通过数据挖掘技术来判断读者的研究方向和感兴趣的热点,对每一个用户进行有针对性的内容推送和消息发送。

4) 网站管理者可以根据在不同时间内频繁项目集的变化情况对科技期刊网站进行有针对性的调整,比如加入更多关于该热点的主题资源。目前大多数科技期刊网站首页的内容,均为编辑部工作人员后台添加、置顶、高亮来吸引用户的; 通过数据挖掘技术,完全可以摈弃这种展示方式。编辑部网站的用户访问哪些页面频繁,系统便会自动将这些页面的文章推向首页,不需要编辑部的人工干预,整个网站实现自动化运行。

5 后记

本文重点讨论了数据挖掘技术与科技期刊网站页面之间的关系。其实我们还可以从很多方面进行数据挖掘,比如可以对网站的用户和内容进行数据挖掘,通过分析可以为后期的期刊经营做好铺垫。

有一点很重要,没有一种数据挖掘的分析方法可以应付所有的需求。对于某一种问题,数据本身的特性会影响你的选择,需要用到许多不同的数据挖掘方法以及技术从数据中找到最佳的模型。

在目前深化文化体制改革,推动社会主义文化大发展、大繁荣的政治形势下,利用数据挖掘技术从中进行提取、分析和应用,能有效地帮助企业了解客户、改进系统、制订合理的市场策略、提高企业的销售水平和利润。通过利用数据挖掘技术准确定位优质客户,向客户提供更精确、更有价值的个性化服务。这将成为未来科技期刊经营十分重要的突破点和增长点。

读书破万卷下笔如有神,以上就是差异网为大家整理的4篇《数据挖掘论文》,希望可以启发您的一些写作思路,更多实用的范文样本、模板格式尽在差异网。

热点范文

最新范文

300 2295