《数据挖掘技术在地铁中的应用研究.docx》由会员分享,可在线阅读,更多相关《数据挖掘技术在地铁中的应用研究.docx(9页珍藏版)》请在第一文库网上搜索。
1、数据挖掘技术在地铁中的应用研究摘要探讨地铁中的数据挖掘技术,可以提高数据挖掘技术的质量与效果,从而为地铁工程工作的推进奠定良好的基础。基于此,文章从智能决策分析系统的系统架构、系统运行方式等方面,分析了地铁自动售检票系统在地铁工程中的应用。在此基础上,提出客流分析预测系统过程、建立客流分析模型两方面来加强数据挖掘技术的应用策略,希望能给相关人员一些借鉴。关键词数据信息资源挖掘;地铁;自动售检票系统;聚集式计算;可视化技术中图分类号TP311.13文献标识码A文章编号2096-8949(2022)12-0050-03收稿日期:2022-04-15作者简介:彭琼芳(1982),女,本科,高级工程师
2、,研究方向:电气工程及自动化。0引言科学的进步,社会的发展,促使信息时代的到来。在当前,人们可以是数据的丰富也使得人们缺乏有效方法来识别一些隐藏的、对决策有益的信息,而传统查询方法和报表工具也根本无法满足信息数据挖掘的需要。因此需要一套技术来管理这些冗杂的数据,从中选择并挖掘出有用的信息,由此就形成了数据挖掘技术1,如图1。另一方面,数据挖掘技术是数据仓库技术逐步发展和完善的成果,但并不是任何信息挖掘的技术都可以归类到数据挖掘技术。比如,信息检索技术也能够利用数据库的管理系统来检索个别记录,又或者利用互联网的检索功能来找到特殊的页面,这些都不属于数据挖掘技术。L2概述以数据库、数理统计学、人工
3、智能、可视化研究等为基石,算法的设计工作需要这些来描述和解释数据分析。算法的设计工作主要包括录入、产出和数据处理。数据库是数据挖掘的计算入口,计算产出是挖掘数据信息知识的模型,而算法处理的流程则是设计具体工作的方式。1.3分类数据挖掘可以按不同的方式分为不同的类别。以数据库的视角来定义数据挖掘的3个基本技术方面,分别为数据信息挖掘视角、数据挖掘对象、数据分析信息挖掘方式。数据信息挖掘视角是将数据挖掘对象细分为若干个信息库或数据源,如关联、面对的对象、空间环境、时态、文本库、多媒体、历史等相关领域方面的数据库和万维网等2。而数据分析信息挖掘方式则可粗分为数据分析方式、机器学习方法、神经网络方式和
4、数据库方法。数据分析方式可划分为回归式数据分析、判别分析方式等。机器学习方式可划分为遗传算法等。神经网络方式可划分为前向神经网络、自组织神经网络等。数据库方法则主要为多维的数据挖掘方式等。L4作用数据挖掘过程是指自动提取并利用各种数据表中隐藏的有价值信息的过程,消息的类型可分为规律、法则、定义和模型等。管理人员通过这一技术,能剖析当前数据信息、历史数据信息及二者之间的关联,并从中找到隐藏的模型和关系,以便于预见未来可能出现的重大事件。这一过程也是人们探索认知系统的过程,是一个涉及方面非常广泛的新兴交叉性学科,主要应用于数据库、大数据计算、新一代人工智能和信息可视化与并行计算等领域。L5常见技术
5、形式数据分析挖掘中掌握专业知识的重要技能是机器学习和数理分析计算,目前研究数据挖掘的重点聚集于计算基础理论与应用方面。机器学习作为另一种深入研究人工智慧的分支方法,被称作归纳与推理;采用关联分析法,也可以从关系数据库中获取相关联系。而挖掘关联则是指根据系统查找各种事件,以找出符合条件概率比较高的模式;资源数据分析挖掘以人工神经元网络使用最为普遍,计算方法是采用模拟个人神经系统,不断地训练和掌握相应的数据集合,在每个待分析数据的集合里,出现可估计和分析的建模。决策方法是一个预测模型,呈树型构造,非终端节点显示属性,叶节点则显示不同类型;遗传算法则是一种基于优化生物学发展理论研究的技术,基础观念是
6、“适者生存”。遗传算法可进行多种类型、并行处理大量数据分析3;聚合后发现,整个数据库都能够分为不同集群,群和集群之间存在明显区别,同一个群的数据信息也尽量接近。聚类分析方法只是其他如特征和类型等预处理的第一步,算法在新生成的簇上等待数据处理。与分类方法不同的地方是在开始聚合之前,人们不清楚如何将数据信息分门别类,也不清楚如何按照变量分类。在聚合后,熟悉业务的人有多种方式理解分群的含义。大多数情形第一次聚合后所获得的分群信息对业务没有直接价值,需要通过删减和添加变数,来修正数据信息分群所采用的多种方法。如此,在重复多次以后,就会得出一个非常理想的结论。聚合方法主要分为两类,即神经网络方法和统计分
7、析方法。K-均值和自组织的神经网络方式在聚合计算中应用更为普遍。2地铁自动售检票系统1.1 智能决策分析系统的系统架构由于现有自动售检票系统都自建内部网络,在管理上属于私有内网范围。目前自动售检票系统的数据库中一般存储60天历史数据,但出于行业需要和安全方面的要求,可首先采取增加备用策略,把自动售检票系统的数据库数据备份到备用数据库服务器,之后再提取历史数据到本信息系统业务数据库,同时再向其他的辅助管理系统导入新数据,从而构成了该信息系统的全部服务统计信息。所以,在大数据分析集成处理过程中,必须本着安全性第一、兼顾成本的原则,通过防火墙实现隔离,以确保自动售检票系统与该信息系统业务数据库的安全
8、性。2. 2系统运行方式每天自动售检票系统处于空闲时,一般在凌晨2点之后,分析系统应用服务器开启中间件,将自动售检票系统数据备份到备用数据库服务器,并采用编程方法实现了自动售检票系统数据库的实时备用以及到备用数据库服务器的增量备用方法,同时实现录入历史数据信息和为本系统业务数据库进行直接抽取历史数据信息的要求,并将成果保存到数据分析管理系统服务器上。用户帐号安全方案:通过不同的员工帐号、角色等定义,分别获得对应的授权,以确保系统用户帐号与系统数据的安全。在办公网的分析系统服务器上,以实时方式存取资产数据库信息,对数据采用拉(PULL)的方法,只读取所需要的资料数量,以增加管理系统的反应时间。分
9、析系统客户端的接入方式使用了纯B/S模型,以满足地铁办公室0A与分析管理系统的兼容,支撑最大规模的并发性使用。备份功能:用SQL2000编程脚本,可以定时实现自动售检票系统与备份服务器的2台数据库同步,所有决策支持系统的数据信息都来自备份服务器数据库。而针对备份数据库服务器与本管理系统业务数据库之间的备份问题,可以使用光盘塔为备份设备,利用数据库中的自动备份功能自动完成,将来也能够利用索引管理系统还原需要的数据信息。3. 3相关客流的数据按站点计算每日的出入站客流信息,分时间(输入起止时间和间隔时间)计算每日各站点的进出站客流和实时客流信息,按周计算各时间段的实时客流、进出站客流信息,以及多种
10、检索条件下的客流信息。(1)根据输入的卡号、日期查询进出站记录。(2)统计每台设备的分时段进出站客流。(3)统计每天在各个站点单程票的销售、进站、出站情况。(4)统计每月通卡会员的乘车人次和总额。(5)计算每天在用地铁专属卡的张数,并占所有可用地铁专属卡片的比例。(6)数据备份功能,将全年的每日交易数据都储存到同一个数据库中。(7)运营日报中的相关数据统计。(8)特殊交易查询:查找超出所提供的许可区域的特殊交易的有关设备信息。(9)按照某市地下铁路专用卡的卡号查看此卡的有关出站信息内容以及剩余次数。(10)地铁专用卡到期的提示。(11)退款申请查询:对某一设备在某一时段的交易信息查询。(12)
11、员工考勤:票务中心可查看、打印每张卡片的进、出站等相关信息(员工卡的卡号、可变赋值金额和数量),可查看和打印当班的操作员的所有操作数据,如初始化数量、编码数量、赋值金额之和数量、注销数量。2.4系统数据管理数据分析抽取:将企业数据从自动售检票系统数据库备份到企业智能决策与支持分析管理系统、企业备份数据库服务器,再按照实际服务需求,提取相关数据分析到本管理系统服务信息库中。然后从扩展视角出发,保留端口,直接从外部大数据系统库提取所要求的数据分析。信息系统备份:将通过智能决策支持分析系统备份数据库服务器中的服务数据信息,并且将该管理系统用抽取数据分析信息自动备份到光盘塔等备份设施。备份与恢复:根据
12、企业运营需求,通过索引从光盘塔等备份设施中将数据恢复至企业智能决策与支持的分析管理系统,备份数据库服务器供本系统业务数据库管理之用。应用管理:实现本管理系统的使用者登录、注销、角色分派、密码与授权管理等功能,将使用数据分析整合于对业务管理系统客流的数据分析4。3数据挖掘技术的应用互联网的高速发展将为用户带来许多新信息服务,而互联网因内涵丰富、功能强大以及使用简便,在所有获取信息的服务方法中尤为突出,成为了数据挖掘发展的重点方向。又由于当前互联网信息服务的主要趋势是单向与被动信息服务的模式,使网络应用挖掘信息服务更符合性能要求,提高了互联网与应用之间的互动性,使互联网与应用能真正地相互融合。与以
13、前的使用方法和被操作方式完全不同,通过运用数据挖掘技术,使互联网针对应用需要进行更针对性的、更主动的信息服务,并能形成具有个性化信息服务特点的体系,而根据对不同用户信息服务提供不同需要的满足方法,进行信息服务特点就有所不同。构建的个性化信息服务体系也更加依赖于挖掘应用信息服务的需要。以某市地铁客票业务为例,大资料数据挖掘技术在客运数据分析中发挥最快捷的功能。客运数据分析预测体系流程由数据分析源形成、建立数据分析集市形成;而客流分析模型的构建过程由大样本数据分析、对BP神经网络的数据处理两部分形成。3.1 客流分析预测系统过程3.1.1数据源构成因客票管理系统的资料数据库与恢复业务所使用SYBA
14、SE产品,而资料仓储的制作所使用Microsoft公司产品的SQLSerner2000,因此面临着转换为异相数据源的问题。在技术上采用了数据库对接技术,把所需要的基础表导入到了SQLServer中。3. L2构建数据信息集市数据挖掘技术对于中小型公司的运用,更偏向于在不影响信息体系上先构建中小型数据集市。首先将相应的数据分析提取至小型数据集市中,再将其中的各个关系表格数据分析提取至大型数据集市中,最后再将数据集市中各个表格的数据分析提取至特定关系表格中,并在此基础上利用零LAP技术工具来构建多维分析的模型立方体,从而通过建立的数据分析挖掘来进行高铁客流数据分析与预报5。4. 2建立客流分析模型
15、因为在前期就已设置了大量数据集市,人们就可以据此抽取出相应的数量来完成数据分析挖掘。在大量数据集市中,有各大车站、区间和线路中的售票数量、货物总收入、旅客票价总收入、乘客上车的数量,以及各种类型的统计运量信息,通过BP神经网络进行信息处理。数据变换也是一种预处理数据分析的关键部分。数据变换就是将大量数据信息内容加以转化,并使之更适合于数据分析挖掘类型,也就是说将特征向量的统计信息内容按百分比加以压缩,进而将其落入到某个较小的特定区域。所采用的技术是归一化处理。在此网络模式的运算中,将输入样本和检验样品中的所有数据信息,都统一加以量化为01之间的实数。4结语综上所述,数据挖掘技术在地铁中的应用优势是相当明显的,因此相关地铁工作单位要加强对数据挖掘技术的应用,以便为地铁的相关工作开展创造有利的条件。随着大数据的发展,城市轨道交通中的大数据研究是地铁管理升级的需要,也是满足乘客多种需求的必然要求。通过数据挖掘技术,深入探究城市轨道交通