《基于深度学习和典型相关分析的渔情预测方法.docx》由会员分享,可在线阅读,更多相关《基于深度学习和典型相关分析的渔情预测方法.docx(18页珍藏版)》请在第一文库网上搜索。
1、摘要:为解决用传统方法进行渔场预测时存在的性能欠佳、特征转换困难、拟合程度不足等问题,提出了一种基于深度学习和典型相关分析的新型渔情预测方法CNN-DNNYCA(连接融合)-RBF模型,该方法首先在5050渔业作业区域内将不同海洋环境因子按相对空间位置映射为三维矩阵,然后分别采用卷积神经网络(CNN)和深度神经网络(DNN)对海表温度(SST)、叶绿素a(Chi-a)浓度、海面高度(SSH)3种环境因子和渔场时空因子两种多源异构数据进行模态特征提取,得到两种不同模态的特征向量,并将两种特征向量通过典型相关分析(CCA)进行特征级融合,最后将融合后的特征输入到径向基函数网络(RBF)中进行分类。
2、结果表明,通过试验验证,基于深度学习和典型相关分析的渔场预报模型CNN-DNN-CCa(连接融合)-RBF对南太平洋长鳍金枪鱼Thunnusaaoga中心渔场的召回率达到了90.3%,相较于随机森林(RF)、CNN和DNN模型提高了6.8%-21.8%。研究表明,CNN-DNNYCA(连接融合)-RBF新型渔情预测模型通过深度学习和典型相关分析方法分别进行特征自动提取和特征融合,消除了冗余信息,简化了特征转换,提高了运算速度和预测精度。关键词:长鳍金枪鱼;深度学习;卷积神经网络;深度神经网络;典型相关分析;径向基函数网络;渔场预报长鳍金枪鱼Thunnusa1a1onga作为南太平洋延绳钓的主要
3、鱼种,在远洋渔业中具有较大开发潜力。近20年来,在南太平洋海域长鳍金枪鱼的渔获量和捕捞努力量呈逐年增长之势,目前,长鳍金枪鱼已成为南太平洋金枪鱼延绳钓渔业的主要捕捞对象之一,精准预报南太平洋长鳍金枪鱼中心渔场能够合理分配有限的捕捞努力量,降低渔场探查时间和捕捞作业成本,促进中国远洋渔业作业的科学化和智能化。在传统的渔场预报模型中,国内外学者通常采用统计学方法和GIS技术对渔场渔情进行分析和预估。近年来,一些学者构建了多种系统性预测模型进行渔场预报,如Raman等采用ARIMA(autoregressiveintegratedmovingaverage)模型,结合3个外部理化因子构建了SAR1M
4、AX预测模型。高峰以东、黄海鲍鱼Sco/nberJaponicus为例,提出了基于提升回归树的渔场预报模型。崔雪森等通过朴素贝叶斯方法对西北太平洋柔鱼Ommastrephes6arSa加/渔场进行回归预测。宋利明等利用库克群岛海域不同水层环境中影响因子的差异性,通过支持向量机分析测算了长鳍金枪鱼栖息地环境综合指数。然而,由于高维海洋大数据具有海量性、多样性和快速流转性,以上方法在对其数据预处理和样本组织时往往流程较为复杂繁琐,不易操作,人为因素对结果影响较大。如当训练样本量大时,支持向量机算法效率低下甚至难以实施,提升回归树算法容易出现过拟合问题,而朴素贝叶斯方法需要特征条件独立,在使用该方法
5、前要进行独立成分分析,过程繁琐。随着海洋科技的飞速发展,渔业数据规模和种类也不断扩大,传统的渔场预报模型在海量大数据的分析和预测上往往表现不佳,而深度学习方法在海量高维数据分析预测上有较好的拟合效果,且深度学习不需要手动特征工程,配备的自动特征工程,不仅减少了特征工程中的繁琐步骤,而且减少了人为因素对结果的影响,因此,可以很好地解决上述传统渔场预报模型中存在的问题。为此,本文中拟构建一种新型的预测模型,在数据模型上,由于单类海洋环境因子按空间分布可构建二维矩阵,故可再叠加另外两类不同的环境因子合成三维矩阵,并采用卷积神经网络(CNN)提取图像特征信息的方式提取特征,同时针对时空因子异构数据均匀
6、分布的离散特性,通过深度神经网络(DNN)进行时空因子特征提取,从而得到两种不同的模态向量,然后将两个模型提取的最高隐藏层特征使用典型相关分析方法(CCA)进行特征融合,最后将融合后的特征输入径向基函数网络(RBF)中进行分类。本研究中提出了一种基于深度学习和典型相关分析的南太平洋长鳍金枪鱼渔场预报模型一CNN-DNN-CCA(连接融合)-RBF模型,并进行了对比试验分析,旨在为渔场的精确预报提供科学指导。1模型构建11CNN-DNN-CCA-RBF模型整体结构由于海洋环境因子数据和时空因子数据是不同结构的数据类型,所以分别选择合适的神经网络方法进行特征提取,以达到更好的特征提取效果。海洋环境
7、数据映射为三维矩阵后,同一维度内的海洋环境因子相似,但也有类似于纹理的差异性。不同维度的环境因子数据差异较大,可以将经过数据预处理后的海洋环境因子数据看作RGB三通道图像格式,因此,海洋环境因子适用于用CNN进行特征提取,这种特征提取方法不仅融合了3种海洋环境因子,而且减少了参数量。由于DNN可以对时空因子数据进行高阶特征交互,具有较强的表达能力和泛化能力,所以使用DNN对时空因子进行特征提取。本研究中设计的模型中,设计了两个分支结构分别对海洋环境因子数据和时空因子进行特征提取。模型的整体结构如图1所示,首先,将海洋环境因子和时空因子进行归一化处理,并把海洋环境因子转换为三维矩阵,然后,将经过
8、预处理后得到的海洋环境因子和时空因子分别输入到CNN和DNN模型中进行特征提取,最后将提取的两个模型的最高隐藏层特征利用CCA进行融合,并将融合后的特征输入到RBF分类器中进行分类。1.2CNN及其结构设计CNN通过卷积层的卷积操作提取输入的不同特征,再通过池化层的池化操作减少神经元数量,降低CNN模型的计算量,最后通过全连接层整合卷积层和池化层中具有类别区分性的局部信息,并传递给输出层进行分类。在对海洋环境因子进行特征提取时,输入矩阵的尺度为553,矩阵高度较小,故在卷积过程中不需进行池化操作,为增大感受野,全局采用3X3大小的卷积核进行操作,然后通过全局平均池化的方式将三维特征值矩阵转换为
9、二维特征向量,最后映射到全连接层进行整合,并通过全连接层进行分类。本研究中,把海洋环境因子三维矩阵输入到该CNN模型中进行训练,并提取到32维的全连接层特征,具体的CNN分支结构如图2所示。图2CNN分支结构Fig.2BranchstructureoftheCNN1.3DNN及其结构设计DNN是具有多个隐藏层的神经网络,即多层感知机,DNN可以分为输入层、隐藏层和输出层。本研究中,将月份、经度、纬度3个时空因子构成的特征向量输入到DNN模型中进行训练,并提取时空因子的最高隐藏层特征。为了使提取后特征向量的维数与CNN提取海洋环境因子特征向量的维数相同,该分支结构采用3-32-32-32-1的网
10、络结构,其具体结构如图3所示。图3DNN分支结构Fig.3BranchstructureoftheDNN1.4典型相关分析典型相关分析作为一种特征融合关键技术已经在多模态生物特征识别领域和图像识别领域得到广泛研究和关注。传统的串行融合和并行融合方法仅仅是将两组特征向量通过简单拼接或复合方式直接组合在一起,未对两个不同特征空间的特征集建立任何联系,再加之上述CNN和DNN两种深度学习方法提取到的特征向量维度较大,这使得融合后的特征向量易产生维度灾难等问题。CCA可以从总体上把握两组指标间的相关关系,不仅起到合理简化变量的作用,而且可以使最终得到的变量更具有判别力,从而达到更好的分类效果,为此本研
11、究中使用CCA进行特征融合。CCA作为研究两组变量相关关系的一种多元统计方法,其基本思想是把两组随机变量间的相关性研究转化为少数几对变量间的相关性研究,且这少数几对变量间是不相关的,具体而言就是寻找两组投影方向,使投影后的相关性达到最大。总体方法是,给出两个随机向量力和匕首先找到一对投影方向和r,使得才和F在该方向上的投影X;和片具有最大的相关性,并称;和y;为第一对典型变量。其中,投影方向和P可以通过最大化和P的相关系数来获得,计算公式为,z、矶x*1JCCA(/)=-z=-x力矶丫力EuXYvuSxvEurSxxuEvSyyvSSmrSMC(1)其中:S为才的协方差矩阵;S为P的协方差矩阵
12、;S:为1与F的互协方差矩阵。因此,CCA就可以表示为如下式所示的优化问题的解,即(,)=arg(i/,OnIaX(UsM,s.t.US止PSV=1。(2)使用拉格朗日乘子法求解该问题,令Z(4/,V)-USnV-,2)(uSair1)-(九/2)(。Sr广1)。(3)将式分别对和V求导并令结果等于0,得到:Sv4S,z=0,(4)SIT人Sr厂O。将式(4)和式分别左乘和V,并利用uSuirVSnV=I得到:A=uSVo(6)将公式(6)继续整理得到:S,SnS1Svvv=AjVo(8)于是,求(40就转化为求上式特征值的问题。同理,寻找第二对投影方向和r,得到第二对典型相关变量*、丫;,并
13、使其与外、y;不相关。以此类推,直到才和F的典型变量提取完毕为止。最后通过给定的特征融合策略提取典型相关特征并输入到分类器中进行分类。使用CCA进行特征融合的基本框架如图4所示。connection图4CCA基本框架Fig.4BasicframeworkofCCA1.5RBF神经网络RBF神经网络是一种具有单个隐藏层的3层前向网络,由输入层、具有径向基函数神经元的隐藏层和输出层构成,其基本结构如图5所示。输入层隐藏层输出层input1ayerhidden1ayeroutput1ayer图5RBF基本结构Fig.5BasicstructureofRBFRBF神经网络的基本思想是通过隐藏层将低维向
14、量映射到高维度隐藏层空间,不需要权连接,隐藏层神经元的核函数通常采用高斯函数:G(Ao=exp(一,=1,2,hQ2CF.(9)其中:X为输入向量;G(X)为隐藏层第/个神经元的输出;。为第,个基函数的方差;。为第,个基函数的中心;力为隐藏层神经元的个数。确定RBF中心点之后,对应的映射关系即确定。从隐藏层空间到输出空间的映射是线性的,即输出层是隐藏层单元输出的线性加权和。基于以上思想,大大加快了学习速度且避免了局部极小的问题。由于最终要对渔场进行二分类,因此,在RBF神经网络的输出层选用了Sigmoid函数,在试验中将中心渔场标签设为1,非中心渔场标签设为0,当正负样本分布均匀时,输出值y应
15、满足y(1-y)1,(10)即输出y05时,将该作业区域视为中心渔场。由于渔场等级划分时中心渔场与非中心渔场所占比重差异较大,因此,将分类阈值重新调整为yA1-y)TFo(11)其中:片2669为训练集中心渔场的数目;户5182为训练集非中心渔场的数目。最终得到分类阈值为0.34。2南太平洋长鳍金枪鱼渔场的预测2.1数据来源根据南太平洋长鳍金枪鱼的渔业作业范围,选取范围为115oE1350W、10。S35S的海域空间为研究对象,数据样本时间范围为20002015年。渔业作业数据取自中西太平洋渔业委员会(WeSternandcentra1pacificfisheriescommission,WCPFC)的南太平洋长鳍金枪鱼延绳钓数据。该渔业数据包含作业时间、作业空间经纬坐标、钓钩数、渔获量,空间分辨率为5。50o长鳍金枪鱼的中心渔场分布受海表温度、叶绿素a浓度、海水溶解氧浓度、盐度、海面风速和海水流速等多种环境因子影响,调研对比后,本研究中选取即时性较强、影响权重占比较大的环境遥感数据作为主要影响因子,集成后的环境数据包括海表温度(SST)、叶绿素a浓度(Ch1-a).海面高度(SSH)。其中,海表温度、叶绿素a浓度数据来源于美国国家海洋和大气管理局(NatiOnoceanicandatmosphericadministration,NoA