《基于BERT+BiLSTM+CRF深度学习模型和多元组合数据增广的渔业标准命名实体识别.docx》由会员分享,可在线阅读,更多相关《基于BERT+BiLSTM+CRF深度学习模型和多元组合数据增广的渔业标准命名实体识别.docx(20页珍藏版)》请在第一文库网上搜索。
1、摘要:为解决渔业标准命名实体识别任务中部分实体语料分布稀疏导致的效果不佳问题,提出了基于多元组合数据增广(dataaugmentationmethodbasedonmu1tip1eCombinatiOn,MCA)的渔业标准命名实体识别方法,该方法融合了基于领域词典的联合替换算法(jointrep1acementa1gorithmbasedondomaindictionary,DDR)基于槽点保护的随机删除算法(randomde1etiona1gorithmbasedons1otprotection,SPD)和基于槽点保护的随机插入算法(randominsertiona1gorithmbased
2、ons1otProteCtiOn,SPI)进行语料库的数据增广,首先构建“水产品名称”同类词词典和领域同义词词典,通过两个词典分别对“水产品名称”类实体和随机词进行同类词替换和同义词替换,生成新的句子,以增加目标实体数量和句子的多样性,然后在基于槽点保护的情况下对原句子分别进行随机删除和随机插入操作,在保留实体及上下文特征的情况下进一步丰富语料的多样性,提高模型的泛化能力。结果表明,采用基于融合注意力机制的BERT+Bi1STM+CRF网络模型和多元组合数据增广方法进行渔业标准命名实体识别,准确率、召回率、F1值分别达到了91.73%、88.64%、90.16%,具有较好的效果。研究表明,基于
3、多元组合数据增广的渔业标准命名实体识别方法有效解决了部分实体样本稀疏问题,提升了渔业标准命名实体识别的整体效果。关键词:深度学习;实体识别;数据增广;BERT;双向长短时记忆网络;渔业标准渔业标准化是提高渔业生产效益、提升水产品质量和保障渔业生产安全的重要手段之一,渔业标准文本是渔业标准化的载体,也是渔业生产人员获取渔业标准知识的主要途径。为高效地获取渔业标准知识,需对渔业标准文本中命名实体进行识别。渔业标准命名实体识别是从渔业标准文本中识别“渔业标准号”、“渔业标准指标”及“水产品名称”等命名实体。早期的命名实体识别任务主要采用基于规则和词典的方法,这类方法需要由有经验的专家总结规则,识别效
4、果依赖于专家的经验,在数据量较少且不同专家总结的规则一致性较高的情况下效果较好。随着数据量的不断增加,规则提取工作量增大,保持规则一致性难度加大,基于规则和词典方法的识别效果无法满足人们的进一步需求,学者们提出了基于词典与条件随机场的命名实体识别方法,该类方法采用统计学习的方法统计语料库中文本信息的分布情况并进行命名实体识别。与基于规则方法相比,统计学习方法的性能取得了较大提升,但是由于此类方法需要手工选择特征,算法性能依赖于特征模板的结构,缺乏泛化能力。随着深度学习的发展,深度学习被应用于命名实体识别领域。孙娟娟等提出了基于深度学习的渔业领域命名实体识别,取得了较好的效果,但由于对渔业领域命
5、名实体对象类别定义较为宽泛,识别的实体类别较少,该算法不适用于具有较多类别、实体结构较为复杂的渔业标准命名实体识别。为解决上述问题,程名等在分析渔业标准文本特点的基础上,提出了融合注意力机制的Bi1STM+CRF(Bi1STM+Attention+CRF)渔业标准命名实体识别方法,在渔业标准命名实体识别任务中取得了较好效果。然而,由于渔业标准文本中“水产品名称”等类别实体数量少、样本分布不均匀,导致识别效果不够好,人工扩充语料库存在效率低、成本高,以及易造成错误传播等问题,因此,需要研究语料库自动扩充方法。目前,少样本命名实体识别主要包括数据增广、模型迁移、特征变换和知识链接等方法,分别从准确
6、性、易用性和优缺点等方面对这些方法进行比较,4种方法各有优劣,其中,数据增广方法是最有效的小样本数据扩充方法,该方法通过优先挑选高质量样本参与训练,达到扩充语料库的目的,此方法在特定领域命名实体识别任务中能获得较高的准确率。程名提出了基于改进EDA(easydataaugmentation)的数据增广方法用于解决样本数量较少等问题,取得了较好的效果,但进行数据增广后实体上下文特征并未得到保护,造成实体特征缺失,影响了命名实体识别任务的识别效果。为了解决上述问题,需要研究有效的数据增广方法,确保在不丢失语义信息的基础上,进一步扩充语料数量,提升语料质量,增加样本多样性,提高命名实体识别的准确性和
7、鲁棒性。为此,本研究中针对渔业标准命名实体识别任务的特点,以及部分目标实体样本数量较少、效果不好等问题,提出了多元组合数据增广的渔业标准命名实体识别方法,即在传统的同义词替换算法(SynOnymsubstitution)随机删除算法(random1yde1ete)和随机插入算法(random1yinsert)基础上进行改进,提出了基于领域词典的联合替换算法(jointrep1acementa1gorithmbasedondomaindictionary,DDR)基于槽点保护的随机删除算法(randomde1etiona1gorithmbasedons1otPrOteCtiOn,SPD)和基于槽
8、点保护的随机插入算法(randominsertiona1gorithmbasedons1otprotection,SPI),将这3种算法进行多元组合,并使用基于融合注意力机制的BERT-Bi1STM-CRF网络模型对渔业标准文本进行命名实体识别,以提高识别的准确率。1基于多元组合数据的增广算法在对渔业标准文本处理过程中,通过采样统计了渔业标准文本中各类实体的数量分布(表1),结果表明,“水产品名称”样本较少且特征不明显,模型无法学习较多特征,识别效果较差,仅有71%。表1实体数量情况Tab.1Entitydistribution实体类型数量准确率/%entitytypequantityPreC
9、iSion渔业标准号162196No.offisherystandard渔业标准指标421392indexofGSherystandard水产品名称97471aquaticanima1为了增加“水产品名称”实体的数量,采用数据增广的方法对“水产品名称”进行扩充。EDA方法是目前广泛使用的一类数据增广方法,主要包括4种方法,即对文本进行同义词替换、随机插入、随机交换、随机删除操作。使用基于同义词替换算法对渔业标准文本中的“水产品名称”进行数据增广,虽然提高了样本的多样性,但同义词替换未增加目标实体的数量,不能从根本上解决实体样本稀疏的问题。使用随机删除、随机插入方法虽然改变了句子结构、提升了模型
10、泛化能力,但随机删除和插入会破坏句子中的目标实体和上下文特征,影响命名实体识别效果,因此,直接采用EDA方法进行渔业标准命名实体识别虽然可在一定程度上增加样本数量,但存在破坏语义信息等问题,导致识别效果不够好。针对以上问题,本研究中提出了基于多元组合数据的增广算法,同时采用基于领域词典的联合替换算法、基于槽点保护的随机删除算法和基于槽点保护的随机插入算法进行数据增广。11对传统同义词替换算法的改进传统的同义词替换算法是在句子中随机抽取个词,然后从同义词词典中随机抽取同义词进行替换。但使用传统的同义词替换方法会存在以下问题:1)目前的分词方法存在一定的错误率,句子中的实体可能被错误切割,再经过同
11、义词替换会造成错误传播,影响同义词替换的效果甚至消除语料库中原本的目标实体。2)同义词替换后虽然能改变一定的句式结构,但未增加目标实体的数量,不能从根本上解决实体不足、语料稀疏的问题。针对上述问题,提出了基于领域词典联合替换的数据增广方法。首先,根据领域词典构建“水产品名称”同类词词典和同义词词典;参照同类词词典和增广系数(心对水产品名称”类实体进行同类词替换;同时根据同义词词典对除目标实体外的随机词进行同义词替换,其中同类词替换只对目标实体进行替换,有效增加了目标实体的数量。对句子中的随机词进行同义词替换增加了句子的多样性,但未改变渔业标准的句子结构,符合渔业标准文本的行文规范。在不改变目标
12、实体上下文特征和语义信息的情况下,使用基于领域词典的联合替换算法,增加了目标实体的数量和句子的多样性,有效解决了渔业标准命名实体识别样本稀疏问题。同类词词典和同义词词典的结构如表2所示。基于领域词典的联合替换算法流程如图1所示。基于领域词典的联合替换算法示例如图2所示(设增广系数*3)。本标准规定了中国对虾的主要形态特点本标准规定了白斑乌贼的主要形式特征本标准规定了沙蚕的主要形态特性图2基于领域词典的联合替换算法实例Fig.2nexamp1eofjointrep1acementa1gorithmbasedondomaindictionary表2两个领域词典实例Tab.2Twoexamp1eso
13、fthesameworddomaindictionary同类词词典dictionaryofsimi1arwords同义词词典synonymdictionary虾夷刷贝Pd1ino)ecten)vas()ensis投喂:喂养、饲养青蛤Cyc1inasinerisis特性:特征、特点三疣梭子蟹Portiinustri1ubercu1Uus繁育:繁殖、繁衍门斑乌贼法“/m加s要求:需求、需要沙至NereiSsuccine(规定:规范、规章图1基于领域词典的联合替换算法(DDR)1. Fig.1Jointrep1acementa1gorithmbasedondomaindictionary2. 2对传
14、统随机删除算法的改进2.1.1 基于槽点保护的随机删除算法EDA数据增广方法中的随机删除算法是对句子中的每个词,以概率户随机删除,删除句子中字符可以提升样本的多样性,提升模型的泛化能力。但随机删除方法用到渔业标准命名实体识别任务中效果不够理想,因为它会随机删除标准文本中的一些实体,使模型无法学习到实体特征,影响了命名实体识别效果。使用传统的随机删除算法会造成如下问题:1)渔业标准命名实体识别的目标是识别有意义的专有名词,但是随机删除方法会大量删除需要识别的目标实体,严重影响语料的质量。2)由于传统的随机删除方法中,每个字符有固定的删除概率,这会造成语义缺失或无效删除,当概率,较大时会对短序列产
15、生较大影响,甚至影响句子原本语义,当概率尸较小时则无法对长序列产生影响,使随机删除变得毫无意义。本研究中,结合渔业标准文本的特点和命名实体识别任务的目标,对随机删除方法进行了两点改进并提出了基于槽点保护的随机删除算法:1)提出“槽点”保护机制,槽点包含实体本身及上下文特征词语,在保护槽点后再进行随机删除,可改变句子结构以增加多样性。2)将固定概率改成动态概率,针对不同长度的语句进行动态调整,避免随机删除概率过大或过小产生的不适配问题。假定随机删除概率为R句子长度为S动态概率倍率Ty则动态随机删除概率PFPX7,图3为动态概率倍率T随句子长度S的变化程度,其中,当句子长度小于10时动态概率倍率取
16、0.2,句子长度大于100时动态概率倍率恒定为2。图3动态删除概率2.1.2 Fig.3Dynamicde1etionprobabi1ity2.1.3 槽点的保护机制在自然语言中,判断一个实体是否为目标实体,除了要看实体本身以外,还要参考上下文语义环境。语义特征一般存在于目标实体上下文一定范围内。在渔业标准命名实体识别任务中,将句子序列转化成向量输入到长短时记忆(1STM)网络模型中,1STM网络模型会对实体及其上下文特征进行特征提取,得到渔业标准命名实体识别模型。传统的随机删除算法会对句子中的实体及其上下文信息进行随机删除,为了避免实体及其上下文特征被删除,提出了基于槽点保护的概念,槽点包含目标实体及其上下文语义信息,槽点保护包含实体本