《医疗AI竞赛经验分享:Covid-19 mRNA 数据分析及建模.docx》由会员分享,可在线阅读,更多相关《医疗AI竞赛经验分享:Covid-19 mRNA 数据分析及建模.docx(49页珍藏版)》请在第一文库网上搜索。
1、医疗A1竞赛经验分享:Covid-19mRNA数据分析及建模TaoShen2023.04.27目录1 .背景介绍:Kagg1e平台&A1竞赛2 .医疗数据特点及常用A1建模方法3 .CoVid-19mRNA疫苗数据分析及建模进阶技巧4 .其他KaggIe医疗A1竞赛项目经验总结Kagg1e平台&AI竞赛“我们必须降低人工智能的门槛,使之为最大的开发者社区、用户和企业所用,这样便可应用于他们独特的需求。KaggIe加入谷歌云团队后,我们将加快这一使命。”谷歌云计算人工智能和机器学习首席科学家李飞飞说。Kagg1e平台&A1竞赛数据挖掘应用:排序,估,搜索数据:结构化数据40102视觉应用:图像分
2、类、物体检测数据:非结构化信息:完备语音应用:语音识别、声纹识别数据:非结构化信息:完备自然语言应用:机器翻译、文本分类数据:非结构化信息:完备203Grandmasters6,255Experts1,525Masters彳SantanderEDAandPredictiofi725O-X*-onF8-od嬴I1P11GB21avtaugment484HjageootrSantanderM1FxpIiiinabHItyImnqo0Qda.MgStyO1istofFakeSamp1esandPUb1iC/Private1Bsp1it3.:ModifiedNaiveBayes-Santander-0
3、399264、彳StarterCode.Savingand1oading1GBvGB.CB23。配;861339NovicesuapM31/9p0u2Id/SFy048aPyQ35U/Bf1PyOOPPS2VQROM2;5网N,h,n0WOrkeKagg1e竞赛特点 实时的竞赛排名 个人积分排名和tit1e机制 优质代码和讨论区 数千名活跃参与者HumanGridSearch=GridSearch2.0竞赛中的机器学习VS工业应用中的机器学习竞赛工业应用定义好的任务解决什么样的任务?该任务是否需要解决? 定义好的评价指标如何定义businessmetric? 提供好的数据如何获取数据? 单人或
4、小团队多人协作 精度优先,大多无效率要求高精度和高执行效率 无代码质量要求高质量生产代码A1竞赛中的经验对于工业应用有帮助吗?YES.Buton1yifyouknowhowtocookitwe11.Competitionsprovide: Newtasksandnewideas. Aggregationandverificationofavai1ab1eknow1edge. DiverseM1Ski11s ComputerVision Natura11anguageProcessing Timeseries Tabu1ardata MixeddataDiverseM1Ski11sM1Sk川Sd
5、eve1opedatcompetitionscomp1ementski11sdeve1opedinindustryandacademia.f1肉且医生发占VW0tQvChMXwAbnarmeHHMDeIeeH,omtcMcerrs(MZWEIMMMICMAefifBRSNASTRfMRWaryEmtxHiMDetoeQ1OnJWN一一RSNAMracnmMMdCtoMmcMRB27ZZZ7,1,Kagg1e平台中的生物医疗A1竞赛疗影像主题11个物医药主题6个布机构为高校、研究所和企业发布赛题数量的1/4当uIfaE,MoisctiisfItocurskx)C4*arWn9CtMfctonMK
6、henHm0*Action(MoA)rmMction0VecgOOVO-1mANAVaccimnyttoP*4ettonCOWWG1otM1ForvcaMino(W1S)XUeMAP-HackingtKidiwy生物医疗数据特点不均衡问题,小样本问题;实验噪声、批次效应等;需要领域知识解读数据,标注成本高;数据隐私问题;不同医疗机构收集、标记、注释、处理数据的方法不一致;常用AI(D1)模型-深度学习的归纳偏置1卷积神经网络2循环神经网络OooooConvo1utiona1Networks(putervision) datainregu1argrid informationf1owto1oca
7、1neighboursRecurrentNetworks(e.g.1anguage) datainorderedsequence informationf1owsequentia11y3*图神经网络4注意力模块OOOo7ooO-y,$25,000PrizeMoney篷StanfordUniversity1,636teams7monthsagoOverviewDataCodeDiscussion1eaderboardRu1esTeamMySubmissions1ateSubmissionWOpenVaccineCOVID19mRNA序列问题:Ggaaaagcucuaauaacaggagacuag
8、gacuacguaaugcmRNA极容易裂e解,对保存和物流技术提出了很大挑战二级:结构目标:利c用机器学习技术来预测mRNA降解性,提升疫苗研发效率3数据样例 Sequence:1x1Ggaaaagcucuaauaacaggagacuaggacuacguaaugc Structure:1x1,().).(.().).(-), 1ooptype:1x1,EEEEESSSSSSHHHHHHHSSSSBSSXSSIIIIISSIISSSSSSHHSosonooTarget(reactivity,deg_Mg_pH10,anddeg_Mg_50C):1x3 Basepairprobabi1ity:1
9、x1数据样例httpsi0.10.20.50.90.30.70.20.90.30.40.10.80.70.20.5.,mRNA二级结构示意图CountSeq1engthSeqscoredTrain240010768Pub1icTest62910768PrivateTest300513091-App1yT-SNEfora11dataGgaaaagcucuaauaacaggagacuaggacuacguaaugc,().(.).).).(.).,Eeeeesssssshhhhhhhssssbssxssiiiiissiisssssshhs训练、测试数据不一致,怎么办?PairtypePairtype
10、sPredicted1ooptypes1ooptype1oop-Iypesigna1_to_noiseSN-fi1terbarchart33.8%66.2%Signa1toNoiseSNJiIterGgaaaagcucuaauaacaggagacuaggacuacguaaugc.().).()-(.).,Eeeeesssssshhhhhhhssssbssxssiiiiissiisssssshhs1DCNN优势:模型简单轻量,容易训练适合作为base1ine模型问题:感受野不足,序列建模能力弱Ggaaaagcucuaauaacaggagacuaggacuacguaaugc,(.).).(.(.().).,Eeeeesssssshhhhhhhssssbssxssiiiiissiisssssshhs1DCNN+RNN优势:CNN结合RNN,增强了序列建模能力加入了残差结构问题:序列建模合适否适合当前数据?Transformer2DCNNGGAAAAGCCUAAAACAGGAGACAGGACACGAAUGC,().).(-).).,EeeeesssssshhhhhhhssssbssxssiiiiissiisssssshhsItention机制问题:序列长度短,且训练、测试数据长度