《基于ChEMBL数据库的文本分类器.docx》由会员分享,可在线阅读,更多相关《基于ChEMBL数据库的文本分类器.docx(2页珍藏版)》请在第一文库网上搜索。
1、摘要:某些科学家和将大数据提取整理到公共数据库这一过程都需要对文本进行数据挖掘,科学出版物的大量发行则要求可以实现半自动和全自动文本挖掘。作者开发了一种文档分类器,可以成功区分类化学物(即与小分子药物发现相关且可能包含定量生物活性数据的出版物)和“非类化学物”。基于ChEMBL数据库的文本分类器ref: Journal of Cheminformatics 2074, 6:40 ; IF=3.893链接:http:/www.jcheminf.eom/content/6/1/40.ChEMBL数据库存储了大量的化合物结构、生物靶标、生物活性数据以及药物和类药分子的分子性质。其数据是人工提取了原始
2、文献中的实验结果,并进行了整理和集成,保证了数据的一致性和数据质量。基于ChEMBL数据库来源,作者用Pipeline Pilot构建了分档分类算法,使用朴素贝叶斯(Naive Bayesian, NB)和随机森林(Random Forest, RF)算法,对文献中的标题和摘要做了文本分类,用于快速提取类化学物数据,从大量文献数据中提取关键的文献进行研究。该算法已在毒理基因组学中获得验证。TitleAbstractChEMBL47,939Papers1. Tokenization2. Punctuation removal3. Case normalization4. Stop word re
3、moval5. Term stemming6. Short term removalL/NB ChEMBL-Documentvectorlikeness modelRF ChEMBL-likeness modelMEDLINE47,939RandomPapers1. TokenizationTitle Abstract一2. Punctuation removal3. Case normalization4. Stop word removal5. Term stemmingShort term removal )图一数据处理和模型构建流程ROC Curve (Accuracy 0.98)图二
4、Pipeline Pilot模型评价结果(At一 一 suvs) 。一)一 sod0)nHMaXFlow生物医药智能创新平台,由创腾科技自主研发,旨为不同领域的一线创新科技工作者提供一个合作共享的BS架构平台。以“数据自由,模型自由”为理念,在结构模型与预测模型进行融合的基础上,实现模拟与AI需求的合并,为研发赋能。令填补数据产生保存与数据使用赋能断层令打通空间结构模型与数据预测模型壁垒令合并经典模拟计算与新兴AI预测需求令降低背景知识储备与复杂软件使用门槛通过便捷的网页端操作,可实现大、小分子模型的构建与优化,动力学模拟,分子对接,分子间相互作用展示。小分子药物方面,通过分子性质计算以及多种机器学习与深度学习的方法,在工作流中帮助用户实现数据的挖掘以及相关构效关系的搭建,同时可以通过一键部署的方式实现药代动力学及不同目的的AI预测与共享。对于大分子,基于流行AI模型的运用,更加准确的实现大分子间相互作用预测。多样的APPs为大分子药物研发提供可靠保障。