基于ChEMBL数据库的文本分类器.docx

上传人:lao****ou 文档编号:141628 上传时间:2023-04-14 格式:DOCX 页数:2 大小:57.94KB
下载 相关 举报
基于ChEMBL数据库的文本分类器.docx_第1页
第1页 / 共2页
基于ChEMBL数据库的文本分类器.docx_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《基于ChEMBL数据库的文本分类器.docx》由会员分享,可在线阅读,更多相关《基于ChEMBL数据库的文本分类器.docx(2页珍藏版)》请在第一文库网上搜索。

1、摘要:某些科学家和将大数据提取整理到公共数据库这一过程都需要对文本进行数据挖掘,科学出版物的大量发行则要求可以实现半自动和全自动文本挖掘。作者开发了一种文档分类器,可以成功区分类化学物(即与小分子药物发现相关且可能包含定量生物活性数据的出版物)和“非类化学物”。基于ChEMBL数据库的文本分类器ref: Journal of Cheminformatics 2074, 6:40 ; IF=3.893链接:http:/www.jcheminf.eom/content/6/1/40.ChEMBL数据库存储了大量的化合物结构、生物靶标、生物活性数据以及药物和类药分子的分子性质。其数据是人工提取了原始

2、文献中的实验结果,并进行了整理和集成,保证了数据的一致性和数据质量。基于ChEMBL数据库来源,作者用Pipeline Pilot构建了分档分类算法,使用朴素贝叶斯(Naive Bayesian, NB)和随机森林(Random Forest, RF)算法,对文献中的标题和摘要做了文本分类,用于快速提取类化学物数据,从大量文献数据中提取关键的文献进行研究。该算法已在毒理基因组学中获得验证。TitleAbstractChEMBL47,939Papers1. Tokenization2. Punctuation removal3. Case normalization4. Stop word re

3、moval5. Term stemming6. Short term removalL/NB ChEMBL-Documentvectorlikeness modelRF ChEMBL-likeness modelMEDLINE47,939RandomPapers1. TokenizationTitle Abstract一2. Punctuation removal3. Case normalization4. Stop word removal5. Term stemmingShort term removal )图一数据处理和模型构建流程ROC Curve (Accuracy 0.98)图二

4、Pipeline Pilot模型评价结果(At一 一 suvs) 。一)一 sod0)nHMaXFlow生物医药智能创新平台,由创腾科技自主研发,旨为不同领域的一线创新科技工作者提供一个合作共享的BS架构平台。以“数据自由,模型自由”为理念,在结构模型与预测模型进行融合的基础上,实现模拟与AI需求的合并,为研发赋能。令填补数据产生保存与数据使用赋能断层令打通空间结构模型与数据预测模型壁垒令合并经典模拟计算与新兴AI预测需求令降低背景知识储备与复杂软件使用门槛通过便捷的网页端操作,可实现大、小分子模型的构建与优化,动力学模拟,分子对接,分子间相互作用展示。小分子药物方面,通过分子性质计算以及多种机器学习与深度学习的方法,在工作流中帮助用户实现数据的挖掘以及相关构效关系的搭建,同时可以通过一键部署的方式实现药代动力学及不同目的的AI预测与共享。对于大分子,基于流行AI模型的运用,更加准确的实现大分子间相互作用预测。多样的APPs为大分子药物研发提供可靠保障。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服