《分子描述符和分子相似性.docx》由会员分享,可在线阅读,更多相关《分子描述符和分子相似性.docx(15页珍藏版)》请在第一文库网上搜索。
1、分子描述符和分子相似性目录1 .按种类分类:定量描述符和定性描述符12 .数据类型:13 .按照需要的分子结构维数分类:14 .按照物理意义分类25 .优秀的分子描述符要求56 .定量构效关系,分子相似性56. 1.如何定义相似57. 2.结构上的相似性58. 3.子结构搜索67 .分子描述符分类定量定性77.1. 定性分子描述符分子指纹77.2. 分子指纹78 .三维相似性:药效团89 .相似性原理910 .基于分子性质的相似性10L按种类分类:定量描述符和定性描述符唯一的一种定性描述符是分子指纹:是对分子的结构性质分子片段或子结构信息使用某种编码进行表示有很多分子指纹除了分子指纹全部是定性
2、描述符2 .数据类型:布尔值、整数、实数、向量、标量场、向量场、张量所有的物理量都可以转化成张量3 .按照需要的分子结构维数分类:一维(化学式)二维(苯环的数量,通过化学式得不到,几个氢键的受体)三维(分子的表面积因为需要知道每一个原子的坐标)、4.按照物理意义分类只是列举、还有很多1)A组成描述符表示分子组成或相对组成数量必不可少,单独使用不行,需要和更复杂的描述符结合到一起使用2)B拓扑描述符通常是二维的分子描述符Wiener指数:距离矩阵计算机存储行和列分别代表5个原子2号原子和三号原子通过一个化学键链接1和4之间是通过三个化学键链接另外一半是对称的维纳指数看起来比较奇怪物理意义不明确具
3、体怎么用没考虑3)C亲脂性、亲水性描述符油水分配剂c.亲脂性/亲水性描述符,logP(Octanol-waterpartitioncoclficientI。戏。厂砥匕】。谭lOgParlogP=loglJC水|田13noiWwater上式中:c脂为溶质在模拟脂相中的平衡浓度;JC水为溶质在水相中的平衡浓度。在生物活性物质的研究中,模拟脂相主要是采用正辛醇正辛醇化合物在油相和水相之中都会有溶解,测量浓度去对数得到油水分离系数亲脂性/疏水性的大小logP的大小来反应常见的logP计算方法除了实验以外还有很多其他的亲脂性亲水性描述符LogSLogD难度更大一些4)D几何描述符根据分子的性状计算出来转
4、动惯量回旋半径分子表面积范德华表面积溶剂及可及表面积探针分子球心形成的表面积溶剂排除表面积探针分子球面形成的表面积Es立体参数表示立体效应两个反应速率的差值取代基如果越大空间位阻越大越难形成中间产物反应速率越慢得到的Es值负值越大D.几何描述符一OH6hTraftStericparameter:E立体参数Es的定义是;在相同的溶剂事胃的甲酸甲酯的酸催化水解相对壶度与乙酸甲ES = lOgRCOlMe ,0gMeCO2Me、温度、酸制比虐器髭上式中Arcowc是被取代的酯的水解速度常数:甲酯的水解速而常数,因此甲基是基准取代基一ARCOOH + R0H随立体效应的增大,值)的结构状态的能量也变高
5、,不易形成。所以,取代基的立体效应越大-值也就越贵祓磔5)E电性描述符6)F热力学参数7)G构象描述符8)H量子化学描述符有热力学参数生成热9)1分子场参数探针和分子相互作用标量场每一个点有一个标量值10)1受体相互作用描述符分子描述符计算软件Dragon软件可以计算5270+描述符优秀的分子描述符的要求:优秀分子描述符的要求.数值位于一个合适的范I.信息丰富、与生物相关易于计算,分布合理(近似正态)对任何分子均可以计算和分子中原子的编号顺序无关和分子的取向、空间坐标无关.CS5 .优秀的分子描述符要求分子描述符和分子的取向,空间坐标无关6 .定量构效关系,分子相似性6.1. 如何定义相似使用
6、不同的指标可以得到不同相似性定义:两个分子在结构或性质上相似的程度要先给出指标和算法。6. 2.结构上的相似性两个结构之间是否相同?在电脑上存储分子结构用数据结构来存储。计算机中用图这个数据结构,分子结构的图论表示不扑图-原子C顶点-键c边相同的图0相同的分子图的同构问题不同的图。不同的分子原子之间可能有多条边相连距离不重要重要的是连接(拓扑)关系。图的同构问题是没有好的算法的,算法复杂度非常高,原子越多,所需要的时间呈指数增加。6. 3.子结构搜索转化成计算机问题子图的同构算法复杂度非常大也是非常耗时np问题基于回溯算法分子相似性醛类化合物如何比较结构?按骨架结构来分按官能团来分如何定义分子
7、相似性?最大公共子结构要先找到这两个结构当中最大的公共子结构,相似性定量化比较大小,5后心市丫=最大公共子结构化学键数量比上除了也可以用原子的数量除总共原子数量几种方法都不太高效使用分子描述符7.分子描述符分类定量定性6.1. 定性分子描述符分子指纹分子指纹:是把分子的结构,性质,分子片断或子结构信息使用某种编码表示Fingerprint定义很小的结构片段计算分子指纹很快分支指纹可定义20种结构片段是否含有每一个结构片段对应一个二进制位这是一个有歧义的representation不同的分子机构化学官能团是一样的分子指纹就是一样的不适合用于存储分子结构,非常利于分子标记和分子搜索。有很多种分子指
8、纹eg:MACCS有166个keys是否少于三个氧分子是否有二硫键?是否有四元环?是否还少有一个FCIBrI?基于分子指纹的子结构搜索初筛。一个查询分子查找真个库。一个查询分子定义了一个分子指纹,每一个二进制位看是不是有,有的话就是1,没有的是0算出来了分子指纹同样一种来计算两个化合物是几百个化合物都可以得出分子指纹查询分子中有一部分不一样那么B就被筛掉了7. 2.分子指纹相似性不用最大公约子结构了,直接计算分子相似性。Tamimotocoefficient谷本系数(Tc)=a/(a+b+c)有三个二进制位是一样的,看独有的结构有多少?知道了共有的也知道了独有的二进制位。用共有的二进制位/共有
9、二进制位+独有的二进制位计算出来是0和1之间的且与最大公共子结构的值算出来相似每年必考题目:首先比较图形按照颜色来判断考试会给二进制来判断蓝色是1白色是0分【必考】A独有2B独有2A、B相等2共有二进制位数量2/所有的答案是1/3我们一般会给除尽的数第9页共14页a=2,b=2,c=2Tc(AB)= c/(a+b+c)=l,39相似性搜索Tanimoto系数定义一个阈值60%希望找出化合物中和它相似性是0.6以上的分子计算出相似性系数是100%说明这两个分子是一样的吗?不一定,有歧义,只能说明分子指纹一样,但是分子指纹是有歧义的。8 .三维相似性:药效团是某一些基团是我们自己定义的比如氢键供体
10、可以定义成药效团氢键受体定义成药效团芳香集团疏水基团可以定义四种药效团三个球心作为空间点计算距离接下来找分子是否相似?1 .看药效团是否相似2 .比较相同药效团之间距离相同认为三维空间相同比较接近认为三维结构相似应用于药物设计领域因为有的药效团就是发挥作用的忽略了非药效团的结构9 .相似性原理为什么要做相似性搜索呢?基于相似性原理:结构相似的分子往往具有相似的生物活性基于相似性的虚拟筛选基于受体的药物设计和基于配体的药物设计是不一样的3D-QSAR是基于配体的相似性搜索也是基于配体的可以完全不知道受体的结构就进行虚拟筛选。药效团的设计就是为了做基于配体的药物设计的。如果用相似性搜索进行虚拟筛选
11、,相对于分子对接而言算分子指纹是非常快的。实际上基于相似性搜索计算虚拟筛选用的并不多。原因是这是基于相似性原理的,相似性原理对不对?下面的图Z轴表示药效,xy表示结构整个是构效关系图如果是第一幅图的话相似性搜索是适用的,因为比较平坦,结构稍微变化药效相似。但是图2有些地方非常陡峭,这样一种化合物,对结构进行很小改变,从山顶直接到悬崖了。(活性悬崖)如果存在活性悬崖就不适用了,相似性原理不是在所有的地方都适用。continuousSARsgradualchanges in structure result inmoderate changes in activity jrolling h川C (
12、G. Maggiora)smallchanges in structure havedramatic effects on activityd肝,in activity !andsca萍e 以.四八4I片discontinuousSARs电只是做了一点改变,亲和力直线下降。说明存在活性悬崖。10 .基于分子性质的相似性之前都是基于结构我们的比较相似性有很多指标与算法同样除了结构相似性外还有性质上的相似性很多化合物物化性质其实这些性质都是分子描述符可以转化成利用分子描述符(定量分子指纹)来比较相似性。利用分子描述符。利用多个分子描述符进行比较。某一个描述符当做空间的一个坐标轴。分子描述符被转化为
13、多维空间当中的一个向量。计算点与点之间距离。可以用来表征分子之间相似性。是分子相似性的另外一种定义形式。距离近相似程度高,距离远相似程度低。笫H页共14页descriptor3一17 25.25ChemgReferenceSpaceSedXmTerniCa,sPaceis如船罂温瑞铲MolecularsimilaritycovenchemicalsimilaritybutalsoPrPerfysimilarityincludingbiologicalactivity什么是空间当中的距离?欧氏距离【必考】每次都有人算错曼哈顿距离曼哈顿【必考】是这两个点每一个坐标值差值的绝对值加和化合物文库的设计
14、:多样性自己设计文库不需要一整个化合物数据库自己设计一个子库化合物之间有太多重叠说明化合物之间有冗余不太竞技还发现存在空白比较多也就是子文库不能完全覆盖化学结构数据库整个化合物空间J一个比较好的文库我府希望有限数量化合物森K表整个化学结构数据库没有冗余和空白需要利用一个与相似性完全相反的概念结构多样性空间中有了点有了定义可以做聚类找到类中具有代表性的化合物就可以作为文库了分子本】分子表征一分子描述符一特征选择,比对计算一相关系数andistance)磐(Tanimotocoefficient)一见闻羯数欧式距离(Euclideandistance)铀哈顿距离(Manhatt最大公共子结构7可以算不同分子之间距离施离越大相似性越小谷本系数是正相关的越大相似性越大两大类方法一个算系数一个算距离化合物筛选用相似性系数设计文库的时候用距离因为要分类用寻样足W搜多源一行的该脚库应似般据时一数麻打比物