催化剂定量构效关系建模方法应用进展及优缺点分析

2024-06-08 09:18:46发布    浏览47次    信息编号:74532

友情提醒:凡是以各种理由向你收取费用,均有骗子嫌疑,请提高警惕,不要轻易支付。

催化剂定量构效关系建模方法应用进展及优缺点分析

第33卷10期 计算机与应用化学 V01.33, No. 2016 2016年10月28日 催化剂定量构效关系建模方法应用进展 王继业,项曙光+ (青岛科技大学过程系统工程研究所,山东青岛) 摘要:从近十年的应用进展来看,常用的催化剂定量构效关系(QSAR)建模方法包括多元线性回归(MLR)和主成分回归(ANN)两种非线性方法。最有效的线性方法是PLS方法,其优点是模型机理清晰,缺点是有时预测能力不如RBFNN模型强;最有效的非线性方法是RBFNN方法,其优点是往往预测能力比PLS模型强,但缺点是机理不明确。 其中最成功、应用最广泛的方法是新型​​高效催化剂的结构设计,利用RBFNN模型预测所设计催化剂的性能,进而对所设计催化剂的结构进行修饰,从而减少催化剂合成实验的工作量。关键词:建模方法;定量构效关系(QSAR);催化剂;应用进展中图分类号:TQ333.3文献标识码:A文章编号:1001-4160(2016)10-1045-:10.16866/j.tom.app。本文仅介绍连续变量的建模方法。

针对连续变量的建模方法分为线性建模方法和非线性建模方法两大类,下面对每种方法做简单介绍。化合物的分子结构决定了它的性质,所谓定量构效关系(QSAR)就是描述化合物分子结构与其性质之间相关性的一种方法。1多元线性回归数学模型,通过该模型可以预测未知化合物的性质,指导新型催化剂的开发。传统QSAR研究领域中,QSAR模型回归是最基本、最常用的方法之一[4j。它假设因变量与多个自变量之间存在线性关系。MLR的优点是模型简洁直观:缺点是要求自变量必须相互独立,提高了新药开发成本。样本数量至少是自变量数量的5倍,不适合复杂的QSAR研究,一般包括数据收集、分子结构问题三个步骤。 如果自变量的数量远大于样本数量,则使用MLR模型来计算和选择描述子,建立和评估数学模型。其中,数量往往过拟合,过拟合导致自变量的组合不同,建立学习模型是关键步骤,模型质量因建模方法不同而不同,多个不同模型,每个模型的预测能力都很差,MLR直接决定。

分子结构与性能的QSAR关系可以是如式(1)所示的线性模型方程,也可以是非线性的,因此建模方法分为线性方法和非线性方法两类。式中Y表示催化剂的活性或选择性;x表示催化剂的分子结构参数(分子描述符);W表示通过最小二乘法得到的药物疗效与其分子结构之间的关系。因此,可利用系数借鉴药物设计领域的QSAR研究成果,进行QSAR 2.1.2对催化剂进行主成分回归研究,提高催化活性和选择性,降低新催化剂的开发成本。当白色变量数目较多,且相互关联时,MLR回归法[3]o方法不再适用。 此时可行的方法之一就是主成分分析回归(先用主成分分析(催化剂QSAR模型中的分子结构描述子为自变量,计算自变量的主成分表达式和主成分得分变量,主成分催化剂活性或选择性为因变量。这里的因变量一般都是相互独立的得分变量,因此可以将因变量转化为主成分得分连续变量,因此这里不介绍离散变量的建模方法,变量回归,然后将主成分表达式代回回归模型,即收稿日期:2016.05.17;修回日期:2016.09.13基金项目:国家自然科学基金项目作者简介:王继业(1967-),男,山东蒙阴人,博士生,高级工程师,Email:wjy@.corn联系人:项曙光(1963-),男,山东平度人,博士,教授,博士生导师,Email: 1046 计算机与应用化学 可得到标准化自变量和因变量的回归模型,最后当标准化到不期望的输出时,进入反向传播;利用反向传播将自变量逐层转化为原始自变量,可得到原始自变量与因变量之间的传递误差,并逐一修改神经元之间的连接权值,从而得到网络输入回归模型。

其本质相当于利用主成分分析减少自变量个数,消除自变量间的相关性,然后利用MLRBP算法进行回归,最终转化为原来的自变量与因变量之间具有线性映射能力。缺点是缺乏理论基础,推导过程严谨,通用性好,属于非线性关系模型。2.1.3偏最小二乘法2.2.2径向基函数神经网络法PAL偏最小二乘法(PLS)t61在普通多元径向基函数神经网络(线性回归分析)基础上,融合了典型相关分析和主成分分析的思想,很好地解决了自变量间的多重共线性问题。其隐含层又称径向基函数层,通常由一系列高斯网络构成,具有以下特点:①不要求自变量间有很高的相关性;②不受自变量个数的限制。 与BP网络相比,RBFNN突出的优点是收敛速度快,即使数目大于样本数,PLS得到的结果仍然有意义;③该算法采用交互式测试来选择和确定最优主成分个数,从而减少了模型的偶然相关性;④同时,有些训练甚至可能得不到最优解;(2)由于权重初始化的随机性,考虑了自变量和因变量的信息,因此得到的结果更优。

ANN的结果难以重复。PLS的算法基于最小二乘法(LS),在尽可能提取线性回归得到的模型时,直观易懂。但对于影响因素多、自变量信息较多的复杂系统,非线性方法会更有效。最好的策略是先利用变量间最大相关性,即优先选择与因变量相关的部分,如此进行线性回归建模,然后再用非线性方法验证预测结果是否改善质量的做法称为偏最小二乘回归[10]。PLS的建模原理:假设有P个因变量¥1,Y2,…,F},g3,1个自变量涼,X2,…,‰)和1个观测值的数据集。首先从因变量和自变量中各提取一个主成分U和t。 ,要求”。和t.等。……1分别采用线性回归和非线性响应,将变异信息尽可能多地携带在各自的数据表中,采用最大值回归法建立Heck反应的OsAR数学模型,模型的因变量为相关程度,然后将因变量对t进行回归,若回归方程为单位时间转化次数和单位催化剂转化次数,代表催化剂已经达到满意的精度,则算法终止;否则,再进行第二轮对催化剂的活性和稳定性的测定:自变量为反应物、钯催化剂的配体和组分的提取回归。重复此过程,直到得到较满意的精制溶剂的三维结构和电子结构参数,以及反应温度和反应时间。

若最终从自变量集中提取出100个组分,PLS将针对这100个组分建立因变量集的回归方程,然后将其表示为因变量个数)为412。在建模之前,先将自变量集依次应用算法,得到自变量集与原自变量集的回归方程,即PLS方程。通过PLS和PCA方法进行降维处理。通过比较所建立的非线性ANN模型与线性模型,可以看出非线性ANN模型优于线性模型。PLS和PCR线性回归方法都是利用主成分分析来降低自变量集的维数,消除自变量间的多重相,可以更好地描述Heck反应的复杂行为。然而非线性模型存在相关性的问题。但两者在提取主成分的思路和方法上有着本质的区别。网络不透明,很难解释隐含的化学规律;相反,线性模型透明,容易用现有的化学知识进行解释。 PCR在提取主成分的整个过程中不与因变量发生相互作用。而PLS提取的主成分不仅要求对自变量有很强的预测能力,对所得非线性ANN模型的预测精度有很好的泛化能力,还要求它对因变量有最大的解释力,最高可达93%。因此,PLS能更好地识别系统中的信息和噪声,其回归模型比PCR回归模型更可靠。

将催化剂的三维几何参数和电子结构参数与其催化性能关联起来,建立了镍金属配合物催化氢氰酸均相反应的QSAR模型。在建立模型的过程中,利用主成分分析法,将32个分子描述符简化为若干个具有高度代表性且相互不相关的主成分。结果(.ANN)。ANN是对生物神经系统的模拟,具有非线性、自学习、容错、联想记忆、配位原子电荷、分子刚性、中心金属原子环绕、可训练等特点。ANN方法在化学研究中应用最为广泛。空间拥挤效应和配位键角是影响催化剂活性的四个最重要的描述符。这与已知的反应机理和实验结论一致,通过反向传播算法得到的模型准确预测了高活性催化剂应具备的关键分子结构特征。反向传播算法(BP)是指具有隐藏层的前馈多层神经网络。 在计算训练误差时, 从Corma等[l3]用ANN方法建立的144个点的输出层开始, 逐层向后进行(第一个隐藏层). BP算法的学习过程是基于分子筛催化剂结晶度与其合成工艺条件之间的关系模型.

模型采用BP训练方法,选取144个样品中的70%作为训练集,用MLR方法选取其余对催化剂性能影响最大的3个关键因素作为测试集。与实验结果对比表明,利用ANN建立了催化剂活性与其关键合成控制因素之间的QSAR模型。BP方法的非线性模型具有较高的预测精度。外部测试集的验证表明,所建立的模型对催化活性有很好的预测能力。GA是一种有效的变量筛选工具,通过筛选自变量作为关键变量,利用MLR和PLS建立了加成反应的预测模型。本研究建立的QSAR模型,以8H20、硅胶和十二烷基硫酸钠(SDS)三种催化剂作用下13个催化剂样品的反应产物烯醇盐的产率作为因变量,反应物和产物3个合成控制因素作为因变量。根据MLR方法的建模要求,采用催化剂分子的量子化学描述符。

反应产率数据是通过实验获得的,样本数略少,根据影响催化剂活性或选择性的分子结构参数或子描述符,利用软件计算反应物和产物的量子化学描述符。本研究分别采用了基于逐步变量选择的MLR和基于GA变量选择的PLS两种方法,建立了3种催化剂的反应产率预测模型[191。从以上催化剂QSAR建模方法的应用进展可以看出,最常用、最有效的线性方法应为PLS,而最常用、最有效的非线性方法应为RBFNN。对于某一特定问题,用PLS建模方法得到的反应产率预测模型的性能要优于MLR模型;(2)不同催化剂下的反应产率预测模型有所不同。此外,本所建立的QSAR模型具有较强的预测能力。对比表1可以看出:等 [1]建立了预测乙烯催化二聚化为丁烯的方法(1)在过去的十年中,几种常用的线性建模方法和连续变量的非线性建模方法已被用于催化剂QSAR建模,以获得选择性QSPR(QSAR)模型。

所用的催化剂为磷氮混合配位镍催化剂,在配位的磷原子和氧原子上未采用取代类型,选取了29种不同的催化剂。19种量子化学(2)线性方法中,MLR一般不单独使用,常与描述符结合使用,包括几何结构参数、原子电荷、配位强度和极化等一定的变量选择方法,如PCA、GA、HM等,如取样度等。本研究采用MLR方法建立丁烯选择性与催化剂的QSAR模型,采用PCA进行变量选择和处理,则为PCR方法,但模型的相关系数(r2)和交叉验证方法可靠,相关系数(,..)分别仅为0.48和0.38,因此其预测能力较差,甚至缺乏定性预测的能力,研究者将其归因于(3)非线性方法一般采用ANN方法,分为所选的描述符不够全面。 可以看出,虽然建模方法与BP方法、RBFNN方法有很大关系,两种方法得到的模型都有很好的结合力,但使用好的数据建模是前提,RBFNN的预测效果更佳,但理论上RBFNN建模效率更高。詹兴文[16]研究了铬基PNP乙烯高选择性Z/四聚化催化剂(4)ANN非线性模型的预测能力往往高于线性模型,但由于ANN模型本身不透明,化学机理难以解释,当涉及到化学体系的二维定量构效关系时,采用启发式方法(缺点),不适合单独使用。

、HM)预选描述符并建立线性模型:(5)最成功的应用是先利用PLS线性方法建立催化剂的RBFNN方法建立非线性模型,再利用Compr-软件的HM方法搜索大量分子描述符并选取变量建立验证,若二者相差较大,则根据非线性模型对线性模型进行修正,这样得到的线性模型不仅具有较强的预测能力,而且具有最优的线性回归模型;利用该软件进行RBFNN模拟,建立非线性模型。结果表明,对于1-己烯/1-辛烯模型,通过RBFNN建立的非线性模型在指导新型高效催化剂的开发方面更具有透明性、机理易解释性等优势,在回归系数和均方根误差方面均优于HM得到的线性模型,因此非线性模型优于线性模型; 对于1-辛烯模型,两种方法得到的回归系数和均方根误差值比较接近。HM方法的回归系数优于RBFNN方法,但均方根误差高于RBFNN方法,非线性模型优于线性模型。线性方法主要有多元线性回归mLRl、主线性回归、非线性回归等。因此,无法判断两种方法的优劣。

可以看出,对于三类催化剂组分回归(PcR)和偏最小二乘(PLS),建立非线性方法的主要QSAR模型是采用线性方法还是非线性方法,应有基于反向传播算法(BP)和径向基函数神经网络的具体分析,最好的方法是同时使用线性方法和两种人工神经网络(ANN)方法(RBFNN)。非线性方法建模,比较并选择一种更适合具体问题的方法。最有效的方法是PLS方法,而非线性方法中最好的模型。最有效的方法是RBFNN方法。PLS模型的优点是机理明确。等[l7]利用遗传算法(缺点是在预测能力方面有时不如RBFNN模型:而RBFNN,GA)u剐,从合成的纳米级催化水氧化反应的8个控制因素来看,催化活性并不明确。 1048 计算机与应用化学 2016. 3300) 表1 几种催化剂QSAR建模方法的应用总结。 序号 参考文献 出版年份 催化剂类型 建模方法 模型效果 序号 PCR线性方法 反应ANN非线性模型 预测精度高达93%,优于钯配位催化剂PCR非线性模型 ANN非线性方法 2005 氢氰化反应PLS线性方法 PLS线性模型与已知反应机理和实验结论一致,准镍配位催化剂准确预测了高活性催化剂应具备的关键分子结构特征。 分子筛催化剂 BP非线性方法 BP非线性模型预测精度高 加成反应MLR线性方法 GA PLS线性模型优于MLR线性模型,具有强预测能力 GA-PLS线性方法 磷氮混合乙烯二聚反应MLR线性方法 MLR线性模型由于描述符不足,预测能力较差。 铬基PNP型乙烯高选择性HM线性方法对于1-己烯/1.辛烯模型,RBFNN非线性模型优于三聚/四聚催化剂RBFNN非线性方法的HM线性模型;而对于1-辛烯模型,两个模型质量相当纳米级GA-MLR线性方法水氧化反应GA。MLR线性模型具有很好的预测能力,通过其在催化剂QSAR建模中的应用,最成功和最有前景的方法是同时使用PLS方法和RBFNN方法,建立特定催化剂的PLS线性和RBFNN非线性模型。

利用PLS模型指导新型高效催化剂的结构设计,而利用RBFNN模型对所设计催化剂的性能进行预测,进而对所设计催化剂的结构进行修正,从而减少催化剂合成实验量,降低开发成本,提高开发效率。·ion:y[J]. a1. AnewA,,,el : [J]. —3296. 1 . ,truc—,,. /QSPR[M]. Wiley-,2012. -ture-ip 2NS. . [J]. -(QSAR)[J]. '-,2012,3(2):815-836. ?(II)3 inE. [J]. ,2010,[J]. ,1lO:540.548.2006.7:375-404.16 詹兴文. 铬基 PNP 型乙烯高选择性 Z/四聚催化体系的二维定量构效关系 [M]. UK: John1. , Ltd, 2007. [M]. ·. Co,1957. —:an印- 6. S,RuheA,WoldH,等 —. The (PLS)[J]. 1in8 . ,1984,5(3):735-743. : : 7 . obust 【J】. ,2013,1B,—8103. [J]. alT,,1999,39(1):121—132. HongE,YangH. ·&:f 8 [J]. TheE,,. ry,2016,120(1):78.86. back—[J]. ,1986, 323(6088): 533-536. 2016, 33(10)王吉业等: 定量构效关系建模方法在催化剂中的应用进展1049 ————-————————_——————————————___————————————--————————_——————————●__————————————_——————————-__——————————●_——————————_-————_————————————_●—'——————●_————-————_——————————————————————————————.

—————'——————————————一一lysts 2,China) (, : ,it ,on(MLR),rtial - ,(ANNs)(BP)(PLS),和 舞(..tnon. y . .— the roved. . . :;(QSAR);;

提醒:请联系我时一定说明是从奢侈品修复培训上看到的!