编辑 | 紫萝
聚合物是我们日常生活中不可或缺的一部分,几乎触及生活的方方面面。从塑料袋、水瓶,到橡胶和木材,再到DNA、RNA 等。
聚合物化学空间如此之大,为识别合适的特定应用候选聚合物提供了前所未有的机遇和重大挑战。
聚合物信息学这个新兴领域可以深入了解聚合物「宇宙」,其中机器学习(ML)模型极具潜力。
近日,来自佐治亚理工学院(GT)的研究人员提出了一种化学语言模型:polyBERT——一个完整的端到端机器驱动的聚合物信息学管道,可以以前所未有的速度和准确性在这个空间中搜索合适的候选聚合物。
polyBERT 是一位化学语言学家,将聚合物的化学结构视为一种化学语言。
该方法超越了目前基于手工指纹方案的聚合物性能预测的最佳概念,在保持准确性的同时,速度提高了两个数量级,从而使其成为部署在包括云基础设施在内的可扩展架构中的强有力候选者。
该研究以「polyBERT: a chemical language model to enable fully machine-driven ultrafast polymer informatics」为题,于 2023 年 7 月 11 日发布在《Nature Communications》上。
论文链接:https://www.nature.com/articles/s41467-023-39868-6
机器学习框架在聚合物特性预测器的开发和解决逆向问题方面取得了实质性进展,在逆向问题中,满足特定特性要求的聚合物要么从候选集中识别,要么使用遗传或生成算法重新设计。
聚合物信息学管道中的一个重要步骤是将聚合物化学结构转换为通常称为指纹、特征或描述符的数字表示(见图 1a 中的蓝色框)。
图 1:使用 polyBERT 进行聚合物信息学。
过去的手工指纹识别方法利用化学信息学工具对聚合物的关键化学和结构特征进行数字编码。尽管这种手工制作的指纹建立在宝贵的直觉和经验的基础上,但它们开发起来很乏味,涉及复杂的计算,通常会消耗模型训练和推理期间的大部分时间,并且缺乏对所有高分子化学类别的泛化。
因此,使用手工指纹的机器学习管道在探索新的聚合物化学类别时很容易出错。此外,手工制作的指纹为完全机器驱动的管道的开发和部署带来了障碍,这些管道适合云计算和高吞吐量环境中的可扩展性。
克服前面提到的限制的一种方法是用完全机器制作的「Transformer」指纹代替手工制作的指纹(见图 1a 的右侧管道)。Transformer 已成为 ML 语言建模的黄金标准。
另一种有前途的神经网络架构,即图神经网络,它将化学结构视为图,已应用于分子和聚合物化学空间。与 Transformer 相反,图神经网络将原子表示为节点,将键表示为图的边,从而对原子之间的直接和扩展连接进行编码。因此,图神经网络并不像 Transformer 那样直接基于 PSMILES 字符串,而是依赖于需要为每个节点计算并分配给每个节点的一组初始特征向量(例如原子类型、隐式价等)。
在此,研究人员设想将简化分子线性输入规范(SMILES)字符串作为聚合物的「化学语言」来表示聚合物。研究使用数百万个聚合物 SMILES (PSMILES) 字符串来训练名为 polyBERT 的语言模型,使其成为聚合物化学语言的专家(语言学家)。与多任务深度神经网络相结合,polyBERT 实现了完全端到端机器驱动的聚合物信息学管道,该管道使用并释放了人工智能方法的真正力量。多任务深度神经网络利用多保真度和多属性数据集中的固有相关性,在云计算环境中轻松扩展,并推广到多个预测任务。
该研究几个关键要素如下:
首先,通过枚举组合从 13000 多种合成聚合物列表中提取的化学片段,生成了 1 亿个假设聚合物的数据集。
接下来,使用这个假设的聚合物数据集来训练 PolyBERT(一种基于 DeBERTa 的仅编码器 Transformer),使其成为一名高分子化学语言学家。在训练过程中,polyBERT 学习将输入 PSMILES 字符串转换为其用作聚合物指纹的数字表示。
最后,使用其多任务机器学习框架将 PolyBERT 指纹映射到大约 36 种聚合物属性,以产生完全机器驱动的超快聚合物属性预测器。为了进行基准测试,将这种新的端到端属性预测管道的性能(准确性和速度)与之前开创的基于手工制作的 Polymer Genome (PG) 指纹的管道进行了比较。使用超快的 PolyBERT 聚合物信息学管道,能够预测 1 亿种假设聚合物的属性,旨在找到聚合物宇宙的属性边界。
该研究通过利用语言、数据和人工智能模型的力量,有助于加快聚合物的发现、设计、开发和部署。
属性预测
为了对 PolyBERT 和 PG 指纹的属性预测准确性进行基准测试,研究人员为表 1 中定义的每个属性类别训练多任务深度神经网络。
表 1:属性预测器的训练数据集。(来源:论文)
图 2a 显示了 29 种聚合物特性交叉验证过程的五个验证数据集的决定系数 (R^2) 平均值和标准差。研究发现共聚物的热性能和机械性能(相对于均聚物)的预测精度更高,而透气率的预测精度稍差,这与之前的发现类似。
图 2b 显示了每个元学习器(每个类别一个)的高 R^2 值,表明所有属性都具有出色的预测性能。
基于 PolyBERT 的超快且准确的聚合物信息学管道使研究人员能够预测最初为训练 polyBERT 而创建的 1 亿个假设聚合物的所有 29 个属性。图 2c 显示了每个属性的最小值、平均值和最大值。
图 2:polyBERT (PB) 和聚合物基因组 (PG) 指纹的决定系数 (R^2) 性能值。(来源:论文)
总体而言,PG 表现最好 (R^2 = 0.81),但紧随其后的是 polyBERT (R^2 = 0.80)。指纹类型的整体性能顺序与类别平均值和属性一致,但 Xc、 Xe 和 ϵb 除外,其中 polyBERT 略优于 PG 指纹。注意到,polyBERT 和 PG 指纹都是聚合物特征化的实用途径,因为它们的 R^2 值非常接近并且通常很高。polyBERT 指纹具有手工制作的 PG 指纹的准确性,但速度快了两个数量级以上。
图 3:聚合物指纹的计算时间。(来源:论文)
PolyBERT 的其它三个优势
前馈网络在 PolyBERT 自监督训练期间预测屏蔽标记,能够将数字潜在空间(即指纹)映射到 PSMILES 字符串。
polyBERT 方法的第二个优点是可解释性。更详细地分析 PolyBERT 指纹的化学相关性可以揭示聚合物结构部分的化学功能和相互作用。
PolyBERT 方法的另一个优点是它覆盖整个化学空间。分子 SMILES 字符串是聚合物 SMILES 字符串的子集,仅区别两个星 ([*]) 符号,表示聚合物重复单元的两个端点。polyBERT 没有内在的限制或功能来阻碍预测分子 SMILES 字符串的指纹。
总之,polyBERT 是一种可通用、超快且准确的聚合物信息学管道,可在云硬件上无缝扩展,适用于巨大聚合物空间的高通量筛选。polyBERT 能够大规模探索这个巨大的聚合物宇宙。PolyBERT 为新型聚合物的发现铺平了道路。