有机化合物的命名(科研人不担心有机物命名不规范了)

/ 0评 / 0

有机化合物命名(研究人员不用担心有机化合物命名不规范)

“有机化合物怎么命名?”有机化合物的命名规则是什么?"这种药的活性成分是什么?",“有没有找到有机化合物名称的软件或程序?”"某某命名软件还是要花钱的. ",“有些软件的命名不准确。」 ......

注:部分来自知乎技术资源网。

总之,有机化合物的命名太难,规则太繁琐,没有开源软件。......

AI开发“风水”能解决以上问题吗?

现在,莫斯科罗蒙诺索夫州立大学和Syntelly初创公司的研究人员开发了一种基于Transformer的人工神经方法,可以根据IUPAC命名系统生成有机化合物的名称。

它也是开源的,可以在线应用。

我迫不及待地想有一次在线体验。在本文的“应用技巧”部分。

项目地址:https://app.syntelly.com/smiles2iupac

IUPAC命名法是有机化合物命名的系统方法,在有机化学中占有重要地位。化学家通常手动创建IUPAC名称,但这个过程容易出错,需要对命名规则有深刻的理解。电脑可以缓解这个问题。化学家可以应用软件工具来生成名字。

然而,对于有机构建到名称翻译,并没有开源工具。与现有解决方案(如ChemDraw JS和词典hem TK)的许可协议需要特殊的许可能力才能嵌入到其他平台中。

近日,来自莫斯科罗蒙诺索夫技术资源网国立大学和Syntelly初创公司的研究人员开发了一种基于Transformer的人工神经方法,根据IUPAC命名系统生成有机化合物的名称。新的解决方案计划已经在Syntelly平台上实施,可以在线应用。

本次研讨会的主题是基于变压器的人工神经网络,用于化学符号之间的转换,发表在7月20日的《科学报告》杂志上。

“起初,我们想为我们的AI化学平台Syntelly创建一个IUPAC名称生成器。很快,我们意识到通过数字化IUPAC规则来创建算法需要一年多的时间,因此我们决定将我们的经验应用到神经网络解决方案计划中,”研讨会的重要作者、Syntelly初创公司的联合创始人Sergey Sosnin说。

循环神经网络(RNN)和Transformer已经成功地应用于自然语言翻译。研究人员基于Transformer构建了一个神经网络,可以将分子的表达从SMILES(简化的分子线性输入规范)转换为IUPAC名称,反之亦然。描述了他们的解决方案,讨论了他们的方法的优缺点,并表明Transformer可以提供类似于人类化学直觉的东西。

研究结果表明,将SMILES字符串转换为IUPAC名称的Struct2IUPAC模型在PubChem的测试集上取得了98.9%的准确率。反向模型(IUPAC2Struct)的准确率达到99.1%,相当于开源OPSIN软件(一种用于名称到结构转换的开源工具)。

方法

数据库:深度学习技能需要大量数据。新网络由全球最大的开放化学数据库PubChem培训和测试,包括94,726,085个结构。将数据库分成两部分,一部分用于培训,另一部分用于测试。

IUPAC和SMILES标记:标记是将序列分成区块并划分这些区块(标记)的过程。这是语言模型常见的预处理阶段。应用基于字符的SMILES标志,并实现基于规则的IUPAC标志。本研究中的IUPAC标记是人工设计和管理的。该标记可以准确处理来自PubChem的99%以上的分子。

插图:展示SMILES(上图)和IUPAC名称(下图)。(来源:论文)

Transformer模型:应用Google团队设计的现代神经架构Transformer作为讨论的基础,并训练其将分子的结构表达转换为IUPAC名称,反之亦然,Transformer是Google最初设计的最强大的机器翻译神经网络之一。

已经训练了两个模型:将SMILES字符串转换为IUPAC名称的Struct2IUPAC和执行反向转换的IUPAC2Srtuct。从根本上说,不需要IUPAC2Srtuct模型,因为开源OPSIN可以成功应用。

插图:结构2交流变压器模型。(来源:论文)

验证步骤:使用OPSIN,可以验证生成的化学名称,以确保这些名称对应于准确的结构。可以检测到发电机的故障,并且不会显示故障名称。

插图:验证步骤。(来源:论文)

模型的优点和缺点

1.优点:1:structure 2 upac模型的准确率为98.9%

为了验证模型的质量,研究人员从测试集中随机选择了10万个分子。SMILES-IUPAC名称转换器以验证步骤运行,在测试集中100,000个随机分子的子集上实现了98.9%的准确性。

“我们已经证明Transformer能够准确地解决算法问题,并为软件开发提出了新的范式。它推翻了以前普遍认为它们不应该用于此类问题的观点。在机器翻译中,用同义词交换一个单词是非常可能的,而在我们的职责中,一个有缺陷的符号会导致一个有缺陷的分子。然而,Transformer成功地履行了这一义务。”索斯宁化妆。

优点:2:IUPAC 2构建模型的准确率为99.1%

研究人员将IUPAC和SMILES转换器模型(IUPAC2Struct)与测试集中基于规则的工具OPSIN进行了比较(表1)。IUPAC 2结构转换器实现了99.1%的精度,OPSIN实现了99.4%。

表1:在100,000个不同光束尺寸的分子测试装置上模型的准确度(%)。

缺陷:

具有大量标记物(寡聚体、肽等)的分子。)在我们的数据集中表现不足,这可能是此类大分子性能下降的原因。

尽管在非常大的分子上模型的准确度不超过50%,但已经发明了一些复杂分子的有趣例子,它们准确地生成了IUPAC名称。

插图:Transformer生成了两个名称准确的激发元素示例。(来源:论文)

此外,非常小的分子的性能显著降低。例如,甲烷,可能是Transformer应用了自我关注机制来分析输入序列中符号之间的一致性。对于超短序列,很难控制token之间的关系。

在线提供

新的解决方案计划已经在Syntelly平台上实施,可以在线应用。研究人员希望他们的方法可以用于化学符号和其他与技能符号相关的义务之间的转换,例如数学公式的生成或软件程序的翻译。

研究人员的表现:“令人惊讶的是,我们基于神经的解决方案计划的性能与基于规则的软件相当。」

应用策略

在介绍之前,我先做一个小小的声明:这只代表了我个人的试用经验,更专业的同学应该收获更多~

论文中提到“目前还没有开源的技术资源网络建设工具来进行名称翻译。」

一、打开在线开源网站:https://app.syntelly.com/molecules/1.左侧菜单栏有很多功效选项。在此选择“个人”选项,点击搜索框,进入画板。输入待命名有机化合物的结构,以甲苯(C7H8)为例。

点击“计算”得到甲苯:cc1ccccc1和IUPAC名称:甲苯的微笑。

论文中提到:“分子可以从SMILES表达式转换为IUPAC名称,反之亦然。」

在这里输入SMILES/IUPAC,点击“计算”得到甲苯结构及其对应的SMILES/IUPAC。

此外,该工具还附带了一个巨大的数据集库。

还包括已发表的期刊论文中有机化学结构的命名。当然也可以自己上传新的纸质PDF。

化学反应也可以预测:

解锁更多功能,自己获取~

命名有机化合物的历史

在有机化学的初级阶段,化合物的命名没有共同的规则。1919年,国际纯粹与应用化学联合会(IUPAC)成立,IUPAC出版了有机化学的命名法,俗称蓝皮书。提供理解化合物名称的指南。

目前,有机结构有几种可选的表现形式。例如,SMILES(简化分子输入行输入系统)旨在为基于人和计算机的化学信息处理提供便利。

过去,化学家手动创建IUPAC名称。这个过程容易出错,因为它需要对术语有深刻的理解,并且涉及复杂的算法。此外,化学家倾向于琐碎的名字,这给不同符号之间的准确转换带来了额外的挑战。电脑缓解了这个问题。现在化学家一般使用软件工具来生成名字。

名字生成器的历史始于加菲尔德的开创性工作。然而,化学家的第一个日常软件是在20世纪末创立并宣布的。

目前有几种生成IUPAC名称的商业程序:ACD/Labs、ChemDraw、Marvin、IMnova IUPAC名称等。此外,还有一个为某些编程语言提供应用程序编程接口(API)的框架Collechem TK。

然而,对于有机构建到名称翻译,并没有开源工具。与现有解决方案(如ChemDraw JS和词典hem TK)的许可协议需要特殊的许可能力才能嵌入到其他平台中。

研究人员的表现:“我们相信我们的方法可以用来解决其他技术符号(或其他算法挑衅)之间的转换问题,并希望我们的发明能够在开发基于规则的解决方案成本高或耗时长时突出解决问题的新方法。」