Коптюг В.А. Состояние и перспективы использования ЭВМ для решения задач органической химии (Журнал Всесоюзного химического общества им. Д. И. Менделеева, 1985)
Коптюг В. А.
Академик Валентин Афанасьевич Коптюг Цитата

Состояние и перспективы использования ЭВМ для решения задач органической химии
Академик В. А. КОПТЮГ

Хорошо известно, что в силу ряда специфических особенностей углерода, обусловленных его положением в периодической системе, возможности построения химических соединений на основе углерода, водорода и других элементов фантастически многообразны. Напомню, к примеру, что число возможных изомерных одноатомных спиртов состава С20 составляет 5 622 109. За более чем столетнюю историю развития органической химии накоплена огромная информация о свойствах и реакционной способности разнообразных органических соединений. Поскольку для нахождения соединения с заданным комплексом свойств (например, с определенной биологической активностью) методами скрининга опробывается от 3 до 10 тысяч соединений, темпы расширения фактографического материала в органической химии всегда были чрезвычайно высокими. Четвертое издание справочника Бейльштейна по органическим соединениям будет состоять из примерно 230 томов объемом более 200 000 страниц, причем это издание охватит материал только до 1959 г. А мы знаем, что на рубеже 60-х гг. началось бурное вторжение в органическую химию физических методов исследования строения и превращений химических соединений, которое в десятки раз повысило продуктивность работы химиков-органиков.

Революция в исследовательских методах привела к тому, что органическая химия поставляет сегодня больше информации, чем может основательно переработать. Эта ситуация быстро усугубляется автоматизацией химических и особенно физико-химических экспериментов на основе широкого использования вычислительной техники. К счастью, вычислительная техника открывает одновременно и выход из создавшегося положения — этим выходом является построение машинных систем переработки больших массивов химической информации.

Очень важно при этом осознать, что машинные системы только реферативно-библиографического типа, несмотря на их большую значимость, не изменят кардинально положения в химии. Такие системы отсылают химика к десяткам и сотням работ, содержащих описание интересующих его данных, которые он должен анализировать традиционными методами. Необходимо поэтому одновременно обеспечить формирование фактографических баз данных органической химии на машиночитаемых носителях, сопровождаемых системами логического и расчетного анализа. Работы в этом направлении в нашей стране ведутся достаточно широким фронтом.

Информационная база, описывающая индивидуальные органические соединения, включает в себя «имя соединения» и характеристики его свойств. Химики-органики хорошо знают трудности, связанные с понятием «имя соединения». Существующие системы номенклатуры исключительно сложны, и лишь небольшая часть химиков владеет ими. Услышав или встретив в тексте систематическое название соединения, например, 9-борабицикло[3.3.1]нонан, химик должен потратить изрядные мысленные усилия, чтобы восстановить по названию структуру и понять, о чем идет речь, хотя упомянутому «имени» отвечает очень простая структура.

Желание уйти от сложностей систематической номенклатуры порождает стремление запомнить образ структуры и присвоить ей своеобразную «кличку». Мы держим в памяти образы структур тетраэдрана, призмана, бензола Дьюара, ферроцена и многих, многих других соединений. Однако внедрение тривиальных названий в систематическую номенклатуру создает лишь иллюзию ее упрощения, так как возможности запоминания соответствующих структур ограничены. Таким образом, основным именем химического соединения при построении машиночитаемой информационной базы органической химии и при общении с ней человека должна быть структурная формула соединения. Это придает задаче ввода структурных формул в ЭВМ, машинного манипулирования ими и вывода их на отображающие устройства особую значимость во всей проблеме использования ЭВМ в органической химии. Такой способ реализован сегодня в нашей стране в двух вариантах.

В первом варианте химик «набирает» структурную формулу на экране дисплея, пользуясь специальным набором команд, позволяющим записывать в заданном месте экрана атомы, цепочки атомов, циклы, полициклические системы с указанием связей между всеми этими фрагментами. Подобная система создана в Институте органического синтеза АН ЛатвССР под руководством доктора физико-математических наук А. Б. Розенблита на ЭВМ HP 1000.

Второй вариант реализован в Научно-информационном центре по молекулярной спектроскопии Сибирского отделения АН СССР на базе оригинального, запатентованного во многих странах, планшетного устройства «Граф». В этом случае ввод в ЭВМ структурной формулы при формировании информационной базы или при работе с нею осуществляется наиболее привычным для химика образом — путем рисования ее с помощью электронной шариковой ручки на специальном бланке, размещенном на планшете.

Упомянутые технические и программные средства решают еще одну важную задачу — организацию вывода из памяти ЭВМ структурной информации в приемлемом для химика виде. При общепринятом «ручном» кодировании структур, на машиночитаемом носителе в виде так называемой «матрицы смежности» записываются сведения о составляющих молекулу атомах и связях между ними. Если возникает необходимость вывести структуру на отображающее устройство, отдельная программа восстанавливает химический граф по матрице смежности. Возникающая при этом трудность состоит в том, что каждый граф можно изобразить огромным числом способов.

Лучше всего поэтому, чтобы ЭВМ хранила в памяти не только матрицу смежности, но и образ структуры, т. е. ее координатное представление. В этом случае структура будет выводиться из памяти молекулы в том же виде, в каком она вводилась. Упомянутый выше автоматизированный способ ввода структур в ЭВМ с помощью устройства «Граф» обеспечивает такую возможность. Одновременно тем самым решается и задача разрисовки структурных формул при подготовке машинным способом на основе имеющейся информационной базы различных материалов для издания.

Упомянутые технические и программные средства обеспечивают возможность быстрого создания на машиночитаемых носителях общей и специализированных информационных баз данных по органической химии, отвечающей всем современным требованиям. Общая база данных — это задача ВИНИТИ. Что же касается специализированных, в том числе фактографических баз данных, то их создание в основном ляжет на плечи заинтересованных организаций.

В качестве примера фактографической базы данных можно назвать банк данных по молекулярным спектрам органических соединений Научно-информационного центра по молекулярной спектроскопии СО АН СССР. Он включает в себя достаточно подробное численное описание инфракрасных и ультрафиолетовых спектров, спектров протонного и углеродного магнитного резонанса, масс-спектров многих десятков тысяч органических соединений. Этот банк может эксплуатироваться в справочно-информационном режиме, — например, для получения справки о характере тех или иных спектров конкретного соединения, для нахождения веществ, прозрачных или, наоборот, поглощающих в определенных областях, и т.д. Но еще более важной является возможность использования банка и соответствующего программного обеспечения в качестве мощного инструмента исследования. Предъявление системе спектров исследуемого соединения позволяет в считанные минуты опознать его, если оно было описано ранее. Это особенно важно для идентификации компонентов химических композиций различного технического назначения; органических компонентов, загрязняющих окружающую среду; вещества, вызвавшего острое отравление человека и т.д. Если вещество не было описано ранее, то сопоставление его спектров с хранящимися в машинном банке позволяет распознать большие структурные блоки его молекулы.

Этот путь ведет к построению автоматизированной системы установления строения органических соединений по их молекулярным спектрам. Блоки этой системы уже находятся в эксплуатации в различных организациях страны.

В указанном подходе в неявном виде используются корреляции между строением органических соединений и их молекулярными спектрами; эти корреляции выявляются системой при сопоставлении спектров исследуемого соединения с массивом «структуры — спектры» банка данных.

Сотрудниками ГЕОХИ им. В. И. Вернадского АН СССР и ТСХА им. К. А. Тимирязева под руководством проф. Л. А. Грибова, а также Института физики АН БССР под руководством члена-корреспондента АН БССР Г. Л. Гуриновича развивается иной подход, основанный на принципах искусственного интеллекта и связанный с предварительным вводом в память ЭВМ таблиц спектро-структурных корреляций, используемых в последующем анализе спектров исследуемых соединений. Автоматизированные системы этого типа сегодня устанавливают строение соединений, содержащих до 12—15 атомов углерода.

Фактографические банки данных позволяют успешно решать задачи прогнозного характера, например, по предсказанию свойств (спектроскопических, химических, биологических) соединений заданного строения. Так, Научно-исследовательским институтом по биологическим испытаниям химических соединений АН СССР совместно с Институтом органического синтеза АН ЛатвССР создан банк данных «структура — биологическая активность». В банке представлены сведения по 59 видам биологической активности. Анализ массива позволил выявить наборы структурных признаков, ответственных за каждый вид активности, и оценить их статистическую значимость. Это позво ляет, с одной стороны, прогнозировать биологическую активность новых синтезируемых в стране соединений, что делает скрининг более направленным, а с другой — конструировать соединения с заданным набором видов биологической активности.

Естественно, что органическая химия, как и другие науки, активно использует ЭВМ для проведения разнообразных расчетов. Сегодня химики-органики широко применяют расчетные методы для решения спектроскопических, конформационных, квантово-химических и других задач. В этой области существенное значение имеет организация распространения информации о возможностях новых расчетных программ. Мы все хорошо осведомлены, например, о трудностях расчета колебательных спектров сложных органических молекул. Но немногие органики знают о разработанной Л. А. Грибовым и В. А. Дементьевым (ГЕОХИ АН СССР, ТСХА) системе расчета ИК-спект-ров на основе использования спектроскопических параметров структурных фрагментов, хранящихся в памяти ЭВМ и используемых для автоматического формирования колебательных уравнений.

Организационные меры по распространению информации о расчетных программах могут быть разными. В качестве одного из примеров сошлюсь на создание при Институте химической кинетики и горения СО АН СССР банка квантово-химических программ, предоставляющего пользователям как сами программы, так и необходимую консультацию.

Совершенно очевидно, что во многих случаях фактографические базы данных целесообразно объединять с расчетными программами. Примером этого может служить автоматизированная система данных о термодинамических свойствах индивидуальных веществ — ИВТАНТЕРМО, развивающаяся в Институте высоких температур АН СССР по инициативе академика В. П. Глушко на базе отдела доктора физико-математических наук Л. В. Гурвича. Система не только поставляет в диалоговом режиме критически оцененные термодинамические характеристики веществ, но и обеспечивает расчет термодинамических параметров интересующих химика реакций.

Важную роль начинает играть в органической химии расчетное моделирование изучаемых процессов. В качестве иллюстрации сошлюсь на расчетное выявление наиболее вероятного пути реакции в случаях, когда в принципе может реализоваться очень большое число маршрутов. Такая ситуация характерна, например, для скелетных перегруппировок сложных полициклических, в том числе природных, соединений. Так, перестройка скелета гидрированного димера циклопентадиена путем 1,2-сдвигов С—С - связей уже на первой стадии может пойти несколькими путями. Каждая из образующихся структур может также перегруппировываться несколькими путями. В итоге оказывается, что для перегруппировки исходного углеводорода в термодинамически наиболее устойчивый изомер адамантан, протекающей при нагревании с АlСl3 принципиально возможно 2897 маршрутов. Можно ли априорно выбрать среди них наиболее вероятный?

Сегодня органическая химия может решать такие задачи. Реакция очевидно пойдет по каналу с наименьшими активационными барьерами на всех стадиях. Для оценки высоты активационных барьеров используются применительно к задачам рассматриваемого типа методы молекулярной механики, позволяющие рассчитывать энергетические характеристики перегруппировывающейся и образующейся структур для каждой элементарной стадии.

Приведенный пример достаточно наглядно иллюстрирует, каким важным инструментом исследования становятся для химика-органика методы математической химии при их реализации на ЭВМ, обеспечивающей быстрый просчет большого числа вариантов.

Еще одним очень важным направлением использования ЭВМ для анализа многовариантных задач органической химии является создание машинных систем планирования синтеза сложных органических соединений. В недалеком прошлом эта область деятельности химиков-органиков нередко классифицировалась как особое искусство. Однако в настоящее время разработаны алгоритмы решения этой задачи и созданы первые эффективно работающие машинные системы. Принцип их работы коротко можно охарактеризовать следующим образом.

В машинной библиотеке хранятся краткие описания основных синтетических методов, охватывающих способы введения заместителей, их трансформации, надстраивания цепей, замыкания циклов и т. д. Каждый метод охарактеризован числовым индексом R, который в зависимости от степени общности метода, сложности его реализации, выхода продукта имеет значения от 0 (практически неосуществимая реакция) до 100 (реакция осуществляется в мягких условиях с выходом 100 %). Вторая библиотека включает перечень доступных химических веществ (ДВ), выпускаемых промышленностью или организациями, производящими реактивы. ЭВМ, получив задание на синтез целевого вещества (ЦВ), просматривая библиотеку синтетических методов, определяет, какие структуры могут быть непосредственными предшественниками ЦВ. Это так называемые предшественники первого уровня. Для каждого из них оценивается индекс простоты структуры (S), являющийся функцией общего числа и типа атомов, функциональных групп, колец, степени близости к структуре родственных соединений из библиотеки доступных. Индекс S принимает значения от 0 (структура исключительной сложности) до 100 (доступное вещество). Предпочтительным предшественником является вещество с наибольшим индексом простоты структуры, если переход от него к целевому веществу достаточно прост (высокое значение R). Для одновременного учета обоих факторов вводится индекс M=Ф(S, R). Для предшественника с наилучшим индексом М генерируется перечень предшественников второго уровня и т. д., пока в списке предшественников не появится вещество, числящееся в библиотеке доступных.

Приведенное упрощенное описание принципа работы подобных систем может создать представление, что их построение также является простым. В действительности же это одна из самых сложных областей использования ЭВМ в органической химии. И если в других направлениях работы, проводимые в нашей стране, соответствуют или даже опережают зарубежный уровень, то в создании системы планирования синтеза сложных органических соединений мы отстаем. Соответствующие работы развернуты сейчас в МГУ под руководством члена-корреспондента АН СССР Н. С. Зефирова: создан комплекс программ для машинного анализа путем построения полициклических систем — важного блока машинных систем планирования синтеза, а также в институтах органической химии в Новосибирске и Москве.

В кратком докладе я смог коснуться лишь части аспектов применения ЭВМ в органической химии. Совершенно не были затронуты выходы органической химии в область молекулярной биологии, где использование вычислительной техники оказывает еще более революционное влияние. Сегодня в этой области немыслимо работать без банков данных по первичной и вторичной структуре белков и нуклеиновых кислот, без системы расчета их пространственной структуры и моделирования зависимости пространственной структуры и функций биологических макромолекул от различных факторов. Обстоятельно значение и состояние этого направления современной молекулярной биологии рассмотрено кандидатом физико-математических наук А. А. Александровым, являющимся научным руководителем создаваемого Всесоюзного банка нуклеотидных последовательностей, в статье «ДНК и ЭВМ», опубликованной в ЖВХО им. Д. И. Менделеева, N 2, 1984 г.

В настоящее время профессором В. А. Ратнером в Институте цитологии и генетики СО АН СССР разработан новый подход к построению вторичной структуры РНК, позволяющий резко сократить затраты машинного времени и снять ограничения на длину анализируемой нуклеотидной последовательности. В его основе лежит не энергетика взаимодействия, а выявление в анализируемой последовательности различных типов неслучайных повторов (метод контекстного анализа). Поскольку двойные спирали вторичной структуры связаны с определенными классами повторов, быстрое их выявление резко облегчает решение задачи.

Завершить доклад я хочу тем же, с чего начал. Приведенные примеры свидетельствуют о том, что сегодня в разных организациях страны создан серьезный задел по многим блокам комплексной системы искусственного интеллекта для органической химии. Сейчас стоит задача состыковки и обсуждения всех этих усилий в рамках единой целевой программы. Если это будет сделано быстро, то к следующему менделеевскому съезду мы сможем придти, имея рабочую версию такой комплексной системы.

Отдавая должное машинным системам как новому исключительно мощному инструменту исследования, мы не должны забывать, что они одновременно открывают новую страницу и в организации обучения студентов-химиков. Моделирование изучаемых явлений и закономерностей существенно облегчает усвоение материала и содействует развитию творческого подхода к изучаемому предмету, и поэтому очень важно организовать работу по подготовке к широкому распространению методических материалов по компьютеризации преподавания химии и смежных дисциплин в вузах.

СО РАН Коптюг В. А. Состояние и перспективы использования ЭВМ для решения задач органической химии / В. А. Коптюг // Журнал Всесоюзного химического общества им. Д. И. Менделеева. — 1985. — Т. 30, N 1. — C. 102–105.
 
 
630090 Новосибирск, пр. Академика Лаврентьева, 6
Тел.: +7 383 373-40-13  •  e-mail: branch@gpntbsib.ru
 © 1997-2021 Отделение ГПНТБ СО РАН
  Документ изменен: Wed Dec 29 16:51:19 2021
Размер: 44,803 bytes
Посещение N 8009 с 02.04.2001