Washington: Los científicos han desarrollado un sistema de inteligencia artificial capaz de producir enzimas sintéticas desde cero. En experimentos de laboratorio, algunas de estas enzimas funcionaron tan bien como las que se encuentran en la naturaleza, aunque la secuencia de aminoácidos sintetizada difería significativamente de cualquiera de los aminoácidos naturales conocidos. proteína.
La experiencia demuestra que el procesamiento del lenguaje natural, aunque fue desarrollado para leer y escribir textos de lenguaje, puede aprender al menos algunos principios básicos de biología. fuerza de ventas Buscar Software de IA desarrollado, llamado progenque utiliza la predicción del siguiente símbolo para ensamblar secuencias de aminoácidos en proteínas artificiales.
La nueva tecnología podría volverse aún más poderosa que la evolución dirigida, la técnica de diseño de proteínas ganadora del Premio Nobel, dijeron los científicos, y revitalizará el campo de la ingeniería de proteínas de 50 años al acelerar el desarrollo de nuevas proteínas que pueden usarse para casi cualquier cosa. Desde tratamientos hasta degradar plásticos.
“Los diseños sintéticos funcionan mucho mejor que los diseños evolutivos”, dijo James. frasesPhD, profesor de bioingeniería y ciencias terapéuticas en la Facultad de Farmacia de San Francisco de la Universidad de California, y autor del trabajo, publicado el 26 de enero en Nature Biotechnology.
Una versión anterior del artículo está disponible en un servidor de preimpresión Puresafe Desde julio de 2021, recibiendo decenas de citas antes de ser publicado en una revista revisada por pares.
«El modelo de lenguaje aprende aspectos de la evolución, pero difiere del proceso evolutivo normal», dijo Fraser. «Ahora tenemos la capacidad de ajustar la generación de estas propiedades para efectos específicos. Por ejemplo, una enzima es increíblemente termoestable o le gustan los ambientes ácidos o no interactúa con otras proteínas».
Para crear el modelo, los científicos simplemente ingresaron las secuencias de aminoácidos de 280 millones de proteínas diferentes de todo tipo en el modelo de aprendizaje automático y dejaron que digiriera la información durante algunas semanas. Luego, ajustaron el modelo equipándolo con 56 000 secuencias de cinco familias de lisozimas, junto con información contextual sobre estas proteínas.
El modelo generó rápidamente un millón de secuencias, y el equipo de investigación seleccionó 100 para probar, en función de su similitud con las secuencias de proteínas naturales, así como de la naturalidad de las «bases» y los «marcadores» de aminoácidos subyacentes a la IA. las proteínas eran.
A partir de este primer lote de 100 proteínas, que fueron analizadas en el laboratorio por Tierra Biosciences, el equipo elaboró cinco proteínas sintéticas para probar en células y comparó su actividad con una enzima que se encuentra en las claras de huevo de gallina, conocida como lisozima de huevo de gallina. (HEWL). Lisozimas similares se encuentran en las lágrimas, la saliva y la leche humanas, donde se defienden contra las bacterias y los hongos.
Dos de las enzimas sintéticas pudieron descomponer las paredes celulares de las bacterias con una actividad similar a la de HEWL, pero sus secuencias eran solo un 18 por ciento idénticas entre sí. Las dos secuencias eran 90 por ciento y 70 por ciento idénticas a cualquier proteína conocida.
Solo una mutación en una proteína normal puede hacer que deje de funcionar, pero en una ronda diferente de evaluación, el equipo encontró que las enzimas generadas por IA mostraron actividad incluso cuando menos del 31,4 por ciento de su secuencia era similar a cualquier proteína natural conocida.
La IA pudo aprender cómo se forman las enzimas, simplemente estudiando los datos de la secuencia elemental. Cuando se midieron usando cristalografía de rayos X, las estructuras atómicas de las proteínas sintéticas se veían como deberían, aunque las secuencias no se parecían a nada visto antes.
Salesforce Research desarrolló ProGen en 2020, basado en un tipo de programación de lenguaje natural que sus investigadores desarrollaron originalmente para generar texto en inglés.
Sabían por su trabajo anterior que un sistema de IA podía aprender por sí mismo la gramática y el significado de las palabras, junto con otras reglas básicas que hacen que la escritura esté bien formada.
“Cuando entrenas modelos basados en secuencias con una gran cantidad de datos, es realmente poderoso para aprender estructuras y reglas”, dijo. Nikhil Naik, Ph.D., director de investigación de inteligencia artificial en Salesforce Research y autor principal del artículo. «Aprenden las palabras que pueden ocurrir, así como la composición».
Con las proteínas, las opciones de diseño eran casi ilimitadas. Las lisozimas son pequeñas como las proteínas y contienen hasta 300 aminoácidos. Pero con 20 aminoácidos posibles, hay la friolera de 20.300 combinaciones posibles. Esto es mayor que tomar a todos los humanos que han vivido a través del tiempo, multiplicado por el número de granos de arena en la Tierra, multiplicado por el número de átomos en el universo.
Dadas las infinitas posibilidades, es notable que el modelo pueda generar fácilmente enzimas funcionales.
«La capacidad de generar proteínas funcionales desde cero significa que estamos entrando en una nueva era de diseño de proteínas», dijo Ali Madani, Ph.D., fundador de Profluent Bio, ex investigador científico de Salesforce Research, y el papel. Primer autor. «Esta es una herramienta nueva y versátil disponible para los ingenieros de proteínas, y esperamos ver aplicaciones terapéuticas».
«Solucionador de problemas. Gurú de los zombis. Entusiasta de Internet. Defensor de los viajes sin disculpas. Organizador. Lector. Aficionado al alcohol».