Tema 2. Modelado Biomolecular Flashcards
¿Qué es el modelado biomolecular?
Es la ciencia que estudia y predice la estructura molecular y función a través de la construcción de modelos y computación. El principal problema es la complejidad: las cadena laterales de los aminoácidos adoptan diferentes conformaciones y es difícil predecir la estructura con precisión
El modelado molecular se centra en la predicción estructural y la dinámica molecular:
- Predicción estructural. Podemos realizar dos aproximaciones:
a) Template-based Modeling (TBM). Template es “modelo” o “patrón”. Hacemos predicciones estructurales basándonos en proteínas de estructura 3D conocida que presenten similitud de secuencia con nuestra proteína de estructura desconocida. El programa es capaz de predecir teóricamente la posible estructura que tendrá tu proteína problema, pero no es sencillo tener un programa capaz de hacer eso
b) Ab initio o Template-Free Modeling (FM). Si no existen proteínas de estructura conocida relacionadas con la muestra, la predecimos de novo basándonos en el plegamiento característico de cada grupo de aas, obteniendo así una estructura plegada sin relacionarla con ninguna otra estructura conocida
- Dinámica molecular: es una simulación por ordenador de los movimientos físicos de átomos y moléculas. Se basa en el uso de distintos algoritmos y programa contenidos en un paquete matemático. En base a los campos de fuerza definidos y las modificaciones que especificamos (presencia de iones Ca, si está en membrana o no, etc) podemos simular los movimientos que sufre la estructura de nuestra proteína en un tiempo definido (hasta microsegundos, hace unos años solamente se podía nanosegundos)
En 1970s, empezó a desarrollarse la computación y el diseño de superordenadores. El desarrollo de estas técnicas bioinformáticas dio lugar en los 80s a un aumento de las expectativas en este campo. Un porcentaje elevado de predicciones fallaban por la falta de comprobación experimental, de esta forma las expectativas cayeron. Actualmente, gracias a la combinación de la teoría predicha por la computación y la comprobación experimental en el laboratorio, se ha vuelto a disparar las expectativas. Aún así, el modelado biomolecular necesita mucha más implementación y mejora, todas las técnicas tienen algún problema y siguen siendo solo aproximaciones
¿Qué es CASP?
CASP (Critical Assessment of techniques for Protein Structure Prediction) es una organización que evalúa la eficacia de los métodos de modelado, es decir, de predicción de estructuras. El sistema de evaluación consiste en una convención a la que acuden cada 2 años (por lo que es un sistema de evaluación a largo plazo) los desarrolladores de programas y paquetes de predicción, y estas personas solo conocen la estructura primaria. Allí, deben determinar la estructura de proteínas problema en determinadas condiciones fisicoquímicas, para ello tienen 6 meses, o predicción mediante computadoras, 2 meses. El experimento CASP se desarrolla en dos estructuras, las cuales tienen como objetivo común obtener las estructuras 3D a partir de las mismas secuencias primarias de proteínas:
1) Estructura experimental. La estructura de las secuencias primarias de estas proteínas se conoce de forma experimental mediante cristalografía y difracción de rayos X, que no hayan sido publicadas
2) Estructura modeladora: utilizan los paquetes computacionales como métodos de predicción de dichas proteínas.
Con los resultados se crea un modelo CASP y se comprueba si los paquetes son óptimos para el modelado o no atendiendo a las estructuras experimentales, es decir, se hace una comparación modelo-real. Además, se facilita la identificación de errores (dónde deben centrar el desarrollo para solucionarlos) así como la búsqueda y adaptación de mejoras. De esta forma, se publica una lista de mejores algoritmos
Vemos el número de predicciones que se hacen y el número de personas que participan, a partir de 2.005 con el mismo número de personas se hacen mayor número de predicciones, esto es gracias a la capacidad de los supercomputadores
La gráfica representa el % de aciertos (Y) frente a a la dificultad de la proteína problema (X)
Vemos que el % de éxito va bajando a medida que aumenta la dificultad en la predicción. Para saber qué predicción es mejor, se mira el score (GDT_TS) siguiendo varios parámetros. A mayor score, mejor predicción. A mayor dificultad, el score va bajando
¿Qué es CAMEO?
Un comité se dio cuenta de que con solo la información de CASP no era suficiente porque al ser cada 2 años se quedaba desfasado ya que los algoritmos de predicción cambian cada 2-3 meses. Entonces tuvieron que crear otro modo de evaluación: CAMEO. Este es un sistema de evaluación continuo a corto plazo, evalúa todos los días. Cuantas más estructuras haya que predecir, más posibilidades hay de acertar. Después se comparan los scores para determinar qué programa predice mejor, suele ser Rosetta
¿Qué es un campo de fuerza?
Todos los paquetes de dinámica molecular o predicción de estructuras dependen de un campo de fuerza atómico, que son parámetros físicos obtenidos experimentalmente que definen cada uno de los átomos del sistema. Se obtienen con ordenadores muy potentes. Los principales tipos de parámetros son: masa, longitudes entre enlaces, ángulos entre enlaces, tipos de átomos, cargas parciales, fuerzas de Van der Waals, y torsión
En el contexto del Modelado Molecular, un campo de fuerza es la forma y los parámetros de las funciones matemáticas usadas para describir la energía potencial de un sistema de partículas (normalmente moléculas y átomos). Debemos utilizar un campo de fuerza determinado que nos permita definir los aas de la estructura en que estemos interesados (normalmente se dan rangos, y no valores concretos)
Cuando se empiezan a ensamblar aminoácidos, el número de parámetros a tener en cuenta es muy grande, por ello, el problema principal para hacer un campo de fuerza es la complejidad: encontrar un computador capaz de tener en cuenta todos esos algoritmos matemáticos para todos los átomos. Es por ello que hay distintos tipos de campos de fuerza que usaremos en función de la complejidad de la estructura y precisión de la predicción a la que nos enfrentemos:
a) All-atom: campos de fuerza en cuyos algoritmos tenemos todas las posibilidades a nivel atómico del sistema, es decir, todos los parámetros físico-químicos para cada tipo de átomo. Se requiere mucho tiempo de computación y es necesario supercomputadores, aunque da buenas soluciones. Cuando en un laboratorio no tienes un computador que dé cabida a todos esos parámetros se recurre a simplificar el sistema, haciendo agrupaciones de átomos
b) United-atom: campos de fuerza que consideran los grupos CH2 y CH3 como entes únicos, como única unidad de interacción. A estos entes se les asignan sus propios parámetros de densidad, fuerzas de Van der Vaals, de carga, de torsión… con lo cual el número de cálculos matemáticos es mucho más pequeño que considerar cada átomo de manera individual, pero es menos preciso. Lo usamos cuando nuestro ordenador no es tan potente
c) Coarse-grained: si ni siquiera tengo esa fuerza de computación, se usan campos de fuerza que consideran grupos de un nº mayor de átomos como entes únicos (por ejemplo, cadenas de aas, aa como unidad). Esta predicción puede valer para seleccionar un conjunto de métodos, pero sí luego quiero afinar mis resultados, debo hacer uso de un all-atom. Normalmente se usa para simulaciones de proteína en tiempo largo como situar a la proteína de forma aproximada en la membrana plasmática, y da peores representaciones al incrementar la eficiencia computacional y velocidad de cálculo. Agrupa lípidos, aas…
Al final es mejor usar All-atom porque una cadena de aas podría tener muchas conformaciones, como es el caso de Trp y Coarse-grained lo predice como un solo elemento, entonces podemos utilizar all-atom para afinar mis resultados y comparar con Coarse-grained, pero usar este último tipo solo sin experimentar sería un error
Primero debemos conocer el sistema que vamos a estudiar (por ejemplo, una proteína de membrana) y después elegimos el paquete de Campos de Fuerza que nos convenga (el que mejor pueda simular nuestra proteína problema)
Los paquetes clásicos (junto con sus principales aplicaciones) son los siguientes:
- AMBER (Assisted Model Building adn Energy Refinement). Para interacciones de proteínas con DNA. Si hay un lípido es mejor usar CHARMM
- CHARMM (Chemistry at Harvard Molecular Mechanics): Para proteínas, lípidos y DNA. Muy bueno para simular dinámicas de membrana. Permite fabricar membranas. Estos dos primeros poseen una fiabilidad parecida, pero son incompatibles porque usan distintos códigos
- CHARMm: Versión comercial de CHARMM
- COSMOS-NMR: Se adapta a una gran variedad de moléculas inorgánicas, orgánicas y macromoléculas biológicas, incluyendo cálculo semi-empírico de cargas de átomos acompañado de RMN (en disolución) para refinar estructuras. Su paquete computacional está basado tanto en la mecánica clásica molecular como la mecánica cuántica, por ello es un paquete híbrido QM/MM
- GROMACS. Para predecir estructuras de membrana
- NAMD-
- OPLS (Optimized Potencial for Liquid Simulations): es bueno para simular solo con proteínas en disolución, es decir, se le requiere añadir agua al sistema, porque es malísimo para predicciones en membranas
- MOLARIS-XG: Permite simular reacciones, pHs, cinética, plegamientos…
¿Fallos en predicción de estructuras?
- Los programas de predicción de estructuras todavía fallan. En un CASP pusieron como examen dos proteínas problema de 56 residuos (90% similares). Una proteína era completamente alfa-hélice, y otra tenía topología alfa/beta. De 159 participantes solo 4 reconocieron las dos estructuras. que eran los resultados del PDB: la mayoría atribuían estructura alfa/beta a las dos, porque existían enfrentamientos estéricos entre cadenas laterales de residuos no idénticos que la mayoría de paquetes no pudieron comprender ni trazar
- En muestreos conformacionales, ahora mismo es imposible predecir cuál va a ser la configuración de una estructura global. Todas las proteínas están formadas por la interacción de bloques y dominios. La proteína entera, tras plegarse, adquiere distintas conformaciones según las interacciones entre sus dominios. Los programas permiten conocer la estructura de dominios por separado, pero son incapaces de determinar la disposición e interacciones entre esos dominios dentro de la estructura global porque falta información de los miles de combinaciones posibles
- Desviación (biases) de la predicción. Los campos de fuerza son algoritmos matemáticos que, si tienen, errores, irán arrastrándolos y aumentándolos con cada cálculo (desvíos de los programas en el tratamiento de los datos). Esto se debe posiblemente a los errores sistémicos en los potenciales del esqueleto proteico y el tratamiento de los enlaces de hidrógeno
¿Qué es la dinámica molecular?
Estudia todas las conformaciones posibles en el tiempo de un conjunto de residuos de una proteína, es distinto a la predicción de estructuras
No hay técnica biofísica perfecta: algunas tienen más resolución temporal, otras espacial… Hay técnicas estáticas como Rayos X y Microscopía Electrónica. La combinación de ambas está ayudando a resolver estructuras 3D. CryoEM está casi llegando a nivel atómico, es decir, al poder de resolución de Rayos X. Con Rayos X se necesita cristalizar las proteínas y hay muchas que son difíciles de cristalizar. Con CryoEM, además de poder trabajar con pequeñas cantidades de muestra, la puedo añadir a la rejilla sin cristalizar
Tenemos técnicas con las que podemos simular fenómenos que duren desde 10-15 a 10-3 segundos, técnicas de dinámica molecular (en disolución). Tenemos la electrofisilogía, las ópticas tweezers (pinzas ópticas que usan un rayo láser para dar una fuerza atractiva o repulsiva), AFM (microscopio de fuerza atómica, detecta fuerzas del orden de nN), FRET (transferencia de energía de resonancia de Förster, basado en la transferencia de energía entre cromóforos), NMR… Estas pueden simular mucho tiempo, pero la resolución espacial no baja a nivel de Á quedándose en nm. Sin embargo, aparatos de NMR de muy alta resolución y modelos de dinámica molecular sí que pueden llegar a alcanzar dicho novel de resolución. Podemos simular procesos como permeabilización de solutos mediante simulación computacional All-atom. Nos aportan información estructural que las técnicas estáticas no pueden. Sirven también para refinar datos obtenidos mediante técnicas estáticas
Los principales avances en dinámica molecular son:
- Avances en hardware, software y algoritmos han incrementado varios órdenes de magnitud la escala de tiempo accesible a las simulaciones (con los modelos actuales podemos simular fenómenos que duren milisegundos, muchísimo)
- Los campos de fuerza en los que se basan las simulaciones son más precisos. Los campos de fuerza actuales tienen parámetros actualizados e incluyen datos experimentales y, por ello, predicen cada vez mejor tanto estructuras como dinámicas moleculares
¿Qué es Rosetta?
Rosetta es un programa de predicción de estructuras.
Un grupo de científicos realizó el siguiente experimento:
Si obtengo el patrón de difracción de Rayos X obtengo una densidad electrónica y mediante las ondas (fases) podría saber de qué átomo viene el cristal, pero desconozco la distancia entre ondas. Entonces comparo con estructuras parecidas del PDB para ver dónde están los átomos en esa densidad electrónica y así refino mi experimento
Los mejores resultados los obtuvieron los dummies porque el tamaño de la muestra era mayor por lo que, aunque faltaran más, como eran más hay más posibilidad de acertar
Una predicción será mejor cuando menor sea el número de parámetros
En cuanto a las aplicaciones de Rosetta, ¿cómo predice estructuras?
El paquete Rosetta es de los más sofisticados a la hora de predecir estructuras. Tiene distintos tipos de paquetes según la complejidad de la estructura a estudiar:
- Ab initio: Cuando no existe estructura molde (template) ab initio permite predecir la estructura 3D de una proteína utilizando únicamente su secuencia. La simulación presenta baja resolución, ya que el modelo solo minimiza la energía una vez, por lo que los modelos resultantes se agrupan y deben ser sujetos a un refinamiento de estructura full-atom
Minimizar energía: los programas de predicción de estructuras calculan distintas posibilidades (cada una de ellas con distintas interacciones entre los aas) y determinan la energía potencial de cada posibilidad. Existirán resultados con energía libre muy baja que están en un estado más estable y ese plegamiento o combinación es mucho más estable que ocurra que otro resultado con energía libre alta, donde los aas están en tensión
- Ab initio relax. Es la combinación del plegado ab initio con el refinamiento mediante relax. Realiza un mayor número de cálculos ya que, tras buscar el estado de más baja energía (relajado) vuelve a dejar libre el sistema y realiza nuevas acomodaciones para encontrar un estado de más baja energía todavía. Aplica de este modo varias rondas de cálculo o fases de refinamiento para conseguir una mejor predicción de la estructura. Dependiendo de la secuencia de aas y la complejidad de la proteína se aplica Ab initio o Ab initio relax (ninguna es mejor que otra, aunque la relajada debería dar mejores resultados, aunque depende mucho de la secuencia de aas)
- Modelo comparativo. Cuando sí existe una proteína similar (normalmente se usa PSI BLAST u otras bases de datos como VAST para encontrarla) este modelo alinea nuestra secuencia con la de la proteína similar (template) mediante un alineamiento secuencia-secuencia 3D para predecir la estructura de nuestra secuencia. Este modelo, al tener en cuenta la estructura 3D de una proteína con secuencia similar a la nuestra, posee mucha más información para predecir nuestra estructura
¿Ejemplo de plegado de novo (sin template)?
Imaginemos que nuestra proteína tiene 60 aas, el programa los agrupa en grupos de 10 en 10, para 10 aas es más fácil predecir cuáles son las posibilidades de plegamiento, puede obtener entre 30.000 y 50.000 posibilidades y calcula todas las posibles combinaciones tridimensionales de cada grupo haciendo péptidos más grandes. En una 2ª fase, integra todas las combinaciones entre los grupos. Lo que me da son varias posibilidades del plegamiento para esos módulos. Rosetta realiza todas las combinaciones que le permite su campo de fuerza y en la 3ª fase, para cada proteína modelada calcula su energía potencial y determina cuál es la que cumple el estado de mínima energía entre las 10 estructuras obtenidas y, por tanto, es la más probable. Rosetta suele elegir unas 5 estructuras. En una 4ª fase, si los puedo cristalizar, cristalizo y compruebo, y si no puedo, hago mutagénesis dirigida, que consiste en hacer cambios de unos tripletes por otros para comprobar experimentalmente mi predicción y elegimos un plegamiento
¿Otro ejemplo de plegado con Rosetta: Experimento de CASP?
Rosetta obtiene buenas puntuaciones en los exámenes CASP. El experimento comenzó con dos templates que están en el PDB parecidos a las proteínas problema. La predicción encajaba casi al 100% con la proteína problema de la izquierda. En cuanto a la e la derecha, se observa que en la proteína problema hay una región de 15-20 aas que formas un loop que no aparecía en el template, pero aun así, Rosetta sí que lo determina; en esa proteína hubo un 80% de acierto, aunque el template carecía de algunas zonas. Esto es debido a una elevada capacidad de predicción, cuando no se encuentra homología, empieza a utilizar el algoritmo ab initio
¿Cómo sé que la estructura de Template es la correcta? Conozco la secuencia primaria de la proteína simulada, la expreso en un microorganismo y purifico. Mediante Rayos X obtengo la estructura 3D que comparo con mi simulación
Al final tengo 3 estructuras: Rosetta, Template y la experimental. Cuando Rosetta predice la estructura no conocemos la nativa, así testamos el sistema
¿Predicción de proteínas de novo usando EPR?
EPR es una técnica biológica que mide la distancia entre dos átomos o aas usando una sonda spin, se mide con un aparato especial. EPR no sirve para saber la estructura 3D, pero con EPR podemos medir la distancia en Ä entre unos y otros aas, y en Rosetta establecerle restricciones al sistema: si sabemos que en nuestra proteína problema una Thr hace un Puente de hidrógeno con una Lys (la distancia de un puente de H es de 3,5 Ä) sabemos que estas deben estar cerca, así que le introducimos esta información al programa para que lo tenga en cuenta y los cálculos disminuyan. Lo que ocurre es que si el programa en lugar de empezar la predicción de estructura ab initio, integra la información de las distancias entre unos aas y otros provista por la EPR, entonces el número de posibilidades que tiene que contemplar el sistema para predecir se reduce mucho porque se han marcado ciertas restricciones. La técnica EPR no sirve para saber la estructura 3D, simplemente marca aas y mide distancias entre ellos
De manera que Rosetta no solo usa la información de sus campos de fuerza, sino que permite que se le introduzca información medida por otros medios. Esto es lo que hizo con este modelo de la lisozima. Es una proteína muy fácil de obtener cristales, por eso para poner a punto diferentes técnicas se usa como modelo. Usando esas distancias obtenidas por EPR, cuando Ab initio (sin template) Rosetta intenta predecir la estructura de la lisozima la modela con éxito. A parte de una mayor precisión en la predicción, también es notable el ahorro computacional
¿Cómo es en Rosetta el Acoplamiento proteína-proteína (Rosetta Dock)?
Rosetta también es capaz de predecir cómo interacciona una proteína con otra. En una 1ª fase de baja resolución dice qué forma tienen y a grosso modo dónde pueden encajar. En una 2ª fase de refinamiento de alta resolución, cuando ya tiene la mejor solución empieza a jugar con las cadena laterales de los aas, proporcionando muestras conformacionales de cadenas laterales y relajación del esqueleto
¿Rosetta Dock para predicciones de interfases proteicas?
Esto ers útil para crear péptidos inhibidores frente a proteínas patológicas. Se usó una estructura conocida para poder poner a punto el modelo: las colicinas rompen el tRNA de la célula que infectan y así impiden la síntesis de proteínas, por lo que ellas mismas tienen un péptido inhibidor para evitar romper el tRNA propio de E. coli. Se estudió la interacción entre la colicina D y su proteína de inmunidad. Esta interacción se determinó muy bien gracias a Rosetta y se buscan péptidos que bloqueen la colicina D con efectos farmacológicos. El modelo de Rosetta solapa perfectamente con el de Rayos X. Ambas están prácticamente solapadas, incluso a nivel de cadenas laterales. En la colicina D hay un residuo de His, que puede estar protonado o desproronado según el pH (pK de His es de 6-6,5). También hay una Lys y otros residuos positivos. En la proteína de la inmunidad, por tanto, debe haber residuos con carga negativa (Asp, Glu…). Lo importante es que Rosetta ha sido capaz de predecir una interfase con esta aplicación de Docking. De esta forma es como se han conseguido hacer el tallo de hemaglutinina del virus de la gripe
¿Qué es Rosetta ligand, para el acoplamiento proteína-ligando?
Primero se elige aleatoriamente una conformación que podría adoptar el ligando basándose en un ligando conformacionalmente parecido proporcionado por el usuario. Tras ello, el ligando se intenta colocar en algún sitio de unión. Se usa para moléculas de gran tamaño
¿Ejemplo de Rosetta ligand con nel transportador de serotonina?
No se sabía la estructura del transportador de serotonina. Se predijo por homología con un transportador de Leu (lo usaron como template ya que era el más parecido que había, con un 50% de similitud), y después le acoplaron la molécula de serotonina en el bolsillo de unión (también predicho). Rosetta, en una primera fase genera una colección de posibles conformaciones de la serotonina y a continuación mediante computación el programa encuentra la interacción de mayor probabilidad entre la serotonina y el transportador. En los casos que no hay estructura se hace mutagénesis dirigida
Como vemos, esto sirve para diseñar fármacos, pero ¿cómo sé que mi predicción es correcta y mi ligando se ha unido? Midiendo la afinidad de unión del ligando añadiendo concentraciones crecientes en la proteína silvestre. Binding. ¿Cómo se si se ha unido en el sitio correcto? Junto a un estudio Binding, se utiliza la mutagénesis dirigida, para detectar con precisión si se ha unido en el bolsillo adecuado