Quimio-Informática - Molecular Descriptors Flashcards
O que são descritores moleculares?
Os descritores moleculares são representações matemáticas de uma molécula, que resultam de uma transformação da informação estrutural disponível para a molécula. São tipicamente números que codificam características da estrutura molecular.
Que metodologia utilizam os descritores moleculares?
A metodologia que utilizam é o QSAR, ou seja, a relação quantitativa entre estrutura-atividade.
Como é que funciona a construção de modelos QSAR para descritores moleculares? Como “ensinam” química a computadores?
Por sua vez, a construção de modelos QSAR assenta em técnicas de regressão (estatística ou de aprendizagem automática) que estabelecem relações entre as estruturas moleculares dum conjunto de treino, codificadas por descritores moleculares, e as respetivas propriedades a prever, com base noutras propriedades experimentais conhecidas. Logo, com ferramentas relativamente simples é possível “ensinar” química ao computador. Tendo dados experimentais e encontrando relações entre estrutura atividade, é possível construir uma base de dados e fazer previsões (ex: verificar se uma determinada reação química é possível).
Com que modelo são utilizados os QSAR para descritores moleculares?
O modelo utilizado são algoritmos de machine learning que, por sua vez, permitem prever a propriedade a partir da estrutura. Para tal, são necessários conjuntos de estruturas com uma dada propriedade associada, para que seja possível que os algoritmos estabeleçam uma relação entre estrutura e atividade.
Dá um exemplo de um bom descritor molecular usado.
Exemplo: massa molecular, que se calcula através da fórmula molecular e já oferece alguma informação sobre a molécula (grande ou pequena), ou mesmo a previsão completa da fórmula molecular, caso tenha um numero de algarismos suficiente. É com base nestes números que os algoritmos fazem as suposições previstas.
Como é que então os descritores moleculares relacionam as propriedades que “aprendem”?
Estrutura Molecular –> Representação (descritores moleculares, números!!) –> Machine Learning –> Propriedades
Exemplos de Descritores Moleculares constitucionais (e o que são):
◦ Descritores constitucionais são propriedades globais da molécula como
→ peso molecular;
→ número de átomos, número de átomos de carbono;
→ número de ligações (duplas, aromáticas);
→ número de ligações rotáveis;
→ soma dos volumes atómicos de van der Waals dos átomos considerados todos como esferas;
→ Carga atómica parcial máxima ou mínima;
→ Carga atómica parciais (máxima ou mínima) num átomo de H;
→ Energia da HOMO e LUMO;
→ Coeficientes de partição;
→ Grau de insaturação;
→ Fator hidrofílico;
→ Refratividade molar;
→ Contribuição dos fragmentos na área superficial polar.
Exemplos de Descritores Moleculares de fragmentos (e o que são):
Descritores de fragmentos contam a ocorrência de grupos funcionais e sub-unidades estruturais previamente definidas. Contam a quantidade de fragmentos numa molécula (parecido ao fingerprint)
→ Número de carbonos de hibridação sp3;
→ Número de grupos isocianato;
→ Número de amidas aromáticas ou de amidas alifáticas;
→ Número de grupos nitro;
→ Número de grupos ésteres;
→ Número de ligações doadoras de H.
O que são Descritores Moleculares topológicos?
Descritores topológicos (2D): estes partem da representação da estrutura molecular como um grafo (estrutura abstrata composta por vértices e arestas e representa-se dessa forma, onde as arestas são as ligações e vértices os átomos) obtendo resultados para estruturas moleculares, representando a constituição/conectividade dos compostos. Estes podem ser calculados a partir dos seus gráficos moleculares. A aplicação de teoremas da teoria de grafos permite gerar invariantes de grafos que são usados como descritores da molécula. Dentro destas englobamos descritores que tenham a tabela de conectividade, contam em que caminhos de 3 ligações é que se encontram na molécula.
Um exemplo de descritores topológico é…
…o índice de Wiener! (há outro)
Como funciona ou se calcula o índice de Wiener?
Definido como a soma das distâncias entre todos os pares de átomos de carbono na molécula (distâncias em termos de ligações de carbono-carbono). Pode ser alargado para além de ligações C-C. Tem um duplo somatório para comparar um átomo em função de todos os átomos na molécula. (ver fórmula nos slides)
Dá um exemplo de que informação útil o índice de Wiener dá.
Por exemplo: isómeros, o índice de Wiener dá uma indicação sobre a ramificação; uns isómeros são mais ramificados que outros, originando uma abordagem mais simplificada que as superfícies de Van der Waals, ou seja, a área da molécula com a superfície disponível para o exterior; se o composto for mais ramificado, apresenta uma estrutura mais esférica e menos alongada, ou seja, uma menor área exposta.
O que não é tido em conta pelo índice de Wiener?
Para além disso, este não considera os hidrogénios das moléculas nem ligações duplas, triplas e estereoisómeros (normal dos descritores topológicos). Exemplo: Não existe qualquer diferença entre o índice de Wiener do benzeno para o do ciclohexano, porque apenas considera a distância em termos de número de ligações e ligações C-C, deixando de fora a informação sobre a ordem das ligações.
Dá um exemplode aplicação com uma matriz do índice de Wiener.
Exemplo de aplicação: Através da matriz das distâncias apresentadas, para calcular o índice somam-se os números de cada linha divide-se por 2, ou soma-se apenas uma parcela da matriz (a cima ou abaixo da diagonal).
Outro exemplo de descritor topológico sem ser o índice de Wiener são… (baseados em quê?
…os vetores de autocorrelação 2D, baseados em pares de átomos existentes na molécula a uma determinada distancia.
Como são feitos os vetores de autocorrelação 2D? para que servem?
Através de um valor de distância definido (distância de 2, 3, 4 ligações), o índice é obtido através da soma dos termos e o contributo é o produto de uma propriedade (p=número atómico, cargas atómicas). Se um a(d) é calculado para valores de d entre 1 e 5, são obtidos 5 descritores. Eles combinam informações topológicas (como distâncias entre átomos na estrutura 2D da molécula) com propriedades atômicas (como carga, eletronegatividade, massa, etc.).
Dá um exemplo com uma matriz de correspondência, de como se aplica um vetor descritor de autocorrelação 2d.
Exemplo: considerando que a propriedade p=1 e uma distância de 3 ligações, olhamos para a matriz de ligações e vemos que existem 4 pares átomos a 3 ligações entre si. Logo, a=4.
O que são descritores geométricos 3D? Dá exemplos.
Descritores Geométricos 3D: codificam aspetos da estrutura tridimensional de moléculas, ou seja, são necessárias 3 coordenadas das moléculas. Requerem assim modelos moleculares 3D que, em aplicações QSAR, são normalmente gerados por um método empírico. Os exemplos de descritores 3D são:
→ 3D Wiener index: aqui adiciona-se o fator 3D incluindo no descritor 2D;
→ Descritores WHIM;
12
→ Descritores GETAWAY;
→ Vetores de autocorrelação 3D;
→ Descritores 3D-MORSE;
→ Códigos de quilaridade.
O que é a Função de distribuição Radial (RDF)?
Em termos simples:
A RDF responde à pergunta:
👉 “Qual a probabilidade de encontrar outro átomo a uma certa distância de um átomo de referência, comparada a uma distribuição aleatória?”
Como funciona a RDF?
Escolhe-se um átomo de referência na molécula.
Calcula-se a frequência de outros átomos a determinadas distâncias (em intervalos/radiais).
Isso é repetido para todos os pares de átomos.
O resultado é um gráfico ou vetor que mostra os picos de densidade — indicando onde os átomos tendem a se agrupar em relação uns aos outros.
Fórmula: ver slides
Como interpretar a representação gráfica de g(r) de RDF?
A representação gráfica de g(r) em função de r tem uma interpretação simples, semelhante a um espetro com vários picos. Cada pico resulta de um contributo de um par de átomos, e a intensidade é proporcional ao produto das propriedades dos dois átomos, g(r) e em que cada par de átomos contribui para uma zona do gráfico centrada na sua distância interatómica.
Eixo X (distância, r): representa a distância entre dois átomos.
Eixo Y (intensidade, g(r)): representa a probabilidade relativa de encontrar um átomo a uma distância r de um átomo de referência, normalizada pela densidade média.
A largura da zona do pico de uma representação gráfica de RDF está relacionada com o parâmetro…
B! (o seu valor)
Qual a desvantagem da função de distribuição radial?
Apesar das vantagens apresentadas, este método também não é útil para distinguir entre enantiómeros. Se quisermos distinguir entre as espécies (S) ou (R), os descritores RDF 3D seriam iguais porque a distancia entre os pares de átomos são iguais.
Que serviços web podem ser usados para calcular descritores molecurares? Descreve-os.
Para calcular descritores moleculares, recorrem-se a softwares onde, a partir da estrutura, se calculam esses números. Existem vários serviços web e aplicações que têm essas funções, como:
◦ Serviço web ochem.eu, bastante completo, onde se desenha a estrutura, ou através do upload de uma lista de estruturas, seleciona-se o descritor molecular que se pretende usar (fingerprint, RDF, 2D) para que seja 3D. A partir daí, ou damos as coordenadas (x, y e z), ou pedimos ao programa para as calcular, selecionando, por fim, o descritor 3D.
◦ Aplicação CDK (JAVA), que se trata de uma interface muito simples que abre o input e selecionamos o descritor a calcular. Depois, é também possível expandir em algumas famílias de compostos e calcular os respetivos descritores.
Porque é que é essencial a seleção de descritores moleculares? Como efetuar essa seleção e que critérios?
Alguns algoritmos podem trabalhar com muitos descritores e outros não, sendo melhor, um modelo que trabalhe com menos descritores. É, deste modo, essencial a seleção de descritores moleculares, calculando apenas alguns e excluindo outros com base nos números visualizados:
◦ Remover os descritores que não trazem nada de relevante, assim, reduzimos a dimensão sem perder informação revelante. Aspetos a considerar na exclusão:
→ Redundantes (dois descritores muito parecidos entre si, por exemplo, que tenham apenas hidrocarbonetos saturados);
→ Ruido (nada relevante para o problema que incorporam fatores extra que não interessam);
→ Irrelevantes (se tivermos a comparar com uma propriedade e há descritores que a partida não tenham nada a ver com essa propriedade).
Ao fazer a seleção de descritores moleculares o que pode melhorar?
→ Melhorem a precisão de previsão;
→ Sejam mais rápidos;
→ Calculem estimativas mais confiáveis
Existem muitos métodos de seleção para selecionar descritores e, neste caso, vamos usar o método por defeito para determinar modelos de machine learning da Weka. Aqui, o método CfsSubsetEval faz o quê?
◦ Avalia o valor de um subconjunto de atributos considerando a capacidade preditiva individual de cada descritor, juntamente com o grau de redundância entre eles.
◦ Subconjuntos de características altamente correlacionadas com a classe, tendo baixa intercorrelação, são preferidos.
Resumindo, o algoritmo procura subconjuntos de atributos que, por um lado, não sejam relacionados, e que estejam correlacionados com a propriedade que se quer prever.
Para obtermos a informação que queremos no Weka que passos temos de seguir?
Para obtermos esse tipo de informação no Weka, vamos a “Preprocess” para tratar dos ficheiros; o ficheiro tem de ter cada linha com o nome dos descritores (ex: SMILES) e temos de dizer como é que os ficheiros estão separados (“/”, “ “ ou “,”). No fim corre o algoritmo e seleciona os descritores que devemos usar.
Têm sido propostos milhares de descritores moleculares que têm permitido o estabelecimento de relações entre estrutura e propriedades físicas, químicas e biológicas. Vários programas estão disponíveis para o cálculo de descritores moleculares.