Quimio-Informática - Molecular Descriptors Flashcards

Question 1

Q

O que são descritores moleculares?

Answer

A

Os descritores moleculares são representações matemáticas de uma molécula, que resultam de uma transformação da informação estrutural disponível para a molécula. São tipicamente números que codificam características da estrutura molecular.

Question 2

Q

Que metodologia utilizam os descritores moleculares?

Answer

A

A metodologia que utilizam é o QSAR, ou seja, a relação quantitativa entre estrutura-atividade.

Question 3

Q

Como é que funciona a construção de modelos QSAR para descritores moleculares? Como “ensinam” química a computadores?

Answer

A

Por sua vez, a construção de modelos QSAR assenta em técnicas de regressão (estatística ou de aprendizagem automática) que estabelecem relações entre as estruturas moleculares dum conjunto de treino, codificadas por descritores moleculares, e as respetivas propriedades a prever, com base noutras propriedades experimentais conhecidas. Logo, com ferramentas relativamente simples é possível “ensinar” química ao computador. Tendo dados experimentais e encontrando relações entre estrutura atividade, é possível construir uma base de dados e fazer previsões (ex: verificar se uma determinada reação química é possível).

Question 4

Q

Com que modelo são utilizados os QSAR para descritores moleculares?

Answer

A

O modelo utilizado são algoritmos de machine learning que, por sua vez, permitem prever a propriedade a partir da estrutura. Para tal, são necessários conjuntos de estruturas com uma dada propriedade associada, para que seja possível que os algoritmos estabeleçam uma relação entre estrutura e atividade.

Question 5

Q

Dá um exemplo de um bom descritor molecular usado.

Answer

A

Exemplo: massa molecular, que se calcula através da fórmula molecular e já oferece alguma informação sobre a molécula (grande ou pequena), ou mesmo a previsão completa da fórmula molecular, caso tenha um numero de algarismos suficiente. É com base nestes números que os algoritmos fazem as suposições previstas.

Question 6

Q

Como é que então os descritores moleculares relacionam as propriedades que “aprendem”?

Answer

A

Estrutura Molecular –> Representação (descritores moleculares, números!!) –> Machine Learning –> Propriedades

Question 7

Q

Exemplos de Descritores Moleculares constitucionais (e o que são):

Answer

A

◦ Descritores constitucionais são propriedades globais da molécula como
→ peso molecular;
→ número de átomos, número de átomos de carbono;
→ número de ligações (duplas, aromáticas);
→ número de ligações rotáveis;
→ soma dos volumes atómicos de van der Waals dos átomos considerados todos como esferas;
→ Carga atómica parcial máxima ou mínima;
→ Carga atómica parciais (máxima ou mínima) num átomo de H;
→ Energia da HOMO e LUMO;
→ Coeficientes de partição;
→ Grau de insaturação;
→ Fator hidrofílico;
→ Refratividade molar;
→ Contribuição dos fragmentos na área superficial polar.

Question 8

Q

Exemplos de Descritores Moleculares de fragmentos (e o que são):

Answer

A

Descritores de fragmentos contam a ocorrência de grupos funcionais e sub-unidades estruturais previamente definidas. Contam a quantidade de fragmentos numa molécula (parecido ao fingerprint)
→ Número de carbonos de hibridação sp3;
→ Número de grupos isocianato;
→ Número de amidas aromáticas ou de amidas alifáticas;
→ Número de grupos nitro;
→ Número de grupos ésteres;
→ Número de ligações doadoras de H.

Question 9

Q

O que são Descritores Moleculares topológicos?

Answer

A

Descritores topológicos (2D): estes partem da representação da estrutura molecular como um grafo (estrutura abstrata composta por vértices e arestas e representa-se dessa forma, onde as arestas são as ligações e vértices os átomos) obtendo resultados para estruturas moleculares, representando a constituição/conectividade dos compostos. Estes podem ser calculados a partir dos seus gráficos moleculares. A aplicação de teoremas da teoria de grafos permite gerar invariantes de grafos que são usados como descritores da molécula. Dentro destas englobamos descritores que tenham a tabela de conectividade, contam em que caminhos de 3 ligações é que se encontram na molécula.

Question 10

Q

Um exemplo de descritores topológico é…

Answer

A

…o índice de Wiener! (há outro)

Question 11

Q

Como funciona ou se calcula o índice de Wiener?

Answer

A

Definido como a soma das distâncias entre todos os pares de átomos de carbono na molécula (distâncias em termos de ligações de carbono-carbono). Pode ser alargado para além de ligações C-C. Tem um duplo somatório para comparar um átomo em função de todos os átomos na molécula. (ver fórmula nos slides)

Question 12

Q

Dá um exemplo de que informação útil o índice de Wiener dá.

Answer

A

Por exemplo: isómeros, o índice de Wiener dá uma indicação sobre a ramificação; uns isómeros são mais ramificados que outros, originando uma abordagem mais simplificada que as superfícies de Van der Waals, ou seja, a área da molécula com a superfície disponível para o exterior; se o composto for mais ramificado, apresenta uma estrutura mais esférica e menos alongada, ou seja, uma menor área exposta.

Question 13

Q

O que não é tido em conta pelo índice de Wiener?

Answer

A

Para além disso, este não considera os hidrogénios das moléculas nem ligações duplas, triplas e estereoisómeros (normal dos descritores topológicos). Exemplo: Não existe qualquer diferença entre o índice de Wiener do benzeno para o do ciclohexano, porque apenas considera a distância em termos de número de ligações e ligações C-C, deixando de fora a informação sobre a ordem das ligações.

Question 14

Q

Dá um exemplode aplicação com uma matriz do índice de Wiener.

Answer

A

Exemplo de aplicação: Através da matriz das distâncias apresentadas, para calcular o índice somam-se os números de cada linha divide-se por 2, ou soma-se apenas uma parcela da matriz (a cima ou abaixo da diagonal).

Question 15

Q

Outro exemplo de descritor topológico sem ser o índice de Wiener são… (baseados em quê?

Answer

A

…os vetores de autocorrelação 2D, baseados em pares de átomos existentes na molécula a uma determinada distancia.

Question 16

Q

Como são feitos os vetores de autocorrelação 2D? para que servem?

Answer

A

Através de um valor de distância definido (distância de 2, 3, 4 ligações), o índice é obtido através da soma dos termos e o contributo é o produto de uma propriedade (p=número atómico, cargas atómicas). Se um a(d) é calculado para valores de d entre 1 e 5, são obtidos 5 descritores. Eles combinam informações topológicas (como distâncias entre átomos na estrutura 2D da molécula) com propriedades atômicas (como carga, eletronegatividade, massa, etc.).

Question 17

Q

Dá um exemplo com uma matriz de correspondência, de como se aplica um vetor descritor de autocorrelação 2d.

Answer

A

Exemplo: considerando que a propriedade p=1 e uma distância de 3 ligações, olhamos para a matriz de ligações e vemos que existem 4 pares átomos a 3 ligações entre si. Logo, a=4.

Question 18

Q

O que são descritores geométricos 3D? Dá exemplos.

Answer

A

Descritores Geométricos 3D: codificam aspetos da estrutura tridimensional de moléculas, ou seja, são necessárias 3 coordenadas das moléculas. Requerem assim modelos moleculares 3D que, em aplicações QSAR, são normalmente gerados por um método empírico. Os exemplos de descritores 3D são:
→ 3D Wiener index: aqui adiciona-se o fator 3D incluindo no descritor 2D;
→ Descritores WHIM;
12
→ Descritores GETAWAY;
→ Vetores de autocorrelação 3D;
→ Descritores 3D-MORSE;
→ Códigos de quilaridade.

Question 19

Q

O que é a Função de distribuição Radial (RDF)?

Answer

A

Em termos simples:
A RDF responde à pergunta:
👉 “Qual a probabilidade de encontrar outro átomo a uma certa distância de um átomo de referência, comparada a uma distribuição aleatória?”

Question 20

Q

Como funciona a RDF?

Answer

A

Escolhe-se um átomo de referência na molécula.

Calcula-se a frequência de outros átomos a determinadas distâncias (em intervalos/radiais).

Isso é repetido para todos os pares de átomos.

O resultado é um gráfico ou vetor que mostra os picos de densidade — indicando onde os átomos tendem a se agrupar em relação uns aos outros.
Fórmula: ver slides

Question 21

Q

Como interpretar a representação gráfica de g(r) de RDF?

Answer

A

A representação gráfica de g(r) em função de r tem uma interpretação simples, semelhante a um espetro com vários picos. Cada pico resulta de um contributo de um par de átomos, e a intensidade é proporcional ao produto das propriedades dos dois átomos, g(r) e em que cada par de átomos contribui para uma zona do gráfico centrada na sua distância interatómica.
Eixo X (distância, r): representa a distância entre dois átomos.

Eixo Y (intensidade, g(r)): representa a probabilidade relativa de encontrar um átomo a uma distância r de um átomo de referência, normalizada pela densidade média.

Question 22

Q

A largura da zona do pico de uma representação gráfica de RDF está relacionada com o parâmetro…

Answer

A

B! (o seu valor)

Question 23

Q

Qual a desvantagem da função de distribuição radial?

Answer

A

Apesar das vantagens apresentadas, este método também não é útil para distinguir entre enantiómeros. Se quisermos distinguir entre as espécies (S) ou (R), os descritores RDF 3D seriam iguais porque a distancia entre os pares de átomos são iguais.

Question 24

Q

Que serviços web podem ser usados para calcular descritores molecurares? Descreve-os.

Answer

A

Para calcular descritores moleculares, recorrem-se a softwares onde, a partir da estrutura, se calculam esses números. Existem vários serviços web e aplicações que têm essas funções, como:
◦ Serviço web ochem.eu, bastante completo, onde se desenha a estrutura, ou através do upload de uma lista de estruturas, seleciona-se o descritor molecular que se pretende usar (fingerprint, RDF, 2D) para que seja 3D. A partir daí, ou damos as coordenadas (x, y e z), ou pedimos ao programa para as calcular, selecionando, por fim, o descritor 3D.
◦ Aplicação CDK (JAVA), que se trata de uma interface muito simples que abre o input e selecionamos o descritor a calcular. Depois, é também possível expandir em algumas famílias de compostos e calcular os respetivos descritores.

Question 25

Q

Porque é que é essencial a seleção de descritores moleculares? Como efetuar essa seleção e que critérios?

Answer

A

Alguns algoritmos podem trabalhar com muitos descritores e outros não, sendo melhor, um modelo que trabalhe com menos descritores. É, deste modo, essencial a seleção de descritores moleculares, calculando apenas alguns e excluindo outros com base nos números visualizados:
◦ Remover os descritores que não trazem nada de relevante, assim, reduzimos a dimensão sem perder informação revelante. Aspetos a considerar na exclusão:
→ Redundantes (dois descritores muito parecidos entre si, por exemplo, que tenham apenas hidrocarbonetos saturados);
→ Ruido (nada relevante para o problema que incorporam fatores extra que não interessam);
→ Irrelevantes (se tivermos a comparar com uma propriedade e há descritores que a partida não tenham nada a ver com essa propriedade).

Question 26

Q

Ao fazer a seleção de descritores moleculares o que pode melhorar?

Answer

A

→ Melhorem a precisão de previsão;
→ Sejam mais rápidos;
→ Calculem estimativas mais confiáveis

Question 27

Q

Existem muitos métodos de seleção para selecionar descritores e, neste caso, vamos usar o método por defeito para determinar modelos de machine learning da Weka. Aqui, o método CfsSubsetEval faz o quê?

Answer

A

◦ Avalia o valor de um subconjunto de atributos considerando a capacidade preditiva individual de cada descritor, juntamente com o grau de redundância entre eles.
◦ Subconjuntos de características altamente correlacionadas com a classe, tendo baixa intercorrelação, são preferidos.
Resumindo, o algoritmo procura subconjuntos de atributos que, por um lado, não sejam relacionados, e que estejam correlacionados com a propriedade que se quer prever.

Question 28

Q

Para obtermos a informação que queremos no Weka que passos temos de seguir?

Answer

A

Para obtermos esse tipo de informação no Weka, vamos a “Preprocess” para tratar dos ficheiros; o ficheiro tem de ter cada linha com o nome dos descritores (ex: SMILES) e temos de dizer como é que os ficheiros estão separados (“/”, “ “ ou “,”). No fim corre o algoritmo e seleciona os descritores que devemos usar.
Têm sido propostos milhares de descritores moleculares que têm permitido o estabelecimento de relações entre estrutura e propriedades físicas, químicas e biológicas. Vários programas estão disponíveis para o cálculo de descritores moleculares.