Bioinformática Flashcards
Por qué es GNU/Linux el fav de la bioinformática
Multiusuario
Multiplataforma
Multitarea
Dif GNU y Linux
GNU es con lo que lidiamos como usuario
Linux es lo que procesa la info
Dif logout y exit
Logout = cierra la sesión del usuario
Exit = cierra la sesión y también la terminal
1 byte equals
8 bits
1 kilobyte equals
1024 (2^10) bytes
Archivo definición
Conjunto ordenado de bytes
Filesystem se compone de
Archivos organizados en directorios
Diferencia path absoluto con path relativo
Absoluto empieza de la raíz, siempre comienza con /
Relativo comienza desde otra ubicación según los caracteres
Caracteres especiales par path relativos
“.” El directorio actual
“..” el directorio directamente superior
“~” $HOME
“~user” $HOME del usuario user
“—” último directorio en el que estuve
Cuál es el prompt
Enunciado es “yo@mitarro:~$”
Si no pongo argumento a LS
Me lista los archivos y directorios del directorio actual
LS -l
(LiSt long listing) proporciona listado extenso (permisos, fecha, tamaño, usuario, etc)
Opción -h para LS
Human readable (tamaño legible)
LS -a
(List all) no ignora los archivos ocultos
Archivos ocultos
Comienzan con “.”
LS -R
(Recursive) Muestra recursivamente todos los subdirectorios de c/directorio
LS -S
(Sorted) ordena la lista x tamaño (bigger primero)
LS -t
(Time) ordena lista x fecha de MODIFICACIÓN, latest primero
LS -r
(Reverse) invierte el sentido de los ordenamientos (onda de Z-A)
Comodín *
“*” reemplaza cualquier conjunto de caracteres
Comodín “?”
? Reemplaza any caracter individual
pwd
Print working directory = nombra el directorio actual
cd
Change Directory = permite moverse a otro directorio
“cd” sin arg
Lleva a $HOME
cd —
Vuelve al último directorio visitado
“rm”
“Remove” vacía la carpeta
rm -r ó rm -R
Remueve recursivamente todo lo que la carpeta del arg y luego la borra
Rmdir
Elimina directorio con el nombre del arg
Cat
(concatenate) vuelca la info de dos o más archivos concatenada%, en el orden que yo proporcioné en arg
cat —A
Muestra los caracteres que por defecto oculta, como tab (^|)
“more”
Muestra pagina x página el archivo del arg
“Less”
Muestra la info del arg pero permite moverse para atrás y adelante
Cp
CoPy = copia un archivo con otro nombre y/o a otro directorio “cp origen destino”
cp —i
(Interactive) impide que a copia provoque la pérdida del archivo destino si ya esixte
Cp -R ó cp -r
Copia un directorio y toda la filesystem que cuelga de él
Mv
(MoVe) = mueve un archivo a otro nombre y/o a otro directorio
Rm —R ó rm -r
Borrar el directorio o todo su contenido
Comandos que disponen de opción “—i”
Cp, mv, rm :) evita borrar el archivo destino si exise
Touch
Crear archivos vacíos o reiniciar la fecha del archivo si ya existe
Permiso r en archivo y directorio
En archivo es examinar el permiso del mismo
En directorio es listar los contenidos del mismo
Permiso w en archivos y directorios
En archivo permite modificar el contenido
En directorio crear nuevos archivos o directorios en su interior
Permiso x en archivos y directorios
En archivos permite ejecutarlo
En directorios permite cambiarse a él
Tipos de objetos
“l” link
“—” archivo
“c” dispositivo de caracteres (puerto serial)
“d” directorio
“b” dispositivo de bloques (disco duro)
Orden de los permisos
Usuario (propietario) — grupo — otros
Qué permiso ningún programa UNIX tiene x defecto
X
chmod
Modificar los permisos de un (o grupo de) archivos o directorios
Modo numérico de permisos
0 nada
1 solo x
2 solo w
3 w x
4 solo r
5 r x
6 r w
7 r w x
Modo simbólico o literal de permisos “quién”
U usuario
G grupo
O other
A all = “ugo”
Modo simbólico o literal “operación”
+ añadir permiso
— eliminar permiso
= asignar permiso
Diferencia entre + ó = un permiso
Agregar (+) es añadir a los que ya tenía, reasignar (=) cambia de novo todo
Chgrp
(Change group) cambia el grupo propietario de uno o mas archivos y/o directorios
Requisito para ser usuario que usa chgrp ó chown
Pertenecer al grupo al que adscribe los nuevos archivos
Chown
(Change owner) cambia el usuario propietario de uno o mas archivos y/o directorios
Argumento de chgrp ó chown
“Grupo” “archivos”
“Usuario” “archivos”
File
Imprime el tipo de un archivo, examinando su contenido
File —i
Incluye el valor de la propiedad charset (indica codificación del archivo)
Descriptores numéricos de c/ dispositivo/flujo de datos
0 STDIN
1 STDOUT
2 STDERR
Redirección de entrada
“Menor que”
Conecta el STDIN a un archivo
Redireccion de salida
“Mayor que” >
Conectar STDOUT a un archivo
Redirección de salida y entrada
“|” permite conectar el STDOUT de un proceso con el STDIN del sgte
Modo append
“Escribir abajo” de la info que ya tiene el archivo
Redireccionador 2>
Redirecciona el STDERR
Redireccionador &>
Redirecciona tanto STDOUT como STDERR
Redireccionador»_space;
Añade el STDOUT en modo append al final del archivo indicado
Redireccionador 2»
Redirecciona solo STDERR pero modo append
&»
Redireccionador de STDOUT y SDERR en modo append
Qué son los filtros
Comandos que permiten el procesamiento de archivos de texto desde la línea de comandos. Reciben datos del STDIN y los retornan modificados al STDOUT
“paste”
Pega los archivos del argumento línea por línea, separado x tab (quedan como columnas de cada weá)
“tee”
Desde el STDIN y escribe en STDOUT en uno o más archivos simultáneamente (se aplica con | entonces)
Tee —a
Agrega al archivo en modo append lo que se escribe
Editor de flujos
Sed
Sed =
Numera las lineas del archivo que muestra
Sed -n ‘?p’
-n suprime la impresión de todas las líneas salvo las especificadas por ‘p’
Sed ‘?q’
Mostrar hasta la línea ? Solamente
Sed ‘?d’
Remover linea ? Del archivo
Para que sed solo muestre las lineas X e Y de un archivo
Sed —n ‘Xp;Yp’
Sed para buscar y reemplazar
Sed ‘s/algo/reemplazo/cuando’
Expresiones regulares sed
^ matches al inicio de una linea (se pone antes de lo que busco)
$ matches al final de una linea (se pone después de lo que busco)
. matches cualquier caracter
[ ] matches con todos los caracteres dentro de los paréntesis
Backlash indica
Que lo sgte (caracter) lo tome literal
Diff
Permite comparar el contenido de dos archivos o directorios
STDOUT de diff
“Línea en archivo 1 letra linea en archivo 2”
> el archivo 2 y “menor que” el 1
Letras que usa diff para expresar diferencias
A agregar
C cambiar
D borrar
sort
Permite ordenar por defecto numéricamente, o alfabética si asi lo explicito
Sort -r
Revierte el orden
Sort -n
Considera los numeros como tal, de menor a mayor
Sort -k ?
Especifica la columna ? que quiero que use para ordenar
Grep
Permite la búsqueda de una cadena de caracteres en uno o varios archivos, imprimiendo el nombre del archivo y la linea en que se encuentra la cadena
Opciones de grep
—c elimina la salida normal y solo cuenta el nro de lineas en las cuales aparece la cadena en cada archivo
—i ignora si los caracteres de búsqueda están en
—n incluye el nro de líneas en que aparece la cadena
—r búsqueda recursiva
—v invierte la búsqueda, salen todas las lineas sin la cadena
Head con y sin -N
Con muestra las primeras N lineas
Sin muestra las primeras 10
Tail con y sin —f
Con permite que se actualice la salida a medida que el archivo crece
Sin muestra las últimas 10 lineas
Awk
Es un procesador de archivos de texto que remite la manipulación de las lineas de forma tal que tome decisiones en función del contenido de la misma. Por defecto funciona como el comando cat
Wc
Contabiliza el nro de lineas, palabras y caracteres de un archivo (en ese orden)
Wc sólo muestra lineas, palabras o caracteres con
—l
—w
—c
Uniq
Reporta, omite o cuenta lineas repetidas adyacentes. Así solito pone las lineas solo una vez, quita las repeticiones
Uniq —d
Solo imprime las lineas que va a eliminar porque son repetidas
Uniq —c
Reporta con la primera columna cuantas veces esta una linea
Pid
Process ID. Único para cada proceso
IP-number
Conjunto de 4 nros separados x puntos que se asocia a cada maquina, no pueden repetirse en una misma red
&
Ejecución de un comando en bg
Ctrl-Z
Detiene el proceso del fg y lo coloca en bg
Ctrl-baklash
Termina def% un proceso del fg
Ps x
Lista todos los procesos del usuario, incluyendo los no asociados a la terminal
Kill (Pid)
Señal de termino a un proceso unix
Jobs
Lista los procesos que se hayan ejecutado en el shell actual, mostrando el job number
Fg (job number)
Pasa a fg un proceso en bg
Bg (job number)
Pasa a bg un proceso en fg
Dif entre kill y ctrl-c
Kill puede terminar un proceso en bg también
Ping
Verifica si una maquina esta conectada a la red y si el camino de internet hasta la misma funciona correcta%
ssh
Permite conexión operativa con otro compu a través de la red
PDB-ID
Código de 4 letras y/o nros que se asocia a una estructura del Protein data bank
formato PDB
Archivo de texto que contiene coordenadas cartesianas de los atomos de la proteina mas la info de enlaces, est 2ria y 3ria
Resolución
Medición de la calidad de los datos, qué tan seguros podemos estar de la posición de un átomo en particular, depende del volumen sobre el que se construye.
Baja resolución
8 a 3,5 A°
Se puede ver la forma gral de las moleculas y las helices se ven como barras de alta densidad de e-s
Resolución media
3,5 a 2,5 A°
Se identifican las cadenas lat de aás y rastrear las cadenas de polipéptidos
Alta resolución
2,5 a 1 A°
Se pueden localizar atomos individuales y observar solvente ordenado al rededor de prot
B-value
Medida del movimiento que puede tomar el átomo que se representa dentro de tal densidad electrónica. Mientras menos mejor e indica que el átomo esta en misma posición en all estructuras del cristal
Fórmula B-value
Pi^2 * q^2
Q = cuanto se mueve el átomo en el volumen resuelto
Occupancy
Estimación de al cantidad de cada conformacion posible esta presente en el cristal, del 0,1.
Diferencia FASTA y FASTQ
Fasta tiene toda la secuencia seguida desde el primer salto de línea post >
FASTQ cada linea se asocia a una linea inferior (4ta) con info de la calidad asociada
Base calling
Es el proceso por el cual un orden de nts en templado es inferido durante una reacción de secuenciación
Phred score
Q= -10 * log 10(p)
Q es base quality
P es probabilidad de que la base sea incorrecta
Valores normales de Q
Entre 30-50, bajo eso es malo
Qué es anotar un genoma
- clasificar y describir parts de la secuencia genómica
- características biológicas de una secuencia
- identificar tipo y posición de secuencias
- hipotétizar sobre funciones de secuencias
Tipos de anotación del genoma
Estructuras: ubicacion de c/tipo de estructura
Funcional: rol de cada estructura
CDS
Coding secuence
Estrategias de Identificación de CDS
Alineamiento de secuencias e identificación de genes ab initio
Desventajas alineamiento de secuencias pa identificar CDs
- no se anotan prots que no estan en la base de datos
- no se pueden identificar fragmentos
Desventajas identificación genes ab initio
Algoritmo puede equivocarse en el sitio de inicio
Se pueden perder genes atípicos
Sobrerrepresentación de genes pequeños ¿?