Disciplinas de Pós-graduação
Bioinformática Básica - IQB723

Esta disciplina é normalmente oferecida no primeiro semestre, na última semana de março.


Professores

Rafael Dias Mesquita (Departamento de Bioquímica / Instituto de Química / UFRJ)
Glória Regina Cardoso Braz (Departamento de Bioquímica / Instituto de Química / UFRJ)

Público alvo: Alunos de pós graduação SEM conhecimentos prévios em bioinformática.

Carga horária: 30 horas

Disciplina teórico-experimental (15 horas de aula teórica e 15 horas de prática)

Créditos: 2

Vagas para alunos: 10

Cada aluno deverá levar um laptop com rede sem fio funcionando.

Instruções para instalação de softwares necessários.
Tutorial para a instalação do Firefox
https://support.mozilla.org/pt-BR/kb/Instalando%20o%20Firefox%20no%20Windows
Tutorial para instalação de complementos no Firefox (queremos instalar um complemento chamado BIOBAR).
http://winlight.wordpress.com/2009/05/05/tutorial-instalando-complementos-no-mozilla-firefox/
Tutorial para a instalação do Textpad (executar somente o download e instalação do Textpad, não executar a parte de configuração contida no tutorial)
http://sites.poli.usp.br/p/fabio.cozman/Didatico/Comp/Material/PMR2300_Instalacao_TextPad.pdf
Tutorial para a instalação do software BioEdit
http://bioinforma.weebly.com/bioedit-tutorials.html
Tutorial para java JRE (Java run-time enviroment)
http://docs.oracle.com/javase/7/docs/webnotes/install/
Link para instalação automática do flash player
http://get.adobe.com/br/flashplayer/

Softwares a serem instalados que não temos tutorial: figtree, MEGA6 e pymol.


Ementa
Introdução à bioinformática, ferramentas de software, formatos de arquivos relacionados a bioinformática, bancos de dados na rede, buscas por similaridade, domínios conservados, alinhamento de sequências, ortologia e derivados, filogenia e árvores filogenéticas, modelagem estrutural.


Objetivo
Ensinar conceitos bioinformáticos básicos e treinar o aluno no uso de programas diversos (praticamente todos disponíveis como serviços web), sem uso de Linux ou linha de comando.


Programa
1) Introdução à bioinformática: Conceitos básicos de um computador (hardware, sistema operacional e programas) e de biologia molecular (estrutura DNA, tradução, frames de leitura, estrutura de proteínas e domínios conservados).

2) Ferramentas de software:
a) Firefox: Instalação e uso de complementos.
b) Editores de texto (Textpad): Conversão de codificação e de formato final de linha. Quebra automática de linha. Substituição de texto. Seleção de colunas.
c) Editores de sequencia (bioedit): Carregamento de uma sequência, edição, construção de reverso complementar, tradução, etc...

3) Formatos relacionados a bioinformática (FASTA e Genbank): Visualização e edição de sequências.
PRÁTICA: Conversão de formato unix->win e win->unix de arquivos de texto.
PRÁTICA: busca e edição para remover o texto “rafael” e trocar o texto “mesquita” pela sequencia original presente na proteína em formato fasta.

4) Bancos de dados no NCBI: PUBMED, Livros, Proteínas (nr, swiss-prot, refseq ...), domínios conservados (CDD), nucleotídeos (nt, mRNA, ORF, , genes ...), taxonômico etc. à Acesso, busca, visualização e download.

5) Buscas por similaridade: Matrizes de score à Família Blast de programas
Matrizes de score por posição à psi-blast.
PRÁTICA: Buscar um gene ou mRNA, ORF ou uma proteína por uma palavra chave. Baixar a sequência genica, seu cDNA e a proteína codificada em formato fasta. Buscar 5 sequencias similares de organismos próximos por blast, restringindo a busca por um taxid. Busca de ESTs que suportem o mRNA escolhido. Download das sequencias similares identificadas em formato fasta (gene, ORF e proteína) e dos ESTs caso existam.

6) Domínios conservados, bancos de dados e arquitetura de domínios: CDD, PFAM, BLOCKS, SMART etc à Acesso, busca, visualização e download.
PRÁTICA: Usar as sequências da aula anterior para buscar domínios conservados usando pelo menos dois bancos de dados e confrontar os resultados. Buscar outras sequencias com a mesma arquitetura de domínios conservados. Verificar a anotação funcional e se os similares que você identificou estão dentre eles.

7) Alinhamento de sequências (clustalw, praline, muscle, t-coffee): Local x global, simples x múltiplo, parâmetros e matrizes de comparação. Avaliação de qualidade em alinhamentos.
PRÁTICA: Usar as sequencia das aulas anteriores para fazer um alinhamento simples do seu mRNA, ORF e do melhor similar. Alinhar todos os 6 mRNAs, ORFs (verificar qualidade) e identificar regiões que seriam boas para desenhar primers degenerados e espécie específico. Alinhar as 6 proteínas (verificar qualidade) e verificar se as regiões escolhidas para desenho de primers são conservadas a nível proteico e se as regiões de domínio conservado identificados anteriormente estão bem alinhadas.

8) Ortologia, paralogia, homologia e similaridade: Bancos de dados de clusters de ortólogos: COG, KOG, KEGG, PRO, GO, Homologene etc. Identificação de ortólogos e de vias metabólicas no KEGG.
PRÁTICA: Verificar se sua proteína pertence a um cluster de ortólogos em algum banco de ortólogos e se as sequencias similares que você selecionou pertencem ao mesmo cluster. Verificar se sua proteína pertence a alguma via metabólica, gerar um mapa colorido para a espécie de interesse.

9) Filogenia e dendogramas: Bases da filogenia, métodos de matrizes de distância, máxima parcimônia e probabilidade, inferência bayesiana e seleção de modelo. Construção de árvores com e sem raiz.
PRÁTICA: Inserir seu alinhamento múltiplo de proteínas e construir uma árvore filogenética usando um dos métodos explicados.

10) Modelagem por homologia: Identificação e escolha de estrutura tridimensional de proteína, Alinhamento e modelagem.
PRÁTICA: Verificar se existe estrutura tridimensional para sua proteína e/ou algum similar que você já identificou. Caso contrário, encontre a sequencia mais similar possível à sua com estrutura resolvida. Faça um alinhamento da sequencia da estrutura com suas sequencias e envie para modelagem pelo menos sequencias homólogas de 2 organismos diferentes.

11) Alinhamento tridimensional e avaliação da qualidade do modelo: RMSD, avaliação de voltas e de estrutura secundaria, estabilização dos modelos.
PRÁTICA: Visualizar os modelos criados e alinhar a estrutura e os modelos gerados. Calcular o RMSD, avaliar a qualidade dos modelos gerados.

Literatura Recomendada

• Verli, H. (2014). Bioinformática: da Biologia à Flexibilidade Moleculares. 1a edição, Porto Alegre, Brasil.
Este livro está disponível para download gratuitamente: https://www.ufrgs.br/bioinfo/ebook/
• Lesk, A.M. (2012). Introduction to Genomics. Oxford University Press, 2nd edition, USA.
• Lesk, A.M. (2014). Introduction to Bioinformatics. Oxford University Press, 4th edition, USA.
• Bioinformatics – A practical guide to the analysis of genes and proteins. Baxevanis, AD and Ouellette, BFF. Wiley.3rd edition. 2005.
• Just the Facts: A Basic Introduction to the Science Underlying NCBI Resources. http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html
• The NCBI handbook: http://www.ncbi.nlm.nih.gov/books/NBK21101/