Disciplinas de Pós-graduaçãoBioinformática Básica - IQB723
Esta disciplina é normalmente oferecida uma vez ao ano.
Professor Rafael Dias Mesquita (Departamento de Bioquímica / Instituto de Química / UFRJ) Público alvo: Alunos de pós graduação SEM conhecimentos prévios em bioinformática. Carga horária: 30 horas Disciplina teórico-experimental (15 horas de aula teórica e 15 horas de prática) Créditos: 2 Vagas para alunos: 10 Cada aluno deverá levar um laptop com rede sem fio funcionando. Instruções para instalação de softwares necessários. Tutorial para a instalação do Firefox https://support.mozilla.org/pt-BR/kb/Instalando%20o%20Firefox%20no%20Windows Tutorial para instalação de complementos no Firefox (queremos instalar um complemento chamado BIOBAR). http://winlight.wordpress.com/2009/05/05/tutorial-instalando-complementos-no-mozilla-firefox/ Tutorial para a instalação do Textpad (executar somente o download e instalação do Textpad, não executar a parte de configuração contida no tutorial) http://sites.poli.usp.br/p/fabio.cozman/Didatico/Comp/Material/PMR2300_Instalacao_TextPad.pdf Tutorial para a instalação do software BioEdit http://bioinforma.weebly.com/bioedit-tutorials.html Tutorial para java JRE (Java run-time enviroment) http://docs.oracle.com/javase/7/docs/webnotes/install/ Link para instalação automática do flash player http://get.adobe.com/br/flashplayer/ Softwares a serem instalados que não temos tutorial: figtree, MEGA6 e pymol. Ementa Introdução à bioinformática, ferramentas de software, formatos de arquivos relacionados a bioinformática, bancos de dados na rede, buscas por similaridade, domínios conservados, alinhamento de sequências, ortologia e derivados, filogenia e árvores filogenéticas, modelagem estrutural. Objetivo Ensinar conceitos bioinformáticos básicos e treinar o aluno no uso de programas diversos (praticamente todos disponíveis como serviços web), sem uso de Linux ou linha de comando. Programa 1) Introdução à bioinformática: Conceitos básicos de um computador (hardware, sistema operacional e programas) e de biologia molecular (estrutura DNA, tradução, frames de leitura, estrutura de proteínas e domínios conservados). 2) Ferramentas de software: a) Firefox: Instalação e uso de complementos. b) Editores de texto (Textpad): Conversão de codificação e de formato final de linha. Quebra automática de linha. Substituição de texto. Seleção de colunas. c) Editores de sequencia (bioedit): Carregamento de uma sequência, edição, construção de reverso complementar, tradução, etc... 3) Formatos relacionados a bioinformática (FASTA e Genbank): Visualização e edição de sequências. PRÁTICA: Conversão de formato unix->win e win->unix de arquivos de texto. PRÁTICA: busca e edição para remover o texto “rafael” e trocar o texto “mesquita” pela sequencia original presente na proteína em formato fasta. 4) Bancos de dados no NCBI: PUBMED, Livros, Proteínas (nr, swiss-prot, refseq ...), domínios conservados (CDD), nucleotídeos (nt, mRNA, ORF, , genes ...), taxonômico etc. à Acesso, busca, visualização e download. 5) Buscas por similaridade: Matrizes de score à Família Blast de programas Matrizes de score por posição à psi-blast. PRÁTICA: Buscar um gene ou mRNA, ORF ou uma proteína por uma palavra chave. Baixar a sequência genica, seu cDNA e a proteína codificada em formato fasta. Buscar 5 sequencias similares de organismos próximos por blast, restringindo a busca por um taxid. Busca de ESTs que suportem o mRNA escolhido. Download das sequencias similares identificadas em formato fasta (gene, ORF e proteína) e dos ESTs caso existam. 6) Domínios conservados, bancos de dados e arquitetura de domínios: CDD, PFAM, BLOCKS, SMART etc à Acesso, busca, visualização e download. PRÁTICA: Usar as sequências da aula anterior para buscar domínios conservados usando pelo menos dois bancos de dados e confrontar os resultados. Buscar outras sequencias com a mesma arquitetura de domínios conservados. Verificar a anotação funcional e se os similares que você identificou estão dentre eles. 7) Alinhamento de sequências (clustalw, praline, muscle, t-coffee): Local x global, simples x múltiplo, parâmetros e matrizes de comparação. Avaliação de qualidade em alinhamentos. PRÁTICA: Usar as sequencia das aulas anteriores para fazer um alinhamento simples do seu mRNA, ORF e do melhor similar. Alinhar todos os 6 mRNAs, ORFs (verificar qualidade) e identificar regiões que seriam boas para desenhar primers degenerados e espécie específico. Alinhar as 6 proteínas (verificar qualidade) e verificar se as regiões escolhidas para desenho de primers são conservadas a nível proteico e se as regiões de domínio conservado identificados anteriormente estão bem alinhadas. 8) Ortologia, paralogia, homologia e similaridade: Bancos de dados de clusters de ortólogos: COG, KOG, KEGG, PRO, GO, Homologene etc. Identificação de ortólogos e de vias metabólicas no KEGG. PRÁTICA: Verificar se sua proteína pertence a um cluster de ortólogos em algum banco de ortólogos e se as sequencias similares que você selecionou pertencem ao mesmo cluster. Verificar se sua proteína pertence a alguma via metabólica, gerar um mapa colorido para a espécie de interesse. 9) Filogenia e dendogramas: Bases da filogenia, métodos de matrizes de distância, máxima parcimônia e probabilidade, inferência bayesiana e seleção de modelo. Construção de árvores com e sem raiz. PRÁTICA: Inserir seu alinhamento múltiplo de proteínas e construir uma árvore filogenética usando um dos métodos explicados. 10) Modelagem por homologia: Identificação e escolha de estrutura tridimensional de proteína, Alinhamento e modelagem. PRÁTICA: Verificar se existe estrutura tridimensional para sua proteína e/ou algum similar que você já identificou. Caso contrário, encontre a sequencia mais similar possível à sua com estrutura resolvida. Faça um alinhamento da sequencia da estrutura com suas sequencias e envie para modelagem pelo menos sequencias homólogas de 2 organismos diferentes. 11) Alinhamento tridimensional e avaliação da qualidade do modelo: RMSD, avaliação de voltas e de estrutura secundaria, estabilização dos modelos. PRÁTICA: Visualizar os modelos criados e alinhar a estrutura e os modelos gerados. Calcular o RMSD, avaliar a qualidade dos modelos gerados. Literatura Recomendada • Verli, H. (2014). Bioinformática: da Biologia à Flexibilidade Moleculares. 1a edição, Porto Alegre, Brasil. Este livro está disponível para download gratuitamente: https://www.ufrgs.br/bioinfo/ebook/ • Lesk, A.M. (2012). Introduction to Genomics. Oxford University Press, 2nd edition, USA. • Lesk, A.M. (2014). Introduction to Bioinformatics. Oxford University Press, 4th edition, USA. • Bioinformatics – A practical guide to the analysis of genes and proteins. Baxevanis, AD and Ouellette, BFF. Wiley.3rd edition. 2005. • Just the Facts: A Basic Introduction to the Science Underlying NCBI Resources. http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html • The NCBI handbook: http://www.ncbi.nlm.nih.gov/books/NBK21101/