Disciplinas de Pós-graduaçãoBioinformática: Genomas e Transcriptomas - IQB724
Esta disciplina é normalmente oferecida uma vez ao ano.
Professor Rafael Dias Mesquita (Departamento de Bioquímica / Instituto de Química / UFRJ) Público alvo: Alunos de pós graduação SEM conhecimentos prévios em bioinformática. Ter a disciplina de Bioinformática Básica é sugerido apesar de não ser pre-requesito. Carga horária: 30 horas Disciplina teórico-experimental (15 horas de aula teórica e 15 horas de prática) Créditos: 2 Vagas para alunos: 10 Cada aluno deverá levar um laptop com rede sem fio funcionando. Softwares necessários: Firefox ou chrome, Textpad, BioEdit, JRE (Java run-time enviroment), R (pacote estatístico) e expander (http://www.cs.tau.ac.il/~rshamir/expander/expander.html). Ementa Sequenciamento (tecnologia Illumina), formatos de arquivos, controle de qualidade de sequenciamento, montagem de genomas e transcriptomas, controle de qualidade de montagens, predição gênica em genomas, análise de expressão gênica baseado em sequenciamento de transcriptoma. Objetivo Ensinar conceitos bioinformáticos relacionados a genômica e transcriptômica e treinar o aluno no uso de programas diversos para análises genômicas e transcriptômicas, especialmente dentro do ambiente web galaxy. Programa 1) Sequenciamento IlIumina: Introdução, preparação de bibliotecas (barcode, single x paired, comprimento e adaptadores) e tecnologia do sequenciamento Illumina. PRÁTICA: Login no ambiente galaxy, operações básicas do galaxy, download de um genoma (procarioto), e de um transcriptoma (procarioto, com no mínimo 2 condições, com 2 replicatas cada) – Sequenciados por Illumina, transformação de formato SRA para fastq. 2) Controle de qualidade: Formato de arquivos, métricas de controle de qualidade de sequenciamento, limpeza da sequência e reanálise de qualidade. PRÁTICA: Controle de qualidade com o fastQC, limpeza com o cutadapt e reanálise de qualidade, todos em ambiente galaxy. 3) Montagem de transcriptomas: Introdução, grafos De Brujin, montagem de novo e baseada em genoma, software Trinity, polimorfismos (SNPs), paralogia e splicing alternativo. PRÁTICA: Montagem de transcriptoma usando o Trinity e o Cuflinks, todos em ambiente galaxy. 4) Montagem de genomas de procariotos: Introdução, heterozigozidade, correção de erros, grafos De Brujin normais e duplos, software Spades. PRÁTICA: Montagem de genoma usando o Spades, em ambiente galaxy. 5) Controle de qualidade de transcriptomas e genomas: Métricas para genomas (cobertura, N50, maior contig, histograma de tamanhos) e transcriptomas (cobertura, N50, maior transcrito, histograma de tamanhos, sequencias completas). PRÁTICA: Controle de qualidade de montagens de genomas (Spades quality, assemblyStats e QUAST web). Controle de qualidade de transcriptomas (assemblyStats e BUSCO). 6) Análise de expressão gênica: Alinhamento baseado em genoma e transcriptoma, TopHat, Bowtie2, Regiões e alinhamentos repetitivos, RPKM e FPKM. PRÁTICA: Alinhamento usando o software Bowtie2 dos reads do transcriptoma contra o transcriptoma montado previamente. Quantificação de reads por gene usando o eXpress. 7) Estatística relacionada e expressão gênica: Determinação dos genes diferencialmente expressos usando o EdgeR (cobertura, variança, ruídos, distribuição, e significância) e clusterização de perfis de expressão usando o Expander. PRÁTICA: Determinação dos genes diferencialmente expressos usando o EdgeR. Clusterização de padrões de expressão gênica usando o Expander. 8) Predição gênica em genomas: Regiões gênicas – início, fim, exons e introns –, regiões promotoras, fim de transcrição, operons x genes, frames de tradução, estatística na predição gênica, HMMs. PRÁTICA: Predição gênica com os softwares Prodigal e Glimmer usando o genoma montado previamente. Avaliação Seminário contendo os resultados gerados durante o curso. Literatura Recomendada Introdução e Galaxy • Bioinformatics – A practical guide to the analysis of genes and proteins. Baxevanis, AD and Ouellette, BFF. Wiley.3rd edition. 2005. • Galaxy Project: https://wiki.galaxyproject.org/Support e https://wiki.galaxyproject.org/Learn • SRA knowledgebase: http://www.ncbi.nlm.nih.gov/books/NBK56551/ • Developing bioinformatics computer skills, Gibas e Jambeck. O’Reilly. 2001. Controle de qualidade e limpeza de dados de sequenciamento • FASTQC: http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/ • Cutadapt: http://cutadapt.readthedocs.org/en/stable/guide.html Montagem de Transcriptomas • Trinity: https://github.com/trinityrnaseq/trinityrnaseq/wiki Grabherr MG, et al. (2011) Full-length transcriptome assembly from RNA-Seq data without a reference genome. Nat Biotechnol 29(7):644-652. (http://dx.doi.org/10.1038%2Fnbt.1883) • Cuflinks: http://cole-trapnell-lab.github.io/cufflinks/manual/ Trapnell C, et al. (2012) Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nature protocols 7(3):562-578. (http://www.nature.com/nprot/journal/v7/n3/full/nprot.2012.016.html) • Comparisons and reviews Martin JA , Wang Z (2011) Next-generation transcriptome assembly. Nat Rev Genet 12(10): 671-682. (http://www.nature.com/nrg/journal/v12/n10/full/nrg3068.html) Clarke K, Yang Y, Marsh R, Xie L, Zhang KK (2013) Comparative analysis of de novo transcriptome assembly. Science China Life sciences 56(2):156-162. (http://link.springer.com/article/10.1007%2Fs11427-013-4444-x) Zhao QY, et al. (2011) Optimizing de novo transcriptome assembly from short-read RNA-Seq data: a comparative study. BMC Bioinformatics 12 Suppl 14:S2. (http://www.biomedcentral.com/1471-2105/12/S14/S2) Montagem de genomas de procariotos • Spades: http://spades.bioinf.spbau.ru/release3.6.1/manual.html • Velvet: https://www.ebi.ac.uk/~zerbino/velvet/ Controle de qualidade de genomas • QUAST: http://bioinf.spbau.ru/quast Controle de qualidade de Transcriptomas • BUSCO: http://buscos.ezlab.org/files/BUSCO-Simao-Waterhouse-Bioinformatics-2015.pdf Expressão gênica - Alinhamento • TopHat: https://ccb.jhu.edu/software/tophat/index.shtml Kim D, et al. (2013) TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. Genome Biol 14(4):R36. • Bowtie2: http://bowtie-bio.sourceforge.net/bowtie2/index.shtml Langmead B , Salzberg SL (2012) Fast gapped-read alignment with Bowtie 2. Nat Methods 9(4):357-359. Expressão gênica • eXpress: http://bio.math.berkeley.edu/eXpress/overview.html • EdgeR: https://bioconductor.org/packages/release/bioc/html/edgeR.html • Expander: http://acgt.cs.tau.ac.il/expander/index.html Predição Gênica • Prodigal: http://prodigal.ornl.gov • Glimmer: https://ccb.jhu.edu/software/glimmer/