Vorlesung “Computational Omics”

Zeitplan Sommersemester 2017

Vorlesung: Do 08:30-10:00 in OH14 / E02
Praktikum: Do 12:15-13:45 in OH14 / E02 (Präsenzzeit)
Material:  siehe unten
Prüfungen: siehe unten; der Prüfungsstoff umfasst insbesondere die Projektaufgaben.

Implementierung des traceback.

 Do 20.04. Vorlesung: Einführung. DNA-Struktur. Anzahl der DNA-Sequenzen der Länge k (k-mere). DNA-Sequenzierung: Technologien. Dateiformate (FASTA, FASTQ). Phred-Qualitätswerte.
Folien: https://docs.google.com/presentation/d/13g2PNJhEPi4Sv467zAHEsWqo_xhrlr5T8057cDji8D8/
Praktikum: Poisson-Approximation der Binomialverteilung. Einführung in Python: Nukleotid-Häufigkeiten in FASTA- und FASTQ-Dateien zählen
Aufgaben: Übersichtsvortrag von Dr. Elaine Mardis (s.o.) anschauen und zusammenfassen
 Do 27.04. Vorlesung: Das Fehlerkorrekturproblem. k-mer Statistiken. Bloom-Filter: Theorie und Praxis.
Folien: https://docs.google.com/presentation/d/1-Z1sxLk_OomL_OQt2P4zjpJ-ANtzqOcTIhTGt0btu_I/
Praktikum: “Lighter” zur Fehlerkorrektur in NGS-Daten.
Material, Aufgaben unter https://gitlab.com/svenrahmann/practical-computational-omics im Verzeichnis 2017/week02-bloomfilter/
Aufgaben: Lighter-Artikel lesen und zusammenfassen.
 Do 04.05. Vorlesung: Genomassemblierung. Ansätze: Overlap consensus, De Bruijn Graphen.
Praktikum: Idee: rRNA-Assemblierung mit Methoden ähnlich zu Lighter, dann Omnitigs erstellen.
Aufgaben: Material zur Genomassemblierung, insbes. Folien von Tomescu, lesen und zusammenfassen. Die weiteren Reviews sind optional, aber hilfreich.
Do 11.05. Achtung: Keine Veranstaltung um 08:30-10:00 !
Vorlesung + Praktikum: Modellierung des Genomassemblierungsproblems, weitere Übung zur Modellierung (Netzwerkmodule)
 Do 18.05. Vorlesung: Aufgabenstellungen in der Metagenomik + Xenograft-Analysen, k-mer-Profile, succinct hashing
Praktikum: Speicherbedarf von Hashtabellen; bisherige Projektideen
Aufgaben:
Literatur zu MaxBin, MaxBin2.0, xenome (siehe repository)
Do 25.05. Feiertag: Himmelfahrt
Do 01.06. Vorlesung: Entdeckung von Varianten aus Genomdaten: Bayes’sche Statistik, Genotyp-Phänotyp-Modelle
Praktikum: Modellierung des Phänotyps an Hand des Genotyps
Aufgabe:
Do 08.06. Vorlesung: Transkriptomik. Gen-Expressionsdaten. Micoarrays und RNA-seq. Problem der Normalisierung. Diagnostische Plots. Quantilnormalisierung.
Praktikum: Normalisierung mit Jupyter-Notebooks.
Aufgabe: Implementierung der Quantilnormalisierung.
 Do 15.06. Feiertag: Fronleichnam
Do 22.06. Vorlesung: Wiederholung Normalisierung. Differentielle Genexpression. Statistische Tests.
Praktikum: Datensätze zum Testen: s. repository.
Aufgaben: Differentiell exprimierte Gene finden.
Do 29.06. Vorlesung: Proteomics, Computational Mass Spectrometry. De-novo Sequenzierung von Peptiden über Präfix- und Suffixmassen. Modellannahmen, Exponentialzeit-Algorithmus, dynamische Programmierung.
Praktikum: Simulator und Löser für Peptid-Sequenzierungsprobleme.
Aufgabe:
Do 06.07. Vorlesung: Erweiterung des Modells: fehlende und zusätzliche Massenpeaks, Peaks gleicher Masse in Präfixen und Suffixen.
Praktikum: Erweiterung des Peptid- und Spektrum-Simulators.
Aufgabe: s.o.; Erweiterung des Lösers.
Do 13.07. Vorlesung: Analyse metabolischer Netzwerke: Stöchiometrische Matrix, Beschreibung zulässsiger Flüsse, Optimierungsprobleme.
Praktikum/Aufgabe: Berechnung der Basis eines Nullraums.
 Do 20.07. Vorlesung: Algorithmus zur Berechnung von Elementarmoden: nullspace method
Praktikum/Aufgabe: Diskussion der Projekte.
 Do 27.07. Vorlesung: Optimierung metabolischer Netzwerke: combined reaction deletion
Praktikum/Aufgabe: Fragen zur Prüfung.

Material zur Vorlesung

Git-Repository: https://gitlab.com/svenrahmann/practical-computational-omics
Zur Freischaltung bitte eine E-mail mit dem gitlab-Benutzernamen an den Veranstalter schicken.

DNA/RNA Sequencing Technologies

Genome Assembly

Duplicate Rate and Diversity Estimation


Vorlesungskommentar (April 2017)

Die Vorlesung gibt eine Übersicht über die aktuellen informatischen Methoden zur Daten­analyse in den in den “Omiken” der Lebens­wissenschaften (Genomik, Transkriptomik, Epigenomik, Proteomik, Metabolomik, Interaktomik, …). Sie besteht aus mehreren Einheiten, die sich jeweils einem dieser Themenbereiche und zugehörigen Technologien widmen. Die diskutierten Technologien und die daraus entstehenden Daten können sich von Jahr zu Jahr ändern, da die technologische Entwicklung auf diesem Gebiet sehr schnell voranschreitet. Wichtig ist, dass in der Vorlesung theoretische Grundlagen und Prinzipien vermittelt werden. Diese werden beim Studium aktueller Arbeiten zu Technologien und Algorithmen vertieft und von den Studierenden ausgearbeitet. Im zugehörigen Praktikum werden eigene Miniprojekte bearbeitet. Beispiele für Themen sind:

  • Hochdurchsatz-DNA-Sequenzierung: Fehlerkorrektur
  • Genomassemblierung
  • Variantendetektion in Genomen
  • Massenspektrometrie: Zusammensetzung eines Moleküls aus Masseninformationen
  • Proteinidentifikation aus Massenfingerprints
  • Ionenmobilitätspektrometrie in der Metabolomik

In den Einheiten wird jeweils eine Einführung in die zugrundeliegenden Technologien gegeben; dabei wird der Art und Erzeugung der Daten besondere Aufmerksamkeit gewidmet. Es schließen sich typische Fragestellungen an, die aktuell anhand der gewonnenen Daten gestellt und beantwortet werden können. Dazu werden jeweils die wichtigsten Datenanalysemethoden besprochen. Diese unterteilen sich häufig in sogenannte low-level-Verfahren zur Vorverarbeitung, die sich vor allem nach der Art der Daten richten und high-level-Verfahren aus dem Bereich des maschinellen Lernens, die die gewünschten Informa­tionen aus den Daten extrahieren. Aufgrund des hierbei auftretenden Datenvolumens stehen dabei besonders ressourceneffiziente Algorithmen im Vordergrund. Aus statistischer Sicht geht es zusätzlich darum, sinnvoll mit dem Problem hochdimensionaler Daten bei kleiner Stichprobengröße (n < p – Problematik) umzugehen.

Prüfungen

Diese Veranstaltung gibt es als Master-Vertiefungsmodul (2V+2P; 6 LP) INF-MSc-514, sowie als Diplom-Spezialvorlesung mit dem gleichen Umfang in den SpGs 4,6,7 nach DPO’01.
Vorgehen zur Prüfungsanmeldung:

  • Prüfungstermin mit Prof. Rahmann per e-mail absprechen
  • Prüfungsanmeldung bei Frau Jankord (OH14 / R2.39) unterschreiben lassen, wird von Frau Jankord zur Prüfungsverwaltung geschickt.

Mögliche Prüfungsleistungen im Master-Vertiefungsmodul INF-MSc-514

  • mündliche Prüfung von ca. 25 Minuten Dauer

Mögliche Prüfungsleistungen im Diplom (SpG 4,6,7)

  • Leistungsnachweis (Schein), unbenotet; durch Besuch der Vorlesung, erfolgreiches Bearbeiten der Praktikumsaufgaben, abschließendes Gespräch
  • mündliche Fachprüfung von ca. 30 Minuten Dauer zu Vorlesung und Praktikum

Zeitplan Sommersemester 2015

Vorlesung: Do 08:30-10:00 in OH14 / E02
Praktikum: Do 14:00-16:00 in OH14 / 104 (Präsenzzeit)
Material:     siehe oben
Prüfungen: Terminvereinbarung: siehe oben. Der Prüfungsstoff umfasst insbesondere die Projektaufgaben!

 Do 09.04. Vorlesung: Einführung. DNA-Struktur. Anzahl der DNA-Sequenzen der Länge k (k-mere). DNA-Sequenzierung: Technologien. Dateiformate (FASTA, FASTQ). Phred-Qualitätswerte.
Folien: https://docs.google.com/presentation/d/13g2PNJhEPi4Sv467zAHEsWqo_xhrlr5T8057cDji8D8/
Praktikum: Poisson-Approximation der Binomialverteilung. Einführung in Python: Nukleotid-Häufigkeiten in FASTA- und FASTQ-Dateien zählen
Aufgaben: Übersichtsvortrag von Dr. Elaine Mardis (s.o.) anschauen und zusammenfassen
 Do 16.04. Vorlesung: Das Fehlerkorrekturproblem. k-mer Statistiken. Bloom-Filter: Theorie und Praxis.
Folien: https://docs.google.com/presentation/d/1-Z1sxLk_OomL_OQt2P4zjpJ-ANtzqOcTIhTGt0btu_I/
Praktikum: “Lighter” zur Fehlerkorrektur in NGS-Daten
Aufgabe: Lighter-Artikel lesen und zusammenfassen
 Do 23.04. Vorlesung: Das Duplikatratenproblem (auch: Diversitätsproblem). Subsampling.
Praktikum: Lösung des Diversitätsproblem über lineare Optimierung.
Aufgaben: Material (s.o.) zum Diversitätsproblem lesen und zusammenfassen.
Hinweise: Bei wenig Zeit ist es am besten, erst das Efron&Thisted paper zu lesen, dann in das Daley&Smith paper zu schauen und das preseq-Software-Manual anzusehen.
 Do 30.04. Vorlesung: Funktionsextrapolationsansatz zur Lösung des Diversitätsproblems. Diversitätsmaßzahlen.
Praktikum: Zähl- und Besetzungszahl-Vektoren (counting vectors and occupancy vectors). Python-Code.
Aufgabe: Studium der dupre- und preseq-Software an verschiedenen (ausgedachten, gefundenen) Beispielen
 Do 07.05. Vorlesung: Genomassemblierung (overlap consensus vs. DeBruijn graphs). Contig-Generierung mit dem DeBruijn Graph. Repräsentierung des DeBruijn Graphen mittels cascading Bloom filters.
Praktikum: Minia-Software
Aufgabe: Beide Artikel (WABI’12 und WABI’13) auf der Minia-Webseite lesen.
 Do 14.05. Feiertag: Himmelfahrt
 Do 21.05. Vorlesung: Genstruktur, Genexpressionsschätzung durch Zählen von reads mittels eindeutiger k-mere. Datenstrukturen für dünnbesetzte k-mer Indexe.
Praktikum: Miniprojekt von Marcel Bargull. Speicherbedarf einfacher Datenstrukturen für dünnbesetzte k-mer Indexe. Fragen zu Minia.
Aufgabe: paper: “Retrieval and Perfect Hashing Using Fingerprinting” von Ingo Müller, Peter Sanders, Robert Schulze, Wei Zhou. Experimental Algorithms. LNCS 8504, 2014, pp 138-149. Springer-Verlag.
 Do 28.05. Vorlesung: Genexpression. Differentielle Expression. Normalisierung von Genexpressionsdaten.
Praktikum: Besprechung des Fingerprinting papers
Aufgabe: keine
 Do 04.06. Feiertag: Fronleichnam
 Do 11.06. Pangenom-Workshop in Leiden, NL
 Do 18.06. Vorlesung: Epigenetik. Methylierungsanalysen: whole genome bisulfite sequencing. Annahmen für die Analyse.
Praktikum: Ein LASSO-Ansatz zur Detektion differentiell mehtylierter Regionen (Nina Hesse)
Aufgabe: paper zur Detektion differentiell methylierter Regionen
(Ab 15:00: Sommerfest der TU Dortmund)
 Do 25.06. Vorlesung: Bayes-Ansatz, LASSO, konvexe Optimierung
Praktikum: Projektideen
Aufgabe: Korrekturlesen/Review eines wissenschaftlichen Artikels,
 Do 02.07. Vorlesung: Array-based comparative genomic hybridization (Array-CGH; Corinna Ernst)
Folien: https://docs.google.com/presentation/d/1rYjgUloBw8Y0M2tE_T89x8uRwECmEn5raMLIw38Gwyo/
Praktikum/Aufgabe: paper
 Do 09.07.
 Do 16.07.

Zeitplan Wintersemester 2011/12

Vorlesung: Do 08:30-10:00 in OH14 / R2.03
Praktikum: Fr 12:00-14:00 in OH14 / R2.04 (Präsenzzeit)
Betreuung: Dominik Kopczynski
Die Aufgaben werden in Eigenregie bearbeitet. Dafür steht der (Linux-)Pool des LS XI (OH14 / R2.04) grundsätzlich zur Verfügung.
Zu den Präsenzzeiten besteht die Gelegenheit zu Fragen; ausserdem sollen die gelösten Aufgaben vorgestellt werden
Material:    Aktueller Skript-Entwurf vom 01.12.11. Achtung! Das Skript ist auf Englisch und nur eine knappe Zusammenfassung des Stoffs.
Projektaufgaben stehen am Ende jedes Kapitels.
Hauptziel der Veranstaltung ist, dass Sie möglichst viele Projektaufgaben erfolgreich bearbeiten!
Prüfungen: Terminvereinbarung: siehe oben. Der Prüfungsstoff umfasst insbesondere die Projektaufgaben!

 Do 13.10. Introduction. Administrative business.
Technology: PCR. Applications of PCR.
Project: Please do the “Project” sections in Chapter 1 (especially “Simulation”, “Computation”). Deadline: Fr 4.11.
 Do 20.10. no class because of an SFB876 event
 Do 27.10. Mathematics of the PCR reaction. Estimation problem.
 Do 03.11. Genomics, transcriptomics, epigenomics:
Sequencing Technologies (cf. Material for videos), data acquisition, data formats.
Slides “Today’s and Tomorrow’s Sequencing Technologies and their Bioinformatic Challenges“.
 Do 10.11. Scientific questions addressed by sequencing
Project: Please do the “Project” sections in Chapter 2. Deadline: 01.12.
File: solid-5108-demo.csfasta.gz.
 Do 17.11. Trasncriptomics: Model-based analysis of RNA-seq data. Preprint by Lior Pachter.
 Do 24.11. Transcriptomics with DNA microarrays: Principle, technology, data acquisition.
 Do 01.12. DNA microarrays: data formats, data reduction, multi-array normalization
Project: Please do the “Project” sections in Chapter 3. Deadline: 23.12.
Material: Format specification of .cel files. Arrays: 161.cel, 162.cel, 163.cel.
 Do 08.12. Transcriptomics: Clustering and Classification
 Do 15.12. Metabolomics: Multi capillary columns and ion mobility spectrometry (MCC/IMS): Technology, data acquisistion, preprocessing
 Do 22.12. Metabolomics: MCC/IMS: peak modelling, data reduction, feature extraction
Project: Please do the “Project” sections in Chapter 4. Deadline: 20.01.12
Material: gaussdata.txt, imsmeasurement.csv
 — 2012 — winter holidays
 Do 12.01. Proteomics/metabolomics: Liquid and gas chromatography with mass spectrometry (LC/MS and GC/MC).
Identification of molecules from their masses.
 Do 19.01. Interactomics: Experimental and computational methods for inferring protein interactions
 Do 26.01. Interactomics: Dependencies among interactions, protein hypernetworks.
 Do 02.02. Project presentations, Summary.