Master specialité bioinformatique et modelisation

Parcours Bioinformatique et modélisation Specialization in Bioinformatics and Modeling

Photo Stephen Nagy

Master d'informatique Master of Computer science

Responsables Directors :
Alessandra Carbone et and Martin Weigt,
Professeurs, Département d'Informatique Professors, Computer science Department
Coordination : Emilie Auger
Secrétariat Pédagogique BIM, 24-25.216
Tel : +33 (0)1 44 27 53 80
Email : master.info.bim@upmc.fr

Master de Biologie Moléculaire et Cellulaire Master of molecular and Cellular Biology

Responsables Directors :
Ingrid Lafontaine (M2) et and Philippe Lopez (M1)
Professeurs, Département de Biologie Professors, Biology Department
Coordination : Carine Joseph
Secrétariat Master BMC, 33-34.111
Tel : +33 (0)1 44 27 35 35
Email : carine.joseph@upmc.fr

Contexte en M1 et M2 Context in the first and second year of Master

Pour garantir des bases solides en Informatique, BIM propose aux informaticiens une première année (M1) de cours approfondis en informatique partagés avec d’autres parcours et couvrant les connaissances nécessaires en algorithmique, combinatoire et statistiques pour les informaticiens, et aux biologistes des cours de programmation avancée. Tous les étudiants suivent des cours de statistiques et d'introduction aux bases de la biologie, à la bioinformatique et à la modélisation de systèmes biologiques complexes. Ces modules permettent aux étudiants de se familiariser avec la pluridisciplinarité grâce au contenu des enseignements et à travers la collaboration entre étudiants de disciplines différentes, provenant de l'informatique, du parcours BIM au sein de BMC et du parcours de mathématiques appliquées à la biologie. To ensure a solid foundation in computer science, BIM offers IT professionals the first year (M1) advanced courses in computer shared with other specialties and covering the necessary knowledge in algorithms, combinatorics and statistics for computer scientists, and biologists courses Advanced programming. All students take statistics courses and an introduction to the basics of biology, bioinformatics and modeling of complex biological systems. These modules allow students to become familiar with the multidisciplinary teaching content through and through collaboration between students from different disciplines, from computer science, the course BIM in BMC and course applied mathematics to biology.

Le parcours Bioinformatique et Modélisation (BIM) est aujourd'hui partagée entre les mentions Informatique et Biologie Moléculaire et Cellulaire (BMC). Le but principal de ce parcours est de former des étudiants venant d'origines différentes à comprendre les méthodes informatiques et mathématiques pour la biologie et à savoir les exploiter au mieux dans l'analyse de données. The specialization in Bioinformatics and Modeling (BIM) is now shared between the Computer Science and Molecular and Cellular Biology (BMC) departments. The main goal of this specialization is to train students from different backgrounds to understand the computer and mathematical methods in biology and namely exploit them in the data analysis.

Les deux parcours partagent certains modules, et les étudiants suivent en outre des modules de leur mention (informatique ou biologie). Le détails des UE possibles est donné ci-dessous. The two programs share some units, and students also follow the modules of their specialty (computer science or biology). The details of possible teaching units is given below.

	Mention Informatique (BIM) Computer Science Specialty (BIM)	Mention Biologie Moléculaire et Cellulaire (BMC) Molecular and Cellular Biology Specialty (BMC)
Responsables Directors	Pr. Alessandra Carbone, Pr. Martin Weigt, Dept. d'informatique de l'UPMC UPMC Comp. Science Dept	Pr. Ingrid Lafontaine, Pr. Philippe Lopez, Dept. de Biologie de l'UPMC UPMC Biology Dept
Coordination	Emilie Auger Couloir 24-25 - Bureau 216 Tel. office : +33 (0)1 44 27 53 80 mel : master.info.bim@upmc.fr	Carine Joseph Secrétariat Master BMC, 33-34.111 Tel. office : +33 (0)1 44 27 35 35 mel : carine.joseph@upmc.fr

Organisation des enseignements Courses

Le M2 s'articule autour d'un premier semestre de cours (M2S3), où les étudiants peuvent choisir des UE pour un total de 30 ECTS. Il est suivi d'un stage de 5 à 6 mois de février à Août. The second year of the master is composed of a first semester with teaching units (M2S3), where the students can choose units for a total of 30 ECTS. It is followed by an internship from February to August.

Les UE sont partagée avec les mentions d'ANDROIDE, de DAC, d'IMA, de SFPN et de STL du master d'informatique. The teaching units (TUs) are shared with other specializations of the Master of Computer Science: ANDROIDE, DAC, IMA, SFPN, and STL.

	Mention informatique Computer Science Specialty	Mention BMC Mol. Biol. Specialty
UEs obligatoires Mandatory TUs	Meet-U	BIOSYS GENOM
UEs obligatoires Mandatory TUs	PHYG, SPLEX, STRUCT
UEs conseillées Recommended TUs	GENOM
	GPOP, RESYS BIOPOL
	5MM20, 5MM31 (Math)
UEs Ouverture Perspective TUs	Toute UE proposée Any available TU

UEs du premier semestre (M2S3) First semester TUs (M2S3)

Meet-U ↑TOP
E. Laine

Meet-U is collaborative between several universities of Paris area. The goal is to make students, grouped in teams of 4-5, realize a project from A to Z to address an ambitious biological question. An open meeting day is organized at the end of the course to gather the scientific community and showcase students' projects. Students are guided through all the steps of a project realization, from conception to validation. They learn how to use popular tools for collaborative work, how to collectively conduct a project, and how to exploit cloud computing resources. Meet-U réunit plusieurs universités de la région parisienne. Le but est de faire réaliser aux étudiants, regroupés en équipes de 4-5, un projet de A à Z, qui répond à une question biologique ambitieuse. Une journée ouverte à tous est organisée à la fin du cours, pour réunir la communauté scientifique et présenter les projets des étudiants. Les étudiants sont guidés à travers toutes les étapes d’une réalisation de projet, de la conception à la validation. Ils apprennent à utiliser des outils populaires de travail collaboratif, à conduire un projet collectivement, et à exploiter des ressources de calculs distribuées (cloud).

Phylogénie et génomique comparative : méthodes mathématiques et algorithmes (PHYG) ↑TOP
A. Carbone, B. Dujon, H. Richard

Le but de ce cours est de donner une présentation raisonnable et globale d'un sujet en expansion, en touchant surtout les aspects mathématiques de la phylogénie et justifiant les algorithmes de reconstruction phylogénétique associés. Certaines de ces approches mathématiques appliquées à la phylogénie ont été utilisées pour développer des approches en génomique comparative. Elles seront présentées, motivées et développées. Plusieurs questions d'intérêt primaire en évolution des génomes aujourd'hui seront abordées.

Programme prévisionnel :
- Théorie Darwinienne et perspectives historiques, phylogénie morphologique et problèmes associés, phylogénie moléculaire.
- Tour d'horizon des différentes méthodes de reconstruction et de leur pertinence biologique, modèles d'évolution, impact des transferts latéraux sur la théorie darwinienne.
- Reconstruction phylogénétique basés sur les distances, sur la parcimonie et sur la vraisemblance.
- Arbres, sous arbres et superarbres : compatibilité des arbres.
- Estimation en phylogénie. Validation des arbres phylogénétiques et classification hiérarchique.
- Génomes minimaux et génomes ancestraux.
- Bases fondamentales du génie génétique et leurs conséquences en génomique.
- Eléments génétiques mobiles et transferts génétiques.
- Eléments cis-régulateurs dans les séquences génomiques : découverte de motifs, prédiction de sites et modules cis-régulateurs, visualisation sur les cartes génomiques, étude de la divergence et de la conservation des éléments cis-régulateurs au sein des génomes microbiens (bactéries, levures) et chez les vertébrés.
- Nouvelles techniques de séquençage à haut débit, régulation génétique et épigénétique à l'échelle des génomes.
- Génomique comparative et étude des familles de protéines.
- Espaces de gènes et espaces d'organismes prokaryotes à partir de l'analyse de biais des codons dans les génomes.
- Génomique comparative et réseaux moléculaires.
- Prédiction des fonctions et reconstruction du métabolisme par méthodes basées sur l'homologie et la post-homologie.

Génétique des populations (GPOP) ↑TOP
M. Weigt

Objectifs : Introduire la génétique des populations. Discuter les bases de la génétique des populations et faire le lien avec la recherche actuelle basée sur l'accessibilité de données de séquence sur grande échelle.

Programme prévisionnel :
- Populations panmictiques : Equilibre de Hardy-Weinberg ;
- Populations de taille finie : Dérive génétique et fixation d'allèles ;
- Théorie coalescente : le temps jusqu'à l'ancêtre le plus récent ;
- Populations structurées, sous-populations et migration ;
- Mutations, théorie neutre d'évolution ;
- Sélection naturelle, équilibre mutation / sélection ;
- Inférence de la dynamique sélective dans une population mixte de levure ;
- Evolution in vitro : L'expérience à longue durée de Lenski ;
- Variabilité génétique humaine : le projet HapMap.

Statistiques pour la classification et fouille de données en génomique (SPLEX) ↑TOP
P.-H. Wuillemin, N. Sokolovska, J.-D. Zucker

Objectifs : Introduire les méthodes d'analyse de données complexes, depuis l'analyse statistique classique jusqu’aux plus récentes techniques d'apprentissage automatique. Présenter les principales questions analytiques en génomique fonctionnelle et les approches méthodologiques permettant une analyse exploratoire ou la construction automatique de modèles prédictifs en intégrant des données hétérogènes: transcriptomiques, cliniques, génomiques, métabolomiques ou métagénomiques, etc. On abordera en particulier les données haut-débits rencontrées en transcriptomique et métagénomique. Différentes applications médicales seront présentées pour illustrer les problèmes posés par l'analyse du transcriptome.

Programme prévisionnel :
- Statistique non paramétrique ;
- Modèle linéaire et linéaire généralisé ;
- Analyse de données (analyse multivariée, statistique euclidienne, ACP, analyse des correspondances multiples, analyse canonique, etc.) ;
- Méthodes à noyaux ;
- L'étude du transcriptome par les données puces et séquençage (NGS), standards de représentation et stockage, la normalisation ;
- Principales directions analytiques, ressources et approches utilisées, tests statistiques, ajustement multiples, l'échantillonnage et les techniques de validation utilisées pour l'analyse du transcriptome ;
- Etude de l'expression différentielle, ressources et approches d'analyse fonctionnelle transcriptomique ;
- Echantillonnage, classification supervisée (arbre de décision, règles de décision, k-PPV, Séparateurs à Vastes Marges (SVM), etc.) ;
- Classification non supervisée (classification ascendante hiérarchique, k-means, règles d'associations, etc.) des données et applications aux données transcriptomiques dont cinétiques d'expression ;
- L'analyse intégrative des réseaux transcriptionnels : utilité, approches conventionnelles et intégratives, applications ;
- Directions futures de développement d'approches computationnelles intégratives pour la biologie des systèmes dont le "séquençage de nouvelle génération" (NGS).

Réseaux biologiques et biologie des systèmes (RESYS) ↑TOP
H. Isambert

Les composants de pratiquement tous les systèmes biologiques sont fortement intéragissants, et peuvent être caractérisés par des réseaux biologiques complexes. De tels réseaux comprennent plusieurs échelles, par exemple des réseaux entre résidus d'une protéine, des réseaux de régulations sur échelle génomique, des réseaux d'interaction entre individus d'une population, etc. Cette UE introduit des approches mathématiques et algorithmiques pour les réseaux biologiques. Elle introduit les réseaux comme des structures fonctionnelles entre les composants d'un système biologique (en particulier gènes, protéines etc.), discute l'inférence des réseaux et leur analyse fonctionnelle, et aborde ensuite l'évolution de ces réseaux par duplication-divergence de gènes et modèles de fixation de gènes dupliqués.

Programme prévisionnel :
- Introduction aux réseaux biologiques (combinatoire de l'expression de gènes) ;
- Propriétés des grands et petits réseaux biologiques et recherche de motifs dans les réseaux ;
- Découverte de voies métaboliques par recherche de chemins dans les réseaux métaboliques ;
- Analyse globale des réseaux métaboliques : balance des flux métaboliques ;
- Evaluation de méthodes de clustering de graphes ;
- Génomes, réseaux de régulation et de signalisation ;
- Inférence des réseaux de régulation génétiques : Motifs de l'ADN, ARACNe ;
- Réseaux d'interaction protéine-protéine et détection de sous-réseaux : complexes protéiques, voie métaboliques... ;
- Evolution : des gènes aux organismes, duplication de gènes, duplications de génomes ;
- Modèles d'évolution des réseaux biologiques par duplication-divergence de gènes ;
- Modèles de dynamique de population pour fixation de gènes dupliqués ;
- Réseaux multi-échelle de co-évolution : co-évolution résidu-résidu, interface-interface, protéine-protéine ;
- Diffusion des épidémies et modèles sur réseaux.

Biologie systémique : structure, dynamique et évolution des réseaux génétiques (BIOSYS) ↑TOP
F. Devaux, D. Thieffry, J. Cognet

La biologie des systèmes élabore de nouveaux modèles quantitatifs permettant de comprendre l’organisation et le fonctionnement du vivant. Ce cours, organisé en partenariat avec l’Ecole Normale Supérieure - Paris, a pour objectif de former les étudiants aux concepts et aux techniques de la biologie des systèmes appliquée aux grandes questions de la biologie cellulaire contemporaine. Il aborde plus particulièrement l’analyse expérimentale et la modélisation in silico du fonctionnement des réseaux de régulation dans la cellule. Il traite des approches expérimentales d’analyse à très haut débit des réseaux cellulaires et des méthodes in silico de reconstruction de la structure et de l’évolution des réseaux de régulation.

Programme prévisionnel :
- Introduction à la biologie systémique et aux réseaux génétiques ;
- Séquençage haut débit ;
- Normalisation, regroupement et annotation fonctionnelle ;
- Analyse différentielle ;
- Inférence de réseau ;
- Évolution des réseaux de régulation.

Algorithmes en bioinformatique structurale: protéines et ARN (STRUCT) ↑TOP
E. Laine, H. Isambert, Y. Ponty, M. Boccara

La structure des protéines et des ARN joue un rôle primordial et confère à ces biomolécules leurs propriétés biologiques. Sa modélisation est devenue un domaine de recherche interdisciplinaire entre physique, biologie et informatique. L'objectif de ce cours consiste à présenter les approches bioinformatiques qui permettent : 1. de prédire la structure d'une protéine au départ de sa séquence, ainsi que d'étudier, d'analyser et de classifier les structures protéiques, 2. de présenter les avancées récentes et d’élucider les problématiques ouvertes autour des structures des ARN.

Programme prévisionnel :
- Notion de protéines et de structures de protéines ;
- Alignement de structures protéiques et classification ;
- Fonctions d'énergie / fonctions de score pour la modélisation de structures protéiques ;
- Méthodes de prédiction de la structure secondaire de protéines ;
- Méthodes de prédiction de la structure tertiaire de protéines ;
- Prédiction de structures secondaires de l'ARN, programmation dynamique, structure la plus probable (MFE / Nussinov + Zuker) vs structure moyenne (ensemble Bolzmann / McCaskill +...) ;
- Représentation et comparaison de structures de l'ARN; programmation dynamiques complexes (RNAForrester, NestedAlign, MIGAL ...) / approche heuristique (DIAL, DART) / recherche de petits motifs (FR3D) ;
- Dynamique de repliement et d'interaction des ARN; échelles de temps physique; repliement cotranscriptionnel ; prédiction structure et chemin de repliement par simulation multi-échelle. Structures fonctionnelles métastables ;
- Pseudonœuds et ''vrais'' nœuds ; topologie du repliement et conséquence pour la statique et la dynamique de repliement; modèles physiques et prédiction par simulation ;
- Biologie systémique de l'ARN; design structure et chemin de repliement. Design de systèmes de régulation ARN inspiré de systèmes naturels (ARNnc bactérien / riboswitches). Auto-assemblage ARN synthétique et bactérien ;
- Régulation ARN chez les eucaryotes; miARN, siARN, silencing (piARN, etc... splicing, riboswitch,...) ;
- Régulation ARN chez les procaryotes et virus; ARNnc et riboswitches chez bactéries / archae / virus / viroids.

Des données de séquences à la génétique évolutive (GENOM) ↑TOP
P. Lopez, G. Achaz

Le thème général de cette unité d'enseignement est l'interprétation biologique des données de séquences. Comment, à partir d'un ensemble large de séquences génétiques, peut-on proposer une histoire biologique ? Illustrant les différents aspects de la génétique, plusieurs axes complémentaires seront développés. Le module contient une moitié de cours et une moitié de projet. Les étudiants choisiront un projet dans la liste ci-dessous (non-exhaustive). La présentation orale de leurs projets permettra de révéler les multiples facettes de la génomique.

Programme prévisionnel :
- Analyse évolutive des gènes et génomes par les arbres et les réseaux,
- Transfert latéral et éléments mobiles, implications évolutives,
- Les causes de l'horloge moléculaire,
- Inférence de scénarios à partir de données intra-espèce,
- SNPs et déséquilibre de liaison, outils pour l'étude des caractères complexes,
- Génomique à haut débit, apport des puces dans l'étude de l'expression et de la régulation des gènes,
- Evolution expérimentale,
- Génétique des populations chez l'homme.

Dans le cadre des projets élaborés par les étudiant(e)s, l'idée est d'explorer les différents aspects biologiques d'un unique jeu de données commun composé d'une collection de génomes intra- et inter-espèces. Les projets sont conçus pour allier analyse de données, algorithmique ou modélisation, puis interprétation biologique des résultats. Chaque projet est supervisé par un ou plusieurs enseignants spécialistes du sujet.

Modélisation des biopolymères et de leurs interactions à différentes échelles (BIOPOL) ↑TOP
J. Cognet

Présenter les méthodes et les techniques de la modélisation moléculaire qui sont essentielles pour comprendre la conformation des macromolécules biologiques, leurs interactions ainsi que leurs fonctions, et qui sont indispensables pour concevoir des molécules à visée thérapeutique.

Programme prévisionnel :
- La modélisation en perspectives : modélisation en sciences physiques ou biologiques ; modélisations des molécules et algèbre linéaire ; justesse et précision des modèles ; Monte-Carlo et mathématique.
- Modélisation des acides nucléiques : polymères linéaires et longueur de persistance, génération de chaines ; tiges et boucles dans les acides nucléiques.
- Dynamique moléculaire, réalité virtuelle et approches interactives.
- Repliement des protéines globulaires.
- Amarrage ("docking") des complexes protéine-protéine.
- Modélisation multi-échelle de la chromatine pour la génomique avec Blender.

UEs du Master de mathématique (semestres 1 et 2) Mathematics master TUs (semester 1 and 2)

Modeling of growth and regeneration processes in multi-cellular tissues involving agent-based models (5MM20) ↑TOP
D. Drasdo

Systems biology has become a rapidly growing field in which theoreticians (mathematicians, computer scientists, engineers, physicists) collaborative closely with experimental partners on biological questions. Currently, systems medicine is emerging addressing in the same way clinical applications. Both, systems biology and medicine address increasingly the multicellular scale of cell populations, tissues or whole organs, expressing cellular decisions during tissue organization processes in terms of molecular reactions, signaling, or cell metabolism. In this lecture, we give an overview of current agent-based models in which each cell is represented individually. Such models are particularly suited to include intracellular reactions within each individual cell. We discuss mathematical background and the computational algorithms of the models at each scale, and give application examples from biology and medicine. Moreover, we briefly discuss the interface of agent-based models with continuum descriptions, and image analysis chains to quantify image information on spatial-temporal processes in living matter, and give a multiscale example spanning molecular, cell, tissue, organ, and body scale.

Required knowledge:
It is useful (but not compulsory) to have basic knowledge in stochastic processes and to be able to code small problems in C, C++, or mathlab.

Content:
Stochastic processes (basics), modeling of chemical reactions, equations of motion, biomechanics (basics), compartment models, growth of tumor / non-tumor cell populations, organ modeling, image analysis (basics).

Asymptotic analysis and computational methods. Applications to molecular, cellular biology and neurobiology (5MM31) ↑TOP
D. Holcman

The goal of this class is to present modeling methods to study cellular microdomains and in particular cytoplasmic (plasmid and viral) trafficking, nucleus organization and the function of the cellular microdomains such as photoreceptors, dendritic spines or synapses. Most of these microdomains are still unavailable to direct experimental recordings and mathematical modeling and simulations is used to analyze some aspect of their functions.

Required knowledge:
notion of partial differential equations, probability, some notions of cellular biology.

Content:

Brownian motion, Ito calculus. Dynkin’s equation, Fokker-Planck equation, Short and long time asymptotics. Mean first passage time. The small hole theory with a attracting (resp. repuslive) potential. Homogenisation theory with many small holes. Stochastic chemical reactions in a microdomain. Modeling synaptic transmission, synaptic weight. Receptor trafficking, synaptic current, Dwell time of a receptor at the synapse. Calcium dynamics in a dendritic spine. Cellular trafficking. Modeling of Neuron-Gli interactions. Summary : Toward a quantitative approach in cellular biology.