1. Accueil
  2. FR
  3. Étudier
  4. Offre de formation
  5. UE
GEST-S420

Advanced Data Science and Machine Learning

année académique
2024-2025

Titulaire(s) du cours

Pierre DEVILLE (Coordonnateur)

Crédits ECTS

5

Langue(s) d'enseignement

français

Contenu du cours

Nous sommes actuellement submergés de données. Elles envahissent notre monde. La plupart de nos activités quotidiennes laissent aujourd'hui des traces numériques: envoyer des e-mails, surfer sur le web, appeler un ami, publier du contenu sur un réseau social ou effectuer un paiement au supermarché. Par ailleurs, on assiste depuis quelques années à une explosion des objets connectés. Les smartphones évidemment, mais aussi des équipements plus spécifiques dans le domaine de la santé ou de la domotique par exemple. Le nombre de ces d’appareils connectés générant, collectant et partageant des données pourrait atteindre 75 milliards en 2025. D'autres chiffres liés à cette génération exponentielle de données sont stupéfiants: plus de 90% des données présentes sur la planète ont été générées au cours des deux dernières années seulement. Le volume de données générées double chaque année et en 2023, la taille de l'univers numériques atteindra alors environ 100 milliards de gigaoctets et la valeur du marché du big data sera d’environ 200 milliards de dollars.

Simultanément, notre capacité à collecter et stocker ces données augmente également extrêmement rapidement, ce qui signifie que nous sommes désormais en mesure de suivre cette énorme quantité d'informations. Cette croissance fantastique de l'information numérique est ce que nous appelons Big Data: des données que nous générons et acquérons beaucoup plus rapidement que la vitesse à laquelle nous les traitons, les analysons et les exploitons.

En effet, malgré ce flot de traces numériques, peu d'initiatives ont réussi à exploiter efficacement ces données à grande échelle pour résoudre les nombreux défis auxquels nous sommes confrontés dans le secteur de l'information. Ce constat est en partie dû à l'émergence de données non structurées de plus en plus nombreuses telles que les images, vidéos ou textes (qui représentent plus de 80% des données générées) et à l'insuffisance des approches traditionnelles pour analyser efficacement ce type de données.

Par conséquent, de nouveaux concepts et approches visant à résoudre ces problèmes ont été introduits au cours des dernières années. De nombreux jargons marketing ont été utilisés pour décrire ce nouveau paradigme analytique: Intelligence Artificielle, Advanced Analytics, Machine Learning, Big Data, Deep Learning ou encore Cognitive Computing.

Compte tenu de l'émergence et de l'attention grandissante de tels concepts dans l'industrie, mais aussi de l'apparente complexité et de la confusion qu'ils peuvent apporter, nous pensons qu'il est crucial de fournir une meilleure compréhension de l'intelligence artificielle dans le contexte du Big Data. Dans ce cours, nous effectuerons une analyse approfondie de certains algorithmes et techniques de pointe en intelligence artificielle, ainsi que sur la manière dont les données à grande échelle peuvent être stockées et gérées.

Plus concrètement, le cours sera structuré autour de 4 modules principaux, chacun contenant un mélange théorique et pratique. Des experts issus de différents milieux industriels interviendront également au cours du quadrimestre.
 

Module 1 - NoSQL and distributed systems

Principes et avantages des architectures de bases de données non relationnelles et distribuées, avec une introduction pratique à MongoDB via Python.

Module 2 - Recommendation Engine

Analyse des différents types d'algorithmes de machine learning liés aux systèmes de recommandations: content-based, collaborative filtering et factorisation matricielle.

Module 3 - Image Recognition

Introduction aux réseaux de neurones et deep learning dans le contexte du traitement d'image, allant des simples modèles de perceptrons aux réseaux de neurones convolutifs.

Module 4 - Natural Language Processing

Ce module se concentrera sur l'analyse de données textuelles à grande échelle: principes textuels de base, apprentissage automatique de représentation sémantique, ainsi que le traitement avancé de la parole (speech recognition).

Objectifs (et/ou acquis d'apprentissages spécifiques)

  • Comprendre les opportunités, les défis et les limites associés à l'intelligence artificielle dans un contexte Big Data.
  • Gérer et exploiter différents types de données à grande échelle dans le cadre de bases de données NoSQL.
  • Découvrir, comprendre et exploiter des algorithmes d'intelligence artificielle de pointe pour résoudre des problèmes business pratiques.

Pré-requis et Co-requis

Connaissances et compétences pré-requises ou co-requises

  • Notions de base en Python.
  • Principes de base d’analyse de données.

Méthodes d'enseignement et activités d'apprentissages

30h de module (Introduction théorique et session pratique sur Python Notebook).

6h de speaker externes.

2 projets de groupe (3 étudiants).

Contribution au profil d'enseignement

  • Intégrer des processus scientifiques et technologiques pour formuler un enjeu commercial dans un problème bien défini et proposer une solution.
  • Adopter une approche scientifique de la collecte, de la recherche et de l'analyse de données et communiquer les résultats avec des arguments clairs, structurés et avancés.
  • Faire preuve d'esprit critique et développer une approche autonome de l'apprentissage.
  • Appliquer des techniques quantitatives et qualitatives afin d'appuyer une analyse, en exploitant des données à l'aide de logiciels bureautiques et statistiques standard.
  • Travailler et communiquer efficacement au sein d'une équipe dans un environnement international et multiculturel.

Autres renseignements

Contacts

pierre.deville at ulb.be

Campus

Solbosch

Evaluation

Méthode(s) d'évaluation

  • Examen écrit
  • Projet

Examen écrit

Projet

Langue(s) d'évaluation

  • anglais

Programmes