Si vous vous intéressez à la science des données, nous vous conseillons de plonger dans les ressources mises à disposition par Chanin Nantasenamat. Ce professeur de bioinformatique et spécialiste en data mining a créé la chaîne YouTube « Data Professor ». Son kit de démarrage en science des données est une mine d’outils et de méthodologies pour vous former à la data science, mais aussi approfondir vos connaissances.
L’auteur rappelle en introduction que la science des données est pluridisciplinaire. Elle demande des compétences variées, techniques et analytiques. Qui font appel aux mathématiques, aux statistiques, à la programmation. Car un scientifique de données ou data scientist aura besoin de savoir à la fois collecter les données, les pré-traiter (nettoyage, tri, etc.), faire l’analyse exploratoire de données, préparer des visualisations de données, réaliser des analyses statistiques, utiliser du machine learning, programmer et maîtriser l’ingénierie logicielle.
Besoin d’un matériel informatique plus puissant pour expérimenter en data science ? Vous trouvez aussi dans cet article des explications sur des ressources cloud gratuites pour faire tourner vos analyses, comme Google Colab et Kaggle Notebook.
Enfin, côté logiciels ils sont nombreux dans l’univers de la data science. Alors par quoi commencer ? L’auteur rappelle que l’environnement de développement (l’Integrated Development Environment -IDE) est la colonne dorsale de tout projet en science des données. Comme Visual Studio Code (VS Code), Atom, Spyder ou encore PyCharm. C’est cet IDE qui centralisera tout votre code et vos données. Il est donc important de bien le choisir, en fonction de vos contraintes (héritage technologique, budget, langage de programmation, etc.).