LCC 115 - Interview de Sam Bessalah sur la data science, Hadoop et Mesos
Dans cet épisode, on discute avec Sam Bessalah de ce “nouveau” métier qu’est le data scientist. On explore aussi l’univers Apache Hadoop et l’univers Apache Mesos. Ces endroits sont pleins de projets aux noms bizarres, cette interview permet de s’y retrouver un peu dans cette mythologie.
Enregistré le 16 décembre 2014
Téléchargement de l’épisode LesCastCodeurs-Episode-115.mp3
Interview
Ta vie, ton oeuvre
@samklr
Ses présentations, encore ici et là
Data scientist
Késako ?!
C’est nouveau ? On a toujours eu des données pourtant dans nos S.I. ?!
Le job le plus sexy du 21eme siecle ?
Drew conway’s Data Science Venn diagram
Traiter les données, les plateformes
MapR, Hadoop, … C’est Quoi ? C’est nouveau ? Ca vient d’où ? Comment ça marche ? À quoi ça sert ?
Ca s’intègre à tout ? Et nos sources de données legacy (Mon bon vieux mainframe et son EBCDIC) ?
Où sont passés mes EAI, ETL, et autres outils d’intégration B2C/B2B ?
EAI
ETL
EBCDIC
BI (Business Intelligence)
Hadoop
MapReduce
Doug Cutting
Apache Lucene - moteur de recherche full-text
Apache Hadoop - plateforme de process distribués et scalables
HDFS - système de fichier distribué
Apache Hive - data warehouse au dessus d’Hadoop offrant du SQL-like
Terradata
Impala - database analytique (“real time”) SQL queries etc
Apache Tez - directed-acyclic-graph of tasks
Apache Shark remplacé par Spark SQL
Apache Spark - Spark has an advanced DAG execution engine that supports cyclic data flow and in-memory computing
Apache Storm - process de flux de données de manière scalable et distribuée
Data Flow
Machine Learning - apprendre de la donnée
Et l’infrastructure dans tout ça ?
De nos bons vieux serveurs qui remplissent les salles machines au cloud (IAAS, PAAS), en passant par la virtualisation (), les conteneurs (XLC, Docker, …) …. Des ressources à gogo c’est bien mais comment les gérer ?
Apache Mesos
Apache Mesos
Comment démarrer Mesos
Tutoriaux
Data Center OS de Mesosphere
Presentation de Same à Devoxx sur Mesos
Mesos et les container docker
Cluster Management and Containerization by Benjamin Hindman
Integration continue avec Mesos par EBays
Docker
Docker
Démarrer un cluster Spark avec Docker
Shell Spark dans Docker
Docker et Kubernetes dans Apache Hadoop YARN
Cluster Hadoop sur Docker
Docker, Kubernetes and Mesos
cgroups
LXC
Docker vs LXC
Marathon
Chronos
Code de Chronos
Aurora
Kubernetes
Kubernetes workshop
Oscar Boykin
Scalding
Présentation Scala + BigData et une autre
Apache Ambari
Comment je m’y mets ?
Comment devient-on data scientist ? (se former, ouvrages de références, sources d’infos, …) Mesosphere
Cours de Andrew Ng sur le Machine Learning
Introduction to data science sur Coursera
Kaggle
MLlib
Mahout
R
Scikit-learn (Python)
Machine Learning pour Hackers (livre)
Scala
TypeSafe Activator
iPython NoteBooks
Autres référence iPython NoteBooks
Notebooks temporaires en line - démarre un container docker sur rackspace gratuitement (pour vous)
Des notebooks
Parallel Machine Learning with scikit-learn and IPython
Visualiser les notebooks en ligne sans les télécharger
Spark / Scala notebooks for web based spark development
http://zeppelin-project.org/
Spark et Scala avec un notebook ipython
Nous contacter
Contactez-nous via twitter http://twitter.com/lescastcodeurs
sur le groupe Google http://groups.google.com/group/lescastcodeurs
ou sur le site web http://lescastcodeurs.com/
Flattr-ez nous (dons) sur http://lescastcodeurs.com/
En savoir plus sur le sponsoring ? sponsors@lescastcodeurs.com