En qualité d’ingénieur système, j’ai pu travaillé sur les technologies de collecte et d’analyse de données, en mettant en place chez Air France, une solution entière dédiée à cela.

J’ai en effet mis en place l’infrastructure et configuré les serveurs pour supporter 10k messages / seconde. Lorsque l’on atteint une telle quantité de données, il faut s’assurer de ne pas les perdre et instaurer une stratégie de haute disponibilité de la donnée (redondance, répliques etc.).

Elasticsearch est habituellement distribué avec Logstash pour la collecte et le traitement de la donnée, mais aussi Kibana pour l’analyse.

Dans ce tutoriel, nous allons uniquement utilisé le service AWS qui ne comprend pas Logstash. Toutefois, ce module n’est pas nécessaire et le traitement peut se faire différemment.

 

Sur AWS, créer un compte gratuitement ou connectez vous en utilisant votre adresse email Amazon. Une fois connecté, vous aurez alors l’interface suivante qui vous offre un large choix de solution. Cliquez sur « Elasticsearch Service » dans Analytics

AWS MENU

 

Ensuite, créez un domaine sur une instance standard et laissez les paramètres par défaut

Elasticsearch AWS

Une fois cela fait, votre premier cluster elasticsearch est prêt, il vous est alors possible de créez vos indexs (dossiers) et d’y stocker des données

Sur Kibana, il vous sera possible de jouer avec les nombreuses fonctionnalités, pour mettre en évidence ce qui vous intéresse vraiment.

Kibana4

 

Pour créer un premier fichier et index, il y a 2 possibilités : manuellement en ligne de commande, ou depuis un script (Shell, PHP, Perl, Python). Le but étant d’automatiser votre collecte, et donc de scripter tout cela, je vous propose donc de suivre notre prochain tutoriel 😉