Gérer les pics de trafic d’un site web tout en optimisant les coûts grâce à Public Cloud
OVHcloud et Aplim
Coût de l’infrastructure initiale
divisé par 2
Taille de l'infrastructure
multipliée par 10
Usage
multiplié par 5
Le contexte
Aplim, du groupe Aplon, est une société spécialisée dans l’édition de logiciels de gestion destinés aux établissements scolaires, de la maternelle jusqu’à l’enseignement supérieur. Ses clients sont, principalement, des écoles privées françaises.
Aplim se classe numéro un sur son segment de marché. Son secret ? Proposer des solutions entièrement personnalisables et paramétrables, capables de couvrir tous les besoins : inscriptions, vie scolaire (assiduité, cantine, autorisation de sortie), agenda, espaces de travail, notation, messagerie, comptabilité, facturation, etc.
Sortie en 2000, la solution EcoleDirecte, fondée sur le logiciel Charlemagne, est utilisée 20 ans plus tard par plus de 1,5 million d’élèves, 3 millions de parents, 300 000 professeurs et 80 000 responsables administratifs.
Bien que déjà répandu, l’enseignement à distance est devenu, du jour au lendemain, la norme en raison de la crise sanitaire liée à la Covid-19 et du confinement instauré en France le 17 mars 2020. Dès lors, le site ecoledirecte.com a été plus sollicité que jamais. En effet, afin d’assurer la continuité pédagogique, les établissements d’enseignement français ont été contraints d’adapter leur mode de fonctionnement. Le site internet géré par Aplim a alors fait face à d’importants pics de trafic. Fort heureusement, une intégration préalable de nouveaux services et une automatisation de l’infrastructure existante ont permis de répondre à cet afflux massif de connexions simultanées. Une mesure préventive, qui s’est révélée salvatrice pour l’entreprise et ses utilisateurs.
Le défi
Aplim traite un grand nombre de données personnelles, relatives à l’éducation des élèves français. La protection de ces informations constituant un enjeu majeur, il était impératif pour la société de les héberger en France. Et grâce aux différents datacenters d’OVHcloud, tels que ceux de Roubaix, Gravelines et Strasbourg, le cahier des charges a pu être respecté.
« Il était primordial que nos données soient hébergées en France. »
Steve Giraud, responsable du développement, Aplim
Il était également nécessaire pour Aplim de pouvoir maîtriser les coûts liés à son infrastructure, tout en la faisant évoluer. À la suite d’une rencontre lors de l’OVHcloud Summit 2019, la société décide de tester les services Public Cloud. Puis, début 2020, Aplim commence à étendre cette solution à une partie de son infrastructure, avec des instances Public Cloud plutôt que de l’hébergement Hosted Private Cloud. Son équipe technique se lance alors dans une nouvelle phase d’industrialisation des déploiements. Elle découvre la facilité d’opérer sur Public Cloud, grâce à une grande réactivité en matière de livraison des ressources et à la disponibilité des API standards d’OpenStack. La preuve de concept (PoC) s’avérant concluante, l’entreprise se tourne finalement vers du cloud hybride, qui intègre des services de cloud public à l’infrastructure déjà existante.
« Nous avions besoin d'une solution que nous maîtrisions bien pour le cœur de notre infrastructure. »
Steve Giraud, responsable du développement, Aplim
Cette solution permet à Aplim de mettre à profit la plateforme initiale déployée chez OVHcloud, fondée sur l’offre Hosted Private Cloud. Son équipe technique bénéficie ainsi de la souplesse et de la robustesse de la suite logicielle de VMware, tout en augmentant la capacité d’absorption de charge.
En effet, la société a vu apparaître de nouveaux besoins liés à l’optimisation de l’infrastructure d’EcoleDirecte. Il était temps de trouver des solutions pour gérer les pics de charge liés, notamment, à la fluctuation de l’activité, ainsi qu’à l’augmentation exponentielle des espaces de stockage et de sauvegarde.
Ces besoins sont observables selon deux scénarios :
- Scénario 1 - Pics de trafic momentanés et prévisibles : Aplim sait que les étudiants se connectent en nombre sur sa plateforme les lundis, mardis et mercredis, entre 16 heures et 22 heures. C’est un cycle régulier pendant lequel il est nécessaire de fournir des ressources adaptées, afin que les services répondent aussi rapidement que lors des périodes plus creuses.
- Scénario 2 – Pics de trafic imprévisibles et plus importants en intensité comme en durée : avant même l’épisode de la Covid-19, Aplim a conscience de la nécessité de pouvoir monter en charge rapidement et efficacement, en cas de besoin. Car si les pics prévisibles sont facilement gérables, des montées en charge inattendues peuvent vite devenir un défi.
Qu'est-ce qu'un pic de trafic ?
Il s'agit d'une augmentation soudaine du nombre de requêtes envoyées et/ou reçues par un serveur sur une courte période de temps. Sans une infrastructure adaptée, un pic de trafic peut engendrer des ralentissements de service jusqu’à le rendre potentiellement indisponible pour les utilisateurs.
La solution
L’architecture initiale déployée sur Hosted Private Cloud héberge l’intégralité des services : le site public, une partie des serveurs API, les bases de données, ainsi que les sauvegardes.
L’avantage de cette solution est qu’il est très facile de faire un vertical scalling lorsqu’une base de données demande plus de ressources, par exemple. De plus, le cluster VMware, situé dans les datacenters de Roubaix, peut être étendu, que ce soit en hôtes ou en datastores.
Les besoins en stockage d’Aplim ont explosé durant le confinement lié à la Covid-19. Afin de répondre à ces attentes, la société a ajouté dix nouveaux datastores SSD de 3 To à son infrastructure Hosted Private Cloud.
« Pour évoluer, nous avions besoin de beaucoup de souplesse, d'une API pour que nos devops puissent piloter les ressources, et de pouvoir nous déployer sur plusieurs datacenters. Ceci a été possible grâce au vRack et à Public Cloud. »
Steve Giraud, responsable du développement, Aplim
Cependant, comme évoqué précédemment, Aplim doit faire face à deux scénarios possibles. Et ceux-ci sont difficilement compatibles avec un type d’infrastructure basé uniquement sur Hosted Private Cloud. Pour répondre au scénario dans lequel des montées en charge imprévisibles et plus importantes en intensité comme en durée se manifestent, l’entreprise a réalisé un PoC dans lequel des instances Public Cloud sont utilisées.
Par ailleurs, lors des pics de trafic momentanés et prévisibles – dont la période et la variation sont connues à l’image du scénario 1 – il est très simple avec la solution Public Cloud de programmer et d’industrialiser le démarrage des instances, à la demande, sur des plages horaires précises.
Grâce à cette facilité de création et de suppression des ressources, les instances ne sont facturées que 72 heures par mois au lieu de 720. C’est un rapport de 10 qui permet un service rapide et fiable lors des pics de charge, tout en rentabilisant les coûts. Les serveurs API, tournant sous IIS, font, quant à eux, un horizontal scalling et se multiplient grâce à l’automatisation mise en œuvre par Aplim. Ce fonctionnement est particulièrement adapté aux couches applicatives stateless, comme c’est le cas pour ces serveurs d’API, et permet d’optimiser les dépenses. Le PoC s’est donc vite avéré concluant.
Ainsi, lorsque le gouvernement français a annoncé le confinement et la continuité pédagogique mi-mars 2020, Aplim a su faire face à l’augmentation du nombre de visites quotidiennes. Le site est passé d’un million de connexions ponctuelles et prévisibles par jour à cinq millions de connexions longues quotidiennes.
« Nous pouvons créer des instances automatiquement chaque soir pour gérer des pics de charge réguliers, mais aussi manuellement en cas de besoin inhabituel. Et ceci, en quelques minutes ! »
Steve Giraud, responsable du développement, Aplim
Fort de cette expérience, Aplim a immédiatement pu réagir face à la recrudescence de ces connexions en masse. En effet, là où les serveurs d’API et leur trentaine d’instances apportaient un temps de réponse suffisant, il a fallu en ajouter 300 en quelques jours afin de soutenir la montée de charge.
Tout le travail des équipes vers une industrialisation maximale des déploiements s’est avéré payant dans un tel contexte. Au lieu de démarrer 30 machines comme en période normale, il a simplement fallu exécuter ces routines 300 fois lors des premiers pics de trafic survenus mi-mars 2020.
Grâce à la réactivité des équipes d’OVHcloud en datacenter et à la disponibilité matérielle, 4 800 vCores et 18 To de RAM ont pu être livrés en quelques jours. Ces 300 instances, connectées au reste de l’architecture à travers le réseau privé interdatacenter vRack, et l’industrialisation via les services Public Cloud ont permis à la société de tenir la charge durant cette période exceptionnelle.
Le résultat
Si tout a été multiplié – l’infrastructure par 10 et l’usage par 5 – grâce à l’adoption et la prise en main de Public Cloud avant la crise sanitaire, la plateforme initiale a vu son prix divisé par deux. Cette orientation a favorisé une optimisation maximale des coûts.
L’industrialisation apportée à la solution Hosted Private Cloud d’Aplim et étendue avec Public Cloud a permis à l’infrastructure de remplir toutes ses fonctions, sans le moindre incident. En outre, une équipe de développeurs a été déployée spécialement durant la pandémie, pour créer des outils d’enseignement à distance. L’entreprise n’a reçu que des retours positifs de la part de ses clients et utilisateurs. Certains établissements publics l’ont même contactée !
Plusieurs bonnes pratiques sont à tirer de cette expérience. D’abord, l’industrialisation de chaque action sur l’infrastructure ; tout est automatisable via API. Ensuite, la répartition des charges, qui est une condition indispensable dans la gestion d’un scalling horizontal. Enfin, la haute disponibilité des services. Celle-ci est gérée par des mécanismes appelés auto-healing et dépend de la brique logicielle déployée. Si cette haute disponibilité des services est stateless comme les serveurs d’API, un simple mécanisme de kill/create permet de répondre facilement à toutes sortes de situations. Si cette brique logicielle est statefull, un mécanisme de cluster gérera alors l’auto-healing. En respectant l’ensemble de ces principes, les fonctionnalités de Public Cloud permettent à n’importe quelle entreprise de gérer aussi bien les pics de charge prévus et momentanés que ceux imprévisibles et intenses.
La solution EcoleDirecte, en constante évolution, compte implémenter de nouvelles fonctions, telles que l’intégration d’Object Storage pour résoudre la problématique du stockage de documents.