ACTU TECH – La panne d’AWS a crûment révélé la fragilité du réseau.
Selon Ars Technica, l’incident de lundi a été provoqué, de façon stupéfiante, par un unique bug logiciel dont les effets se sont propagés dans les systèmes d’AWS. La défaillance a été localisée dans des composants liés à DynamoDB au sein de la pile de gestion DNS d’AWS. Le DNS (Domain Name System) est souvent comparé à l’annuaire d’Internet : il convertit les noms de domaine lisibles par l’homme en adresses IP utilisées par les machines.
Sur l’internet moderne, de nombreux services (cloud, streaming, etc.) doivent associer un même domaine à plusieurs adresses IP afin d’exploiter efficacement des serveurs répartis géographiquement. Le module DNS Enactor—chargé de mettre à jour ces enregistrements dans DynamoDB—a subi une latence anormale et a dû réitérer ses mises à jour sur plusieurs points de terminaison DNS. Pendant qu’il « rattrapait » son retard, DynamoDB continuait de générer de nouveaux plans, qu’un autre DNS Enactor, à l’heure, s’est empressé d’appliquer.
Lorsque l’Enactor retardataire a fini par se synchroniser, il a écrasé la nouvelle configuration DNS par un plan nettement plus ancien, contournant au passage un mécanisme de protection censé éviter ce type d’erreur (lui aussi affecté par des retards). L’Enactor ponctuel a ensuite détecté le plan obsolète et l’a supprimé. Cette séquence a eu des répercussions à l’échelle d’AWS, obligeant les ingénieurs à diagnostiquer et corriger manuellement le problème.
Rappel supplémentaire : l’infrastructure du réseau mondial reste fragile et sensible aux erreurs logiques internes. Une « simple » anomalie peut désorganiser des écosystèmes entiers ; rien n’est plus frustrant que de voir un système qui devrait fonctionner sur le papier ne pas le faire en pratique, sans que le matériel soit en cause.
Sources : PCGamer, Ars Technica



