Sélection de la langue

Recherche


Rapport conjoint sur les pannes informatiques de l’ASFC ayant eu lieu du au

Le

Le présent rapport a été préparé conjointement par Services partagés Canada et l’Agence des services frontaliers du Canada, et ce, à la suite d’une enquête sur des incidents informatiques ayant entraîné des pannes qui ont affecté les activités et les opérations de l’ASFC du au .

Le rapport a été présenté au ministre de la Sécurité publique et au ministre de la Transformation du gouvernement, des Travaux publics et de l’Approvisionnement par Scott Jones, Président, Services partagés Canada, et par Erin O’Gorman, Présidente, Agence des services frontaliers du Canada.

Sommaire exécutif

Le présent rapport détaille les conclusions d’une enquête sur des incidents informatiques et les pannes qui ont suivi à l’Agence des services frontaliers du Canada (ASFC) du au .

Les principaux systèmes informatiques de l’ASFC, qui soutiennent la plupart des programmes et services des voyageurs et du secteur commercial ont subi plusieurs pannes. Ces pannes ont notamment affecté les bornes d’inspection primaire dans les grands aéroports, les systèmes d’inspection primaire et secondaire pour les agents dans les aéroports et aux postes frontaliers routiers, ainsi que le système Information interactive préalable sur les voyageurs et le Programme de protection des passagers, qui permettent aux compagnies aériennes d’autoriser ou de refuser l’embarquement de passagers. De plus, les portails de service à la clientèle et les systèmes d’échange de données électroniques pour les expéditions commerciales, qui permettent aux importateurs de soumettre des manifestes par voie électronique, de communiquer avec les ministères pour les marchandises réglementées et d’obtenir le dédouanement pour tous les modes de transport (aérien, maritime, ferroviaire, routier et postal) ont été considérablement touchés.

Les pannes, qui se sont chevauchées, sont dues à deux changements informatiques planifiés distincts :

1. Mise à niveau de bases de données

Le , Services partagés Canada (SPC) a entrepris une mise à niveau des bases de données qui prennent en charge la plupart des systèmes pour le secteur commercial et les voyageurs de l’ASFC. Un correctif préalable n’a pas été installé dans les bases de données avant de procéder à la mise à niveau (erreur humaine), ce qui a entraîné une corruption importante des données actives relatives aux voyageurs et au secteur commercial. Les problèmes de performance des systèmes et les pannes intermittentes qui ont suivi se sont poursuivis jusqu’au , provoquant des retards dans les aéroports pour les passagers aériens internationaux, ainsi qu’un arriéré d’une semaine dans les expéditions commerciales aux postes frontaliers routiers, aux ports maritimes et aux gares ferroviaires et aéroportuaires.

2. Correctif pour les pare feu

Le , SPC a appliqué un correctif de sécurité d’urgence aux pare feu de l’ASFC, ce qui a entraîné une interruption des communications avec certaines compagnies aériennes commerciales qui tentaient d’accéder au système Information interactive préalable sur les voyageurs et au système du Programme de protection des passagers. Cette situation a perturbé le trafic aérien international et national, les compagnies aériennes ayant éprouvé des difficultés et des retards pour embarquer les passagers.

Les leçons tirées des causes profondes, des répercussions et des solutions apportées aux pannes ont été établies et un plan d’Mesure exhaustif a été préparé pour aller de l’avant. Ces leçons essentielles sont classées en trois catégories : les facteurs humains et organisationnels, les facteurs liés aux processus et les facteurs technologiques.

L’ASFC et SPC sont déterminés à garantir la fiabilité des services informatiques de l’ASFC et leur capacité à répondre pleinement aux besoins du Canada en matière d’économie et de sécurité nationale.

2. Premier incident : Mise à niveau des bases de données

2.1 Résumé

Une mise à niveau régulière des bases de données, prévue par SPC et censée se faire sans interruption de service, a débuté le à 2 h 30 (heure de l’Est). La mise à niveau a échoué, provoquant la corruption des données en temps réel dans plusieurs systèmes clés de l’ASFC pour les voyageurs et le secteur commercial.

Cette corruption a entraîné des pannes dans les principaux systèmes pour les voyageurs, notamment les bornes d’inspection primaires dans les aéroports internationaux, les systèmes d’inspection primaire et secondaire pour les agents des services frontaliers dans les aéroports internationaux et aux postes frontaliers routiers, ainsi que le système Information interactive préalable sur les voyageurs et le système du Programme de protection des passagers.

Les pannes de ces systèmes pour les voyageurs ont été les suivantes (toutes les heures sont à l’heure de l’Est) :

  • le de 13 h 30 à 16 h (panne partielle d’environ 2,5 heures);
  • du à 16 h 30 au à 1 h 30 (panne totale d’environ 9 heures);
  • le de 10 h 40 à 12 h 45 (panne totale d’environ 2 heures);
  • le de 17 h 15 à 18 h 20 (panne totale d’environ 2 heures);
  • le de 00 h 00 à 1 h (panne totale de 1 heure).

Cette corruption a également entraîné des pannes ou une dégradation des performances des principaux systèmes du secteur commercial de l’ASFC, à savoir les portails de service à la clientèle et les systèmes d’échange de données informatisé, tous deux utilisés par les partenaires de la chaîne commerciale pour échanger des manifestes et d’autres renseignements avec l’ASFC.

Les pannes ou dégradations de ces systèmes commerciaux ont été les suivantes (toutes les heures sont à l’heure de l’Est) :

  • du à 13 h 30 au à 12 h (panne partielle de 46,5 heures);
  • du au matin au au matin (dégradation importante du rendement).

Les équipes de soutien de l’ASFC et de SPC, avec l’aide des fournisseurs, ont annulé la mise à niveau défaillante et effectué d’importantes réparations sur les données corrompues, ce qui a permis de rétablir le fonctionnement du système. Bien que des réparations importantes aient été effectuées sur les données corrompues, les travaux se poursuivent.

2.2 Conséquences

La panne a entraîné des retards pour les compagnies aériennes, les aéroports et les voyageurs internationaux de retour du dimanche au lundi au petit matin. Certains passagers ont connu des retards lors de l’embarquement dans les aéroports étrangers et nationaux, les compagnies aériennes ayant dû recourir aux procédures standard en cas de panne pour obtenir manuellement les recommandations d’embarquement autorisé ou non autorisé de l’ASFC et de la « liste d’interdiction de vol » de Transports Canada. Des retards ont également été enregistrés dans les aéroports nationaux, en raison de la mise hors service des appareils des bornes d’inspection primaire, et les voyageurs internationaux de retour au pays ont dû faire la queue pendant de longues heures, tant à l’aéroport qu’à bord de leur avion.

La panne a également provoqué d’importants retards dans le dédouanement des expéditions commerciales aux postes frontaliers routiers, aux aéroports, dans les gares de triage et dans les ports maritimes. Dans la plupart des postes frontaliers routiers du secteur commercial du pays, les temps d’attente ont été considérables, les points d’entrée du Sud de l’Ontario et du Manitoba ayant signalé des retards de plusieurs heures, voire plusieurs jours, pour les camions entre le et le .

Contrairement à ce qui a été dit dans l’espace public, aucun avis de surveillance dans le système n’a pas été manqué, les avis ayant été communiqués manuellement. Bien que les données de ciblage n’aient pas été disponibles pendant une partie de la panne, les agents des services frontaliers ont fait appel à leur formation, à leur expérience et aux indices recueillis sur le terrain pour évaluer les risques liés aux personnes et aux marchandises, conformément aux plans d’urgence.

2.3 Cause profonde

La mise à niveau avait déjà été mise à l’essai dans un environnement d’essai, de sorte que SPC et l’ASFC s’attendaient à ce qu’elle ait peu ou pas d’incidence sur les opérations. Cependant, le matin du , lors de la mise à niveau des systèmes dans l’environnement de production, SPC n’a pas effectué une modification préalable essentielle pour permettre cette mise à niveau. Le processus de mise à niveau du fournisseur n’a pas non plus permis de vérifier ce correctif. Le fait que cette modification préalable n’ait pas été effectuée a directement entraîné la corruption des données opérationnelles, rendant impossible leur récupération à partir des sauvegardes. Cette corruption a entraîné des pannes en cascade du système et des interruptions de service.

2.4 Résolution

Avec l’aide du fournisseur du logiciel de base de données, les équipes de SPC et de l’ASFC ont rétabli la version précédente afin de remettre les systèmes et services touchés en état de fonctionnement. Une intervention technique importante a permis de résoudre la majeure partie de la corruption des données, mais au , certains travaux de rétablissement se poursuivaient.

3. Deuxième incident : Correctif pour les pare-feu

3.1 Résumé

Dans l’après-midi du , SPC a appliqué un correctif de sécurité critique et connu aux systèmes de l’ASFC qui sont utilisés pour communiquer avec les compagnies aériennes nationales et étrangères au moyen du système Information interactive préalable sur les voyageurs et du système du Programme de protection des passagers pour échanger les données sur les manifestes de passagers et les instructions d’embarquement autorisé ou non autorisé. Ce correctif a entraîné une interruption des communications entre les compagnies aériennes et l’ASFC. Cette interruption a provoqué une panne totale des services du système Information interactive préalable sur les voyageurs et du système du Programme de protection des passagers pour les compagnies aériennes pendant environ 7 heures le , de 14 h à 20 h 55 (heure de l’Est).

3.2 Conséquences

Des retards ont notamment été enregistrés à l’embarquement dans les aéroports étrangers et nationaux dans l’après-midi et en soirée du lundi , et des passagers ont raté leur vol. Les compagnies aériennes ont appliqué leurs protocoles en cas de panne, mais elles n’ont pas non plus été en mesure de recevoir à temps la confirmation manuelle de la part de Transports Canada concernant certains voyageurs figurant sur la « liste d’interdiction de vol » pour pouvoir assurer le bon déroulement des procédures d’embarquement.

3.3 Cause profonde

SPC a appliqué le correctif de sécurité critique aux systèmes de l’ASFC sans que l’Agence en soit dûment informée, ce qui n’a pas permis de coordonner la mise en œuvre avec les compagnies aériennes afin de trouver un moment moins achalandé. De plus, le fournisseur de logiciels n’a donné aucune indication aux compagnies aériennes (ou à tout autre intervenant) quant à la nécessité d’apporter des modifications à leurs systèmes avant la modification de SPC, afin de maintenir les communications. SPC croyait que cette modification ne causerait aucune perturbation, mais il s’est avéré que ce n’était pas le cas.

3.4 Résolution

Les techniciens de l’ASFC et de SPC ont communiqué avec les techniciens de toutes les compagnies aériennes touchées afin de les aider à mettre à jour les protocoles de sécurité sur leurs systèmes. Cette opération a permis la reprise des communications pour le système Information interactive préalable sur les voyageurs et le système du Programme de protection des passagers.

4. Ce que nous avons appris et ce qui s'en suit

La section qui suit résume les leçons essentielles tirées des pannes informatiques de l’ASFC et les mesures correspondantes à prendre pour aller de l’avant.

4.1 Facteurs humains et organisationnels

Leçon 4.1.1 :
Les contrôles de qualité effectués par les employés de l'ASFC et de SPC qui apportent des changements informatiques importants sont insuffisants.
Action 4.1.1 :
Mener une révision conjointe SPC - ASFC afin de cerner et de mettre en œuvre des améliorations en matière de supervision, de formation et d'expérience des employés occupant des postes clés dans la gestion du changement en matière de technologies de l'information (TI).
Date cible :
- examen complété, prolongée jusqu'en pour mise en œuvre.
Statut :
En cours

Leçon 4.1.2 :
La collaboration entre l'ASFC, SPC, l'industrie aérienne et les partenaires de la chaîne commerciale en matière de gestion des changements informatiques est insuffisante.
Action 4.1.2 :
Mettre en place une gestion conjointe des changements informatiques avec l'ASFC, SPC et les partenaires de l'industrie aérienne ainsi que de la chaîne commerciale, afin de discuter et de coordonner tous les changements à venir dans les systèmes informatiques. L'objectif est de rétablir la confiance et d'éviter les interruptions de service imprévues.
Date cible :
Statut :
Complété

Leçon 4.1.3 :
Les communications internes de l'ASFC concernant les incidents manquent de précision et de rigueur.
Action 4.1.3 :
Améliorer les protocoles de communication interne afin de faciliter une communication rapide, efficace et cohérente à travers l'agence.
Date cible :
Statut :
Complété

Leçon 4.1.4 :
Les communications et la collaboration de l'ASFC avec ses partenaires industriels sont insuffisantes.
Action 4.1.4 :
Ajuster les communications avec les partenaires de l'industrie, les canaux de communication et les protocoles, afin d'inclure la mise en place de canaux en direct pour une communication immédiate et d'améliorer la qualité, la cohérence et l'utilité des messages.
Date cible :
Statut :
Complété

Leçon 4.1.5 :
Les communications et la mobilisation de l'ASFC visant à informer les partenaires gouvernementaux des incidents, des pannes et des événements importants liés à l'ASFC doivent être renforcées.
Action 4.1.5 :
En s'appuyant sur les récentes mises à jour des protocoles de communication, examiner les moyens de mobiliser et d'informer les partenaires gouvernementaux au sujet des incidents, des pannes et des événements importants touchant l'ASFC, et réviser ou renforcer ces moyens au besoin.
Date cible :
Statut :
Complété

Leçon 4.1.6 :
SPC n'est pas suffisamment informé des répercussions concrètes des pannes des systèmes de l'ASFC sur les affaires dans le monde réel ni des risques pour la sécurité nationale et économique auxquels le Canada est exposé lorsque les outils numériques de l'ASFC ne sont pas disponibles.
Action 4.1.6 :
Sensibiliser davantage le personnel de SPC aux opérations de l'ASFC, en vue d'amorcer un changement culturel qui améliorera la responsabilité individuelle et collective. Cela permettra d'améliorer l'examen, la révision, la collaboration et la communication afin d'éviter que des erreurs humaines similaires ne se reproduisent à l'avenir.
Date cible :
– prolongée jusqu'en pour mise en œuvre.
Statut :
En cours

4.2 Facteurs liés aux processus

Leçon 4.2.1 :
L'ASFC et la gestion des incidents informatiques et de la SSC ne sont pas bien intégrées.
Action 4.2.1 :
  • Améliorer la gestion des changements et des incidents informatiques de l'ASFC et de SPC, y compris une intégration stricte des processus ; établir des processus d'approbation, des niveaux et des délais clairs et précis.
  • S'assurer que les applications et services opérationnels essentiels de l'ASFC, ainsi que leurs dépendances à l'infrastructure informatique, soient bien documentés et compris.
Date cible :
et , prolongée jusqu'en pour une analyse approfondie des dépendances à l'égard de l'infrastructure informatique.
Statut :
Complété et en cours

Leçon 4.2.2 :
Les processus de gestion du changement et des incidents informatiques de l'ASFC et de SPC présentent des lacunes qui impactent leur efficacité.
Action 4.2.2 :
  • Renforcer les contrôles sur l'exécution des mises à jour et mises à niveau de systèmes afin de réduire le risque d'erreur humaine.
  • Réaliser une vérification interne conjointe de la gestion des changements informatiques par les dirigeants principaux de la vérification de l'ASFC et de SPC.
  • Réaliser une vérification interne conjointe de la gestion des incidents informatiques par les dirigeants principaux de la vérification de l'ASFC et de SPC.
Date cible :
, et
Statut :
Complété, en cours, et en cours

Leçon 4.2.3 :
La réponse coordonnée de l'ASFC aux pannes informatiques soudaines, généralisées et persistantes était inadéquate.
Action 4.2.3 :
Ajuster les plans et procédures de gestion des urgences de l'ASFC en fonction des événements récents, et veiller à ce qu'ils soient largement connus et respectés.
Date cible :
Statut :
Complété

Leçon 4.2.4 :
Les protocoles et les mesures prises en première ligne pour gérer les conséquences de la panne n'étaient pas uniformes d'un point d'entrée à l'autre.
Action 4.2.4 :
Réviser, améliorer et exercer les protocoles d'interruption des activités et les plans de continuité des activités de l'ASFC afin de mieux se préparer à une perturbation numérique importante et prolongée, et veiller à une large sensibilisation.
Date cible :
- Révisions complétées, exercices seront entretenus selon le calendrier annuel.
Statut :
Complété

4.3 Facteurs technologiques

Leçon 4.3.1 :
L'écosystème informatique de l'ASFC est fragile et manque de résilience face aux changements et incidents dans certains domaines.
Action 4.3.1 :
Examiner l'architecture et la mise en œuvre des applications et systèmes informatiques de l'ASFC, ainsi que l'infrastructure informatique hébergée par SPC. Renforcer l'environnement informatique en repérant et en corrigeant les points de défaillance uniques, en veillant à ce que les sauvegardes techniques et la redondance fonctionnent comme prévu, et en améliorant les rapports et les alertes automatisés. Trouver des moyens de protéger les opérations de première ligne contre les perturbations et les pannes des services d'arrière-plan.
Date cible :
Statut :
En cours

Leçon 4.3.2 :
Ni SPC ni l'ASFC ne définissent clairement la remise en état ou le renouvellement des systèmes et technologies vieillissants de l'ASFC, ni ne donnent suffisamment la priorité à ces activités.
Action 4.3.2 :
Collaborer avec les organismes centraux afin de veiller à ce que la dette technique de l'ASFC soit clairement considérée comme un risque gouvernemental majeur et qu'elle soit traitée en priorité par SPC et l'ASFC.
Date cible :
, prolongée jusqu'en pour compléter les consultations.
Statut :
En cours

Détails de la page

Date de modification :