Introduction :
La latence d’inférence est le délai qui s’écoule entre le moment où une donnée est soumise à un modèle d’IA (le prompt) et le moment où le système génère la réponse complète. En d’autres termes, c’est le temps de “réflexion” et de génération de la machine.
Pourquoi est-ce important ?
Pour un employeur, la latence d’inférence est un facteur critique d’expérience utilisateur (UX) et de productivité. Si un conseiller RH doit attendre 30 secondes pour obtenir la synthèse d’un entretien par l’IA, le gain de temps s’évapore. Une latence élevée freine l’adoption des outils technologiques par les collaborateurs. Dans le cadre de job-guard.com, une faible latence est indispensable pour que les candidats reçoivent des suggestions instantanées lors de leur navigation. L’importance de ce terme réside aussi dans les coûts : réduire la latence demande souvent des serveurs plus puissants ou des modèles plus légers. L’enjeu est de trouver le point d’équilibre entre la qualité de la réponse (qui demande du temps de calcul) et la fluidité de l’interaction (qui demande de la vitesse). Dans les applications en temps réel, comme la traduction vocale en réunion, la latence est le critère de succès numéro un.
Comment le mettre en œuvre ?
Pour réduire la latence, les entreprises peuvent utiliser des techniques de “Quantization” (compression du modèle) ou opter pour des modèles “Flash” (ex: Gemini Flash, GPT-4o-mini). Techniquement, le déploiement sur des infrastructures “Edge” (au plus près de l’utilisateur) ou l’utilisation de GPUs haute performance (NVIDIA H100) permet d’accélérer l’inférence. Il est recommandé de mesurer la latence en “ms par token”. Les RH doivent exiger des SLAs (Service Level Agreements) de la part de leurs fournisseurs d’IA pour garantir que les outils ne ralentissent pas les workflows opérationnels. Une stratégie consiste à utiliser des modèles rapides pour les tâches simples et des modèles plus lents/puissants uniquement pour les analyses complexes.
Exemples concrets :
Un chatbot RH avec une latence de 500ms donne l’impression d’une conversation naturelle, favorisant l’engagement du salarié. À l’inverse, un outil de tri de CV qui met 2 minutes à charger chaque analyse sera délaissé par les recruteurs au profit d’une méthode manuelle.
