Détection d'Activité Vocale Multi-Flux pour la Diarisation du Locuteur
Abstract
La diarisation du locuteur, ou la tâche de déterminer « qui parle, quand ? », a récemment connu des avancéesmajeures, mais la plupart des recherches sont axées sur les représentations vectorielles de la parole et les méthodes deregroupement. Dans cet article, nous étudions l'impact du choix de la détection d'activité vocale sur les performancesde diarisation du locuteur. Nous présentons également une nouvelle méthode de détection d'activité vocale multi-fluxbasée sur une fusion de trois systèmes selon leurs entropies. Celle-ci s'est déjà avérée compétitive lors du challenge dediarisation VoxSRC 2022. Enfin, nous discutons des prochaines étapes pour obtenir des résultats au niveau de l’étatde l’art dans le cas général avec cette méthode.









