Multiple Enrollments and Neural Back-End Modeling for Automatic Speaker Verification
Tänk dig en värld där din röst är nyckeln till allt – från att låsa upp dörrar till att logga in på ditt bankkonto. Denna teknik, kallad röstverifiering, används redan i stor skala för att identifiera personer genom unika egenskaper i deras röst. Men tekniken har sina begränsningar. Bullriga miljöer, korta inspelningar och språkliga skillnader kan göra systemen mindre pålitliga. Hur kan robustheteThis thesis explores advancements in Automatic Speaker Verification (ASV) by examining the impact of multiple speaker enrollments and introducing Adaptive Neural Probabilistic Linear Discriminant Analysis (Adaptive NPLDA). Modern ASV combines front-end feature extraction, using state-of-the-art methods based on Deep Neural Networks (DNNs), such as the ReDimNet architectures, with back-end modeling