Trainable speaker diarization

Hagai Aronowitz

INTERSPEECH 2007

Conference paper

01 Dec 2007

Trainable speaker diarization

Abstract

This paper presents a novel framework for speaker diarization. We explicitly model intra-speaker inter-segment variability using a speaker-labeled training corpus and use this modeling to assess the speaker similarity between speech segments. Modeling is done by embedding segments into a segment-space using kernel-PCA, followed by explicit modeling of speaker variability in the segment-space. Our framework leads to a significant improvement in diarization accuracy. Finally, we present a similar method for bandwidth classification.

Conference paper