🌐Модели для Детекции Речи, Чисел и Распознавания Языков

Last updated on 12 окт. 2021 г.

На данный момент у нас есть ряд вспомогательных моделей, которые умеют:

Определять наличие речи в аудио (Voice Activity Detector, VAD);
Определять наличие сказанных числительных в речи (Number Detector);
Определять на каком языке и языковой группе что-то было сказано (Language Classifier);

Все модели живут и обновляются в репозитории silero-models. Там же находятся примеры, документация по настройке гипер-параметров и базовый код для применения моделей на практике.

VAD

Самая популярная и часто обновляемая модель. Определяет наличие речи в аудио, а также ее начало и конец.

Существует в ряде вариаций:

Большая (1M параметров) и малые модели (10 - 100k параметров);
Модель для частоты дискретизации в 16 kHz и 8 kHz;
Также для некоторых моделей чекпойнты сконвертированы в ONNX;

Популярные страницы:

Также многочисленные примеры можно найти в списке примеров в ноутбуке:

... и в папке с примерами:

Language Classifier

На данный момент лучший классификатор языков:

Поддерживает 95 языков (85% точности) и 58 языковых групп (90% точности);
Взаимопонятные языки объединены в группы (например Сербский + Хорватский + Боснийский);
Натренирован примерно на 20k часов аудио (10к из которых принадлежат к 5 самым популярным языкам);
Данные взяты из максимально разных источников, это не просто оверфит на один публичный датасет;
Довольно компактная сетка в 4.7M параметров;

Number Detector

Детектор чисел ищет устно сказанные числа на 4 языках: