🌐Модели для Детекции Речи, Чисел и Распознавания Языков
На данный момент у нас есть ряд вспомогательных моделей, которые умеют:
- Определять наличие речи в аудио (Voice Activity Detector, VAD);
- Определять наличие сказанных числительных в речи (Number Detector);
- Определять на каком языке и языковой группе что-то было сказано (Language Classifier);
Все модели живут и обновляются в репозитории silero-models. Там же находятся примеры, документация по настройке гипер-параметров и базовый код для применения моделей на практике.
VAD
Самая популярная и часто обновляемая модель. Определяет наличие речи в аудио, а также ее начало и конец.
Существует в ряде вариаций:
- Большая (1M параметров) и малые модели (10 - 100k параметров);
- Модель для частоты дискретизации в 16 kHz и 8 kHz;
- Также для некоторых моделей чекпойнты сконвертированы в ONNX;
Популярные страницы:
- Метрики и скорость;
- Тонкая настройка параметров;
- Механизм работы;
Также многочисленные примеры можно найти в списке примеров в ноутбуке:
... и в папке с примерами:
Language Classifier
На данный момент лучший классификатор языков:
- Поддерживает 95 языков (85% точности) и 58 языковых групп (90% точности);
- Взаимопонятные языки объединены в группы (например Сербский + Хорватский + Боснийский);
- Натренирован примерно на 20k часов аудио (10к из которых принадлежат к 5 самым популярным языкам);
- Данные взяты из максимально разных источников, это не просто оверфит на один публичный датасет;
- Довольно компактная сетка в 4.7M параметров;
Number Detector
Детектор чисел ищет устно сказанные числа на 4 языках: