iBet uBet web content aggregator. Adding the entire web to your favor.
iBet uBet web content aggregator. Adding the entire web to your favor.



Link to original content: https://www.silero.ai/vad-lang-classifier-number-detector/
🌐Модели для Детекции Речи, Чисел и Распознавания Языков

🌐Модели для Детекции Речи, Чисел и Распознавания Языков

GitHub - snakers4/silero-vad: Silero VAD: pre-trained enterprise-grade Voice Activity and Number Detector
Silero VAD: pre-trained enterprise-grade Voice Activity and Number Detector - GitHub - snakers4/silero-vad: Silero VAD: pre-trained enterprise-grade Voice Activity and Number Detector

На данный момент у нас есть ряд вспомогательных моделей, которые умеют:

  • Определять наличие речи в аудио (Voice Activity Detector, VAD);
  • Определять наличие сказанных числительных в речи (Number Detector);
  • Определять на каком языке и языковой группе что-то было сказано (Language Classifier);

Все модели живут и обновляются в репозитории silero-models. Там же находятся примеры, документация по настройке гипер-параметров и базовый код для применения моделей на практике.

VAD

Самая популярная и часто обновляемая модель. Определяет наличие речи в аудио, а также ее начало и конец.

Существует в ряде вариаций:

  • Большая (1M параметров) и малые модели (10 - 100k параметров);
  • Модель для частоты дискретизации в 16 kHz и 8 kHz;
  • Также для некоторых моделей чекпойнты сконвертированы в ONNX;

Популярные страницы:

Также многочисленные примеры можно найти в списке примеров в ноутбуке:

Google Colaboratory

... и в папке с примерами:

silero-vad/examples at master · snakers4/silero-vad
Silero VAD: pre-trained enterprise-grade Voice Activity and Number Detector - silero-vad/examples at master · snakers4/silero-vad

Language Classifier

На данный момент лучший классификатор языков:

  • Поддерживает 95 языков (85% точности) и 58 языковых групп (90% точности);
  • Взаимопонятные языки объединены в группы (например Сербский + Хорватский + Боснийский);
  • Натренирован примерно на 20k часов аудио (10к из которых принадлежат к 5 самым популярным языкам);
  • Данные взяты из максимально разных источников, это не просто оверфит на один публичный датасет;
  • Довольно компактная сетка в 4.7M параметров;
GitHub - snakers4/silero-vad: Silero VAD: pre-trained enterprise-grade Voice Activity and Number Detector
Silero VAD: pre-trained enterprise-grade Voice Activity and Number Detector - GitHub - snakers4/silero-vad: Silero VAD: pre-trained enterprise-grade Voice Activity and Number Detector

Number Detector

Детектор чисел ищет устно сказанные числа на 4 языках:

GitHub - snakers4/silero-vad: Silero VAD: pre-trained enterprise-grade Voice Activity and Number Detector
Silero VAD: pre-trained enterprise-grade Voice Activity and Number Detector - GitHub - snakers4/silero-vad: Silero VAD: pre-trained enterprise-grade Voice Activity and Number Detector