Процветание раскрывает наши пороки, а бедствия - наши добродетели.

По сообщению источников из Генпрокуратуры, против корпорации Microsoft ...

Платформа совместной работы Microsoft Teams доступна для Linux
Wed, 11 Dec 2019 08:29:37 +0300

Google подготовил систему поиска и навигации по коду Android
Wed, 11 Dec 2019 08:00:28 +0300

VPN WireGuard принят в ветку net-next и намечен для включения в ядро Linux 5.6
Mon, 09 Dec 2019 18:42:28 +0300

Началось общее голосование о системах инициализации в Debian
Sat, 07 Dec 2019 13:32:21 +0300

Самый популярный пример Java-кода на StackOverflow оказался с ошибкой
Thu, 05 Dec 2019 13:48:33 +0300

Microsoft развивает новый язык программирования на основе Rust
Tue, 03 Dec 2019 08:54:04 +0300

В KDE улучшена поддержка декорирования окон в GTK-приложениях
Mon, 02 Dec 2019 22:49:28 +0300

Введён в строй Qt Marketplace, каталог-магазин модулей и дополнений для Qt
Mon, 02 Dec 2019 16:49:05 +0300

Тенденции в аппаратном обеспечении, используемом с Linux
Mon, 02 Dec 2019 09:42:10 +0300

Прогресс в использовании ОС Redox на реальном оборудовании
Sun, 01 Dec 2019 10:56:09 +0300

Вышла новая версия Open CASCADE Technology - 7.4.0
Fri, 29 Nov 2019 16:28:49 +0300

Обновлены планы по поставке 32-разрядных библиотек в Ubuntu 20.04
Fri, 29 Nov 2019 09:37:15 +0300

В ядре Linux выявлена ошибка, приводящая к нарушению работы некоторых программ, использующих AVX
Wed, 27 Nov 2019 10:32:13 +0300

Ошибка в прошивке SSD-накопителей HPE, приводящая к потере данных через 32768 часов работы
Tue, 26 Nov 2019 17:49:06 +0300

Компания Mozilla опубликовала финансовый отчёт за 2018 год
Tue, 26 Nov 2019 10:35:08 +0300

Новости OPENNET
Новости

Представлен выпуск развиваемого компанией Mozilla движка распознавания речи DeepSpeech 0.6, который реализует одноимённую архитектуру распознавания речи, предложенную исследователями из компании Baidu. Реализация написана на языке Python с использованием платформы машинного обучения TensorFlow и распространяется под свободной лицензией MPL 2.0. Поддерживается работа в Linux, Android, macOS и Windows. Производительности достаточно для использования движка на платах LePotato, Raspberry Pi 3 и Raspberry Pi 4.

В наборе также предлагаются обученные модели, примеры звуковых файлов и инструментарий для распознавания из командной строки. Для встраивания функции распознавания речи в свои программы предложены готовые к применению модули для Python, NodeJS, C++ и .NET (сторонними разработчиками отдельно подготовлены модули для Rust и Go). Готовая модель поставляется только для английского языка, но для других языков по прилагаемой инструкции можно обучить систему самостоятельно, используя голосовые данные, собранные проектом Common Voice.

DeepSpeech значительно проще традиционных систем и при этом обеспечивает более высокое качество распознавания при наличии постороннего шума. В разработке не используются традиционные акустические модели и концепция фонем, вместо них применяется хорошо оптимизированная система машинного обучения на основе нейронной сети, которая позволяет обойтись без разработки отдельных компонентов для моделирования различных отклонений, таких как шум, эхо и особенности речи.

Обратной стороной подобного подхода является то, что для получения качественного распознавания и обучения нейронной сети движок DeepSpeech требует большого объёма разнородных данных, надиктованных в реальных условиях разными голосами и при наличии естественных шумов.

Сбором подобных данных занимается созданный в Mozilla проект Common Voice, предоставляющий проверенный набор данных с 780 часами на английском языке, 325 на немецком, 173 на французском и 27 часами на русском.

Конечной целью проекта Common Voice является накопление 10 тысяч часов c записями различного произношения типовых фраз человеческой речи, что позволит достичь приемлемого уровня ошибок при распознавании. В текущем виде участниками проекта уже надиктовано в сумме 4.3 тысячи часов, из которых 3.5 тысячи прошли проверку. При обучении итоговой модели английского языка для DeepSpeech использовано 3816 часов речи, кроме Common Voice охватывающей данные от проектов LibriSpeech, Fisher и Switchboard, а также включающей около 1700 часов транскрибированных записей радиошоу.

При использовании предлагаемой для загрузки готовой модели английского языка уровень ошибок распознавания в DeepSpeech составляет 7.5% при оценке тестовым набором LibriSpeech. Для сравнения, уровень ошибок при распознавании человеком оценивается в 5.83%.

DeepSpeech состоит из двух подсистем - акустической модели и декодировщика. Акустическая модель использует методы глубинного машинного обучения для вычисления вероятности наличия определённых символов в подаваемом на вход звуке. Декодировщик применяет алгоритм лучевого поиска для преобразования данных о вероятности символов в текстовое представление.

Основные новшества DeepSpeech 0.6 (ветка 0.6 не совместима с прошлыми выпусками и требует обновления кода и моделей):

  • Предложен новый потоковый декодировщик, обеспечивающий более высокую отзывчивость и не зависящий от размера обрабатываемых звуковых данных. В итоге, в новой версии DeepSpeech удалось снизить задержку на распознавание до 260 мс, что на 73% быстрее, чем раньше, и позволяет применять DeepSpeech в решениях для распознавания речи на лету.
  • Внесены изменения в API и проведена работа по унификации имён функций. Добавлены функции для получения дополнительных метаданных о синхронизации, позволяющие не просто получать на выходе текстовое представление, но и отслеживать привязку отдельных символов и предложений к позиции в звуковом потоке.
  • В инструментарий для обучения модули добавлена поддержка использования библиотеки CuDNN для оптимизации работы с рекуррентными нейронными сетями (RNN), что позволило добиться существенного (примерно в два раза) увеличения производительности обучения модели, но потребовало внесения в код изменений, нарушающих совместимость с моделями, подготовленными ранее.
  • Минимальные требования к версии TensorFlow подняты с 1.13.1 до 1.14.0. Добавлена поддержка легковесной редакции TensorFlow Lite, при использовании которой размер пакета DeepSpeech уменьшен с 98 MB до 3.7 MB. Для использования на встраиваемых и мобильных устройствах с 188 MB до 47 MB также сокращён размер упакованного файла с моделью (для сжатия использован метод квантования после завершения обучения модели).
  • Языковая модель переведена на другой формат структур данных, позволяющий выполнять маппинг файлов в память при загрузке. Поддержка старого формата прекращена.
  • Изменён режим загрузки файла с языковой моделью, что позволило снизить потребление памяти и уменьшить задержки при обработке первого запроса после создания модели. В процессе работы DeepSpeech теперь потребляет в 22 раза меньше памяти и запускается в 500 раз быстрее.
  • Проведена фильтрация редких слов в языковой модели. Общее число слов сокращено до 500 тысяч самых популярных слов, встречающихся в тексте, использованном при тренировке модели. Проведённая чистка позволила снизить размер языковой модели с 1800МБ до 900МБ, практически не повлияв на показатели уровня ошибок распознавания.
  • Добавлена поддержка различных техник создания дополнительных вариаций (augmentation) звуковых данных, используемых при обучении (например, добавление к набору вариантов, в которые внесены искажения или шумы).
  • Добавлена библиотека с биндингами для интеграции с приложениями на базе платформы .NET.
  • Переработана документация, которая теперь собрана на отдельном сайте deepspeech.readthedocs.io.

9.0306 70.4558 0.5845 63.5653

НОВОСТИ: Платформа совместной работы Microsoft Teams доступна для Linux Wed, 11 Dec 2019 08:29:37 +0300

Компания Microsoft представила Linux-версию платформы Microsoft Teams, предоставляющей инструменты для организации совместной работы над документами, ведения заметок, планирования встреч, обмена файлами, общения сотрудников компании в чате и проведения видеоконференций. Microsoft Teams стал первым компонентом пакета Office 365, адаптированным для рабочих столов на основе Linux. Сборки Microsoft Teams для Linux доступны для тестирования в форматах deb и rpm.

Opera Firefox INFOBOX - хостинг Google Chrome