Закон Росса

Не характеризуйте заранее важность высказываемой мысли.

Новая сказка про трех медведей. Мишутка, глядя на нулевый баланс на счету у провайдера (грозно): ...

Инициатива по передаче в основное ядро Linux специфичных для Android изменений
Thu, 22 Nov 2018 11:54:29 +0300

В Firefox 65 будет переработан интерфейс настройки блокировки контента
Thu, 22 Nov 2018 08:19:23 +0300

Линус Торвальдс поднял вопрос целесообразности расширенной защиты от Spectre v2
Tue, 20 Nov 2018 09:48:49 +0300

В ночные сборки Firefox добавлена поддержка Wayland
Sat, 17 Nov 2018 12:19:38 +0300

Amazon выпустил Corretto, дистрибутив OpenJDK с длительным сроком поддержки
Fri, 16 Nov 2018 21:56:19 +0300

Время поддержки Ubuntu 18.04 увеличено до 10 лет
Thu, 15 Nov 2018 22:28:55 +0300

Представлена новая плата Raspberry Pi 3 Model A+
Thu, 15 Nov 2018 12:31:03 +0300

Подведены итоги выборов технического совета Linux Foundation
Thu, 15 Nov 2018 09:18:07 +0300

Debian запрещает использование в пакетах секции со специфичными для вендоров патчами
Wed, 14 Nov 2018 09:03:34 +0300

В Chrome развивается API для создания полноценных пользовательских приложений
Mon, 12 Nov 2018 23:58:04 +0300

Mozilla тестирует в Firefox две новые возможности: Price Wise и Email Tabs
Mon, 12 Nov 2018 21:15:57 +0300

Red Hat перевёл проект Ceph под покровительство Linux Foundation
Mon, 12 Nov 2018 18:26:46 +0300

HTTP поверх протокола QUIC будет стандартизирован как HTTP/3
Mon, 12 Nov 2018 08:27:27 +0300

Опубликован стандарт параллельного программирования OpenMP 5.0
Fri, 09 Nov 2018 10:49:14 +0300

Свободный проект Manuel Bastioni Laboratory закрывается
Fri, 09 Nov 2018 10:11:44 +0300

Новости OPENNET
Новости

Проект Mozilla опубликовал первый выпуск модели для системы машинного обучения, ориентированной на распознавание речи. Также опубликован использованный для тренировки модели набор голосовых данных, собранный в результате инициативы Common Voice и включающий примеры произношения около 20 тысяч людей, которые надиктовали почти 400 тысяч записей суммарной продолжительностью 500 часов.

Благодаря участию в проекте большого числа добровольцев, удалось сформировать одну из крупнейших баз голосовых шаблонов, учитывающих всё разнообразие голосов и манер речи. Собранная база позволила натренировать модель для системы машинного обучения до уровня распознавания речи, при котором число ошибок примерно соответствует распознаванию обычным человеком при прослушивании тех же записей. В текущем виде число ошибок распознавания составляет 6.5% при использовании тестового набора LibriSpeech. Для сравнения, уровень ошибок при распознавании человеком оценивается в 5.83%, а уровень ошибок при работе Google Speech составляет 6.64%, wit.ai - 7.94%, Bing Speech - 11.73%, Apple Dictation - 14.24%.

В основе системы распознавания речи Mozilla лежит движок

DeepSpeech, созданный с использованием открытой компанией Google платформы машинного обучения TensorFlow. DeepSpeech реализует в коде одноимённую архитектуру распознавания речи, предложенную исследователями из компании Baidu. Предложенный Mozilla набор помимо модели распознавания речи и примеров произношения включает готовые к применению модули для Python и NodeJS, позволяющие без лишних усложнений встроить в свои программы функции распознавания речи. Также поставляется инструментарий для распознавания из командной строки. Движок распознавания речи достаточно быстр и не требователен к ресурсам, что позволяет использовать его даже на платах Raspberry Pi.

DeepSpeech значительно проще традиционных систем и при этом обеспечивает более высокое качество распознавания при наличии постороннего шума. В разработке не используются традиционные акустические модели и концепция фонем, вместо них применяется хорошо оптимизированная система машинного обучения на основе нейронной сети, что позволяет обойтись без разработки отдельных компонентов для моделирования различных отклонений, таких как шум, эхо и особенности речи. Особенностью DeepSpeech является то, что для получения качественного распознавания данная архитектура требует большого объёма разнородных данных для осуществления обучения, надиктованных в реальных условиях разными голосами и при наличии естественных шумов.

Опубликованный набор голосовых данных не ограничен применением в DeepSpeech и может оказаться полезным и для других открытых проектов, занимающихся распознаванием речи, таких как Sphinx, Kaldi, VoxForge, ISIP, HTK и Julius. До сих пор исследователям и разработчикам были доступны только ограниченные наборы голосовых данных, а стоимость полноценных коллекций голосовых выборок исчислялась десятками тысяч долларов, что сильно тормозило независимые исследования в области распознавание речи. В настоящее время работа сосредоточена только на распознавании английского языка, но в первой половине 2018 года планируется приступить к сбору примеров произношения для других языков.

65.9485 75.1483 0.5843 9.5034

НОВОСТИ: В Ghostscript 9.26 устранена очередная порция уязвимостей Thu, 22 Nov 2018 08:54:05 +0300

Представлен релиз набора инструментов для обработки, преобразования и генерации документов в форматах PostScript и PDF - Ghostscript 9.26, в котором устранено несколько уязвимостей, которые позволяют организовать выполнение в системе произвольного кода при обработке в Ghostscript специально оформленных документов.

???????@Mail.ru Opera Firefox INFOBOX - хостинг Google Chrome