…Слава товар невыгодный, стоит дорого, сохраняется плохо.

Печень с тревогой ожидaлa предстоящей пятницы, ...

XMPP-клиенту yaxim исполнилось 10 лет
Sat, 24 Aug 2019 14:59:36 +0300

Операционной системе Unix исполнилось 50 лет
Sat, 24 Aug 2019 09:14:53 +0300

Google отказался от применения названий десертов для выпусков Android
Sat, 24 Aug 2019 08:42:29 +0300

IBM, Google, Microsoft и Intel образовали альянс для развития открытых технологий защиты данных
Fri, 23 Aug 2019 13:20:08 +0300

Компания Google представила инициативу Privacy Sandbox
Thu, 22 Aug 2019 23:26:03 +0300

Представлены варианты Qt5 для микроконтроллеров и OS/2
Thu, 22 Aug 2019 12:43:06 +0300

27 августа в Московском Политехе выступит Ричард Столлман
Thu, 22 Aug 2019 01:18:55 +0300

В Firefox, Chrome и Safari заблокирован внедряемый в Казахстане "национальный сертификат"
Wed, 21 Aug 2019 19:13:51 +0300

IBM объявил об открытии архитектуры процессоров Power
Wed, 21 Aug 2019 13:33:19 +0300

Xfce 4.16 ожидается в следующем году
Wed, 21 Aug 2019 09:08:46 +0300

Bitbucket прекращает поддержку Mercurial
Tue, 20 Aug 2019 22:59:58 +0300

Утверждено прекращение формирования репозиториев для архитектуры i686 в Fedora 31
Mon, 19 Aug 2019 23:31:48 +0300

OpenDrop - открытая реализации технологии Apple AirDrop
Mon, 19 Aug 2019 20:54:26 +0300

Представлено ответвление Proton-i, переведённое на более свежие версии Wine
Mon, 19 Aug 2019 09:38:24 +0300

В Chrome планируют полностью убрать поддержку FTP
Fri, 16 Aug 2019 08:38:58 +0300

Новости OPENNET
Новости

Подготовлен релиз системы оптического распознавания текста Tesseract 4.1, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX или SSE4.1.

Основные улучшения в Tesseract 4.1:

  • Добавлена возможность вывода в XML-формате ALTO (Analyzed Layout and Text Object). Для использования данного формата следует запустить приложение как "tessaract имя_изображения каталог_вывода alto";
  • Добавлены новые модули рендеринга LSTMBox и WordStrBox, упрощающие проведение обучения движка;
  • Добавлена поддержка псевдографики в выводе hOCR (HTML);
  • Добавлены написанные на языке Python альтернативные скрипты для тренировки движка на базе машинного обучения;
  • Расширены оптимизации с использованием инструкций AVX, AVX2 и SSE;
  • По умолчанию отключена поддержка OpenMP из-за проблем с производительностью;
  • В движке LSTM добавлена поддержка белых и чёрных списков;
  • Улучшены сборочные сценарии на базе Cmake.

9.2632 72.6243 0.6153 65.6046

НОВОСТИ: Организация Linux Foundation опубликовала автомобильный дистрибу ... Thu, 22 Aug 2019 20:34:32 +0300

Организация Linux Foundation представила восьмой выпуск дистрибутива AGL UCB (Automotive Grade Linux Unified Code Base), в рамках которого развивается универсальная платформа для использования в различных автомобильных подсистемах, от приборных панелей до автомобильных информационно-развлекательных систем.

???????@Mail.ru Opera Firefox INFOBOX - хостинг Google Chrome