Linux распознавание голоса - IT Новости из мира ПК
Semenalidery.com

IT Новости из мира ПК
704 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Linux распознавание голоса

Разбираемся с современными системами распознавания речи в Linux

Содержание статьи

Человека всегда привлекала идея управлять машиной естественным языком. Возможно, это отчасти связано с желанием человека быть НАД машиной. Так сказать, чувствовать свое превосходство. Но основной посыл — это упрощение взаимодействия человека с искусственным интеллектом. Управление голосом в Linux с переменным успехом реализуется без малого уже четверть века. Давай разберемся в вопросе и попробуем сблизиться с нашей ОС настолько, насколько это только возможно.

Суть дела

Системы работы с человеческим голосом для Linux существуют давно, и их великое множество. Но не все они корректно обрабатывают русскую речь. Некоторые и вовсе заброшены разработчиками. В первой части нашего обзора мы поговорим непосредственно о системах распознавания речи и голосовых ассистентах, а во второй — рассмотрим конкретные примеры их использования на Linux-десктопе.

Следует различать собственно системы распознавания речи (перевод речи в текст или в команды), такие как, например, CMU Sphinx, Julius, а также приложения на основе этих двух движков, и голосовые ассистенты, ставшие популярными с развитием смартфонов и планшетов. Это, скорее, побочный продукт систем распознавания речи, дальнейшее их развитие и воплощение всех удачных идей распознавания голоса, применение их на практике. Для Linux-десктопов таких пока мало.

Надо понимать, что движок распознавания речи и интерфейс к нему — это разные вещи. Таков базовый принцип архитектуры Linux — разделение сложного механизма на более простые составные части. Самая сложная работа ложится на плечи движков. Обычно это скучная консольная программа, работающая незаметно для пользователя. Пользователь же взаимодействует в основном с программой-интерфейсом. Создать интерфейс несложно, поэтому основные усилия разработчики направляют именно на разработку открытых движков распознавания речи.

Что было раньше

Исторически сложилось так, что все системы работы с речью в Linux развивались не спеша и скачкообразно. Причина не в криворукости разработчиков, а в высоком уровне вхождения в среду разработки. Написание кода системы для работы с голосом требует высокой квалификации программиста. Поэтому, перед тем как начать разбираться с системами работы с речью в Linux, необходимо сделать небольшой экскурс в историю. Была когда-то в IBM такая чудесная операционная система — OS/2 Warp (Merlin). Вышла она в сентябре далекого уже 1996 года. Кроме того, что она обладала очевидными преимуществами перед всеми остальными операционками, OS/2 была укомплектована весьма продвинутой системой распознавания речи — IBM ViaVoice. Для того времени это было очень круто, учитывая, что ОС работала на системах с 486-м процессором с объемом ОЗУ от 8 Мбайт (!).

Как известно, OS/2 проиграла битву Windows, однако многие ее компоненты продолжили существовать независимо. Одним из таких компонентов стала та самая IBM ViaVoice, превратившаяся в самостоятельный продукт. Так как IBM всегда любила Linux, ViaVoice была портирована на эту ОС, что дало детищу Линуса Торвальдса самую передовую для своего времени систему распознавания речи.

К сожалению, судьба ViaVoice сложилась не так, как хотели бы линуксоиды. Сам движок распространялся бесплатно, но его исходники оставались закрытыми. В 2003 году IBM продала права на технологию канадо-американской компании Nuance. Nuance, разработавшая, пожалуй, самый успешный коммерческий продукт для распознавания речи — Dragon Naturally Speeking, здравствует и ныне. На этом бесславная история ViaVoice в Linux практически закончилась. За то короткое время, что ViaVoice была бесплатной и доступной линуксоидам, к ней разработали несколько интерфейсов, таких, например, как Xvoice. Однако проект давно заброшен и ныне практически неработоспособен.

OS/2 Warp — система, которую мы потеряли

Что сегодня?

Сегодня все гораздо лучше. В последние годы, после открытия исходников Google Voice API, ситуация с развитием систем распознавания речи в Linux значительно улучшилась, выросло качество распознавания. Например, проект Linux Speech Recognition на основе Google Voice API показывает очень неплохие результаты для русского языка. Все движки работают примерно одинаково: сначала звук с микрофона устройства юзера попадает в систему распознавания, после чего либо голос обрабатывается на локальном устройстве, либо запись отправляется на удаленный сервер для дальнейшей обработки. Второй вариант больше подходит для смартфонов или планшетов. Собственно, именно так и работают коммерческие движки — Siri, Google Now и Cortana.

Из всего многообразия движков для работы с человеческим голосом можно выделить несколько активных на данный момент.

WARNING

CMU Sphinx

Большая часть разработки CMU Sphinx ведется в университете Карнеги — Меллона. В разное время над проектом работали и Массачусетский технологический институт, и покойная ныне корпорация Sun Microsystems. Исходники движка распространяются под лицензией BSD и доступны как для коммерческого, так и для некоммерческого использования. Sphinx — это не пользовательское приложение, а, скорее, набор инструментов, который можно применить в разработке приложений для конечных пользователей. Sphinx сейчас — это крупнейший проект по распознаванию речи. Он состоит из нескольких частей:

  • Pocketsphinx — небольшая быстрая программа, обрабатывающая звук, акустические модели, грамматики и словари;
  • библиотека Sphinxbase, необходимая для работы Pocketsphinx;
  • Sphinx4 — собственно библиотека распознавания;
  • Sphinxtrain — программа для обучения акустическим моделям (записям человеческого голоса).

Проект развивается медленно, но верно. И главное — его можно использовать на практике. Причем не только на ПК, но и на мобильных устройствах. К тому же движок очень хорошо работает с русской речью. При наличии прямых рук и ясной головы можно настроить распознавание русской речи с помощью Sphinx для управления домашней техникой или умным домом. По сути, можно обычную квартиру превратить в умный дом, чем мы и займемся во второй части этого обзора. Реализации Sphinx имеются для Android, iOS и даже Windows Phone. В отличие от облачного способа, когда работа по распознаванию речи ложится на плечи серверов Google ASR или Яндекс SpeechKit, Sphinx работает точнее, быстрее и дешевле. И полностью локально. При желании можно научить Sphinx русской языковой модели и грамматике пользовательских запросов. Да, придется немного потрудиться при установке. Равно как и настройка голосовых моделей и библиотек Sphinx — занятие не для новичков. Так как основа CMU Sphinx — библиотека Sphinx4 — написана на Java, можно включать ее код в свои приложения для распознавания речи. Конкретные примеры использования будут описаны во второй части нашего обзора.

VoxForge

Особо выделим понятие речевого корпуса. Речевой корпус — это структурированное множество речевых фрагментов, которое обеспечено программными средствами доступа к отдельным элементам корпуса. Иными словами — это набор человеческих голосов на разных языках. Без речевого корпуса невозможна работа ни одной системы распознавания речи. В одиночку или даже небольшим коллективом создать качественный открытый речевой корпус сложно, поэтому сбором записей человеческих голосов занимается специальный проект — VoxForge.

Читать еще:  Система инициализации linux

Любой, у кого есть доступ к интернету, может поучаствовать в создании речевого корпуса, просто записав и отправив фрагмент речи. Это можно сделать даже по телефону, но удобней воспользоваться сайтом. Конечно, кроме собственно аудиозаписи, речевой корпус должен включать в себя дополнительную информацию, такую как фонетическая транскрипция. Без этого запись речи бессмысленна для системы распознавания.

VoxForge — стартовый портал для тех, кто хочет внести свой вклад в разработку открытых систем распознавания речи

HTK, Julius и Simon

HTK — Hidden Markov Model Toolkit — это инструментарий для исследования и разработки средств распознавания речи с использованием скрытых марковских моделей, разрабатывается в Кембриджском университете под патронажем Microsoft (Microsoft когда-то выкупила этот код у коммерческого предприятия Entropic Cambridge Research Laboratory Ltd, а затем вернула его Кембриджу вместе с ограничивающей лицензией). Исходники проекта доступны всем желающим, но использование кода HTK в продуктах, предназначенных для конечных пользователей, запрещено лицензией.

Однако это не означает, что HTK бесполезен для Linux-разработчиков: его можно использовать как вспомогательный инструмент при разработке открытых (и коммерческих) средств распознавания речи, что и делают разработчики открытого движка Julius, который разрабатывается в Японии. Julius лучше всего работает с японским языком. Великий и могучий тоже не обделен, ведь в качестве голосовой базы данных используется все тот же VoxForge.

Продолжение доступно только участникам

Вариант 1. Присоединись к сообществу «Xakep.ru», чтобы читать все материалы на сайте

Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», увеличит личную накопительную скидку и позволит накапливать профессиональный рейтинг Xakep Score! Подробнее

Linux распознавание голоса

Давайте посмотрим на Linux-программы распознавания речи с точки зрения Китая. Производители Linux-систем со временем начнут их производство в Китае, так как здесь обеспечивается низкая стоимость работы и большой потребительский рынок аппаратного обеспечения такого рода. Кроме того, оборудование отсюда может поставляться на другие важные рынки в мире.

Linux-компьютеры могут включать в себя системы распознавания речи, такие как IBM ViaVoice. Это особенно полезно носителям китайского языка, поскольку, как у мандаринского, так и у кантонского диалектов языка очень сложная письменная форма. Следовательно, системы распознавания речи облегчили бы создание документов. Использование клавиатуры для китайского языка практически невозможно, из-за огромного количества значащих символов.

Другие языки тоже выиграют от использования программ распознавания речи: например, повысится скорость ввода информации. Специалисты перестанут нуждаться в клавиатуре и мышке для работы с информацией. [И начнут остро нуждаться в системах звукоизоляции. 🙂 Представляете машино-. ээ.ээ . -голосовой отдел, где 50 человек наговаривают текст? %-) Прим.ред.] Управляемые голосом, легко доступные телефонные системы затронут все профессии. Например водители отметят, что управление машиной с помощью голоса много удобнее традиционных методов.

Одно лишь применение систем распознавания голоса на базе Linux в сфере ухода за больными может оправдать их разработку. Услуги ухода за больными являются одними из самых дорогих в странах десятки (члены Международного валютного фонда, принявшие на себя обязательства по Общему положению о заимствовании — Прим.пер.) и, кроме того, являются одним из самых быстрорастущих рынков. Работники этой сферы получат возможность описывать процесс лечения и ухода за больными своей обычной речью. Распознавание голоса создаст автоматизированное окружение, позволяющее легко и быстро анализировать, лечить и описывать сложные случаи.

Электронное медицинское оборудование, соединенное в беспроводную локальную сеть даст возможность.

  • . административному персоналу больницы:
    • более эффективно использовать ресурсы
    • достигнуть качественного и эффективного управления
    • значительно уменьшить количество ошибок при записи (копировании)
    • уменьшить расходы
    • использовать при необходимости любую комнату, как телеметрическую (то есть проводить лабораторные измерения в любой комнате, не завися от расположения центрального оборудования)
  • . врачебному персоналу :
    • иметь доступ 24/7 ко всем жизненно-важным данным
    • уделять больше времени врачебной практике (освобождая от рутинных ручных операций — Прим.пер.)
    • видеть изменения состояния больного в реальном времени, позволяя быстро на это реагировать

В медицине простота, надежность и низкая стоимость Linux для серверов, встроенных устройств, планшетных и настольных ПК обеспечивает ему главенствующую роль. В США только 10% документов медицинской сферы находятся в электронном виде из-за громоздкой и ненадежной природы Windows-систем. 30% средств сферы уходит на ручное создание документов, а значительное количество случаев медицинской небрежности связано с неправильным копированием небрежно записанных медицинских документов и указаний, что может подтвердить любой, кто видел выписанный рецепт.

Очевидно, что рынок для таких технологий существует. Остается найтись компании с энергичными людьми, которая захочет попасть на этот рынок. В результате распространится технология, удовлетворятся потребности многих отраслей и будет создан новый рынок, не занятый Microsoft: вспомогательные технологии (assistive technology, AT). Фактически, рынок уже существует, но должен быть расширен для включения нетрудоспособных и инвалидов.

Да, распознавание речи очень перспективно. Однако эта технология не идеальна и требует усовершенствований. Например, чтение по губам для дополнительной проверки правильности распознавания, много-тональный голосовой ввод, направленные микрофоны. Каждое поколение систем распознавания речи будет совершеннее, как и аппаратура для Linux.

Учим linux понимать голосовые команды

А почему бы не научить своего пингвина понимать нашу речь? Причём не просто понимать, а ещё выполнять команды… да проще простого. Т.к. гугл открыл свой api для распознавания речи всем желающим, то для успеха нам нужно не более 2-х кб кода.

Практически всю работу уже сделал Andrey_B я лишь слегка поломал улучшил скрипт. Но всё равно, возможно, что придётся изрядно повозиться с настройками.

В первую очередь нам нужно будет установить пакеты: sox, flac и php5-curl

Далее понадобится 4 файла, все их можно скачать по этой ссылке. Закидываю на дропбокс, ибо там мне удобнее обновлять скрипт.
Распаковываем их в любую папку, но файл mic лучше поместить в

/bin, иначе придётся менять в нём путь. Остальные 3 файла(vocom, texttocmd.php и say.php) должны лежать в одной папке.
Затем запускаем в терминале файл vocom (./vocom).
И пробуем, что-нибудь произнести в микрофон.

Должно получится примерно так:

Меняем громкость с помощью голосовых команд

Если ничего не происходит, а видите только мигающий курсор, и в папке появился звуковой файл, значит барахлит чувствительность микрофона. Остановить скрипт можно нажав Cntrl+Z.

В скрипте vocom есть значения вида silence 1 0.3 3% 1 0.3 3%. 0,3 отвечает за параметр тишины. Если его поднять, то программа должна, по идее, прекратить запись и продолжить выполнения скрипта. Я не смог этого добиться… видимо мой микрофон совсем убит. Выход был найден следующий: я повесил скрипт mic, который включает или отключает микрофон, на клавишу клавиатуры. Как это сделать можно почитать здесь, внизу статьи.

Читать еще:  Ошибка dpc watchdog

Скрипт настроен под мои настройки, возможно у каждого они будут свои. Во время подбора оптимальных параметров я пользовался:

Выглядело это так:

Для удобства можно в скрипт vocom добавить ключ -S, что бы видеть уровень микрофона и процесс записи.

Допустим с микрофоном вы разобрались, осталось научить linux выполнять наши команды. обратимся к файлу texttocmd.php .
Отыщем в нём следующие строки:

Не сложно догадаться, как добавить сюда новые команды. Следует отметить, что команда сработает, только при наличии всех последовательностей букв, которые перечислены через запятую. Например можно сказать: «Проверь, не пришли ли новые письма на почту» и выполнится команда «thunderbird». Но на одно слово «почта» скрипт не отреагирует.

Как же лучше пользоваться этим голосовым управлением? Если вы не так часто разговариваете по микрофону, то файл» vocom» можно закинуть в автозагрузку, а активировать команды запуском скрипта «mic», который висит на клавише. Хотя для для обычного пользователя отдавать команды голосом — это скорее просто развлекаловка. Но возможно вы сможете найти лучшее применение, чем я.

Примерно подобные скрипты используются в системе «умный дом». Но есть и более простые варианты, которым не нужен гугловский распознаватель, например, управление освещением беспроводное голосом. Пользоваться таким устройством не сложнее, чем приготовить пареную репу.

Программное обеспечение для распознавания речи для Linux — Speech recognition software for Linux

Есть в настоящее время несколько распознавания речи пакетов программного обеспечения для Linux . Некоторые из них являются свободным и программным обеспечением с открытым исходным кодом , а другие являются частными собственностью. Распознавание речи обычно относится к программному обеспечению , которое пытается отличить тысячи слов в человеческом языке. Голосовое управление может относиться к используемому программному обеспечению для отправки команды управления к компьютеру.

содержание

распознавания речи Native Linux

история

В конце 1990 — х годов, версия Linux из ViaVoice (созданный IBM ) был доступен пользователям для бесплатно. Тем не менее, свободный SDK был удален разработчиком в 2002 году.

Текущее состояние развития

В последнее время был толчок , чтобы получить модуль распознавания речи родной Linux высокого качества , разработанный. В результате многочисленные проекты , посвященные созданию были созданы Linux решений распознавания речи, такие как Майкрофт . Майкрофт похож на Microsoft, Cortana , но с открытым исходным кодом.

Краудсорсинг речевых образцов

Крайне важно , чтобы составить речевой корпус для создания акустических моделей для распознавания речи проектов. VoxForge является свободной речью корпуса и акустические модели хранилища , который был построен с целью сборной транскрибируются речь быть использован в проектах распознавания речи. VoxForge принимает Crowdsourced образцов речи и коррекцию признанных речевых последовательностей. Она распространяется под лицензией GPL .

Концепция распознавания речи

Первый шаг, чтобы начать запись аудиопотока на машине Linux. Пользователь имеет два основных варианта обработки:

  • (DSR) Дискретное Распознавание речи — процесс распознавание голоса полностью на локальной машине. Это относится к автономным системам , в которых все аспекты SR (Распознавание речи) выполняются полностью в компьютере пользователя. Это становится критическим для защиты интеллектуальной собственности (интеллектуальной собственности) и избежать нежелательного наблюдения ( в 2018 году).
  • (Удаленный) SR на базе сервера , который передает файл речевой к удаленному серверу для преобразования звукового файла в текстовую строку. В связи с последними схемами хранения Облака и интеллектуальным анализом данных, этот метод легко позволяет наблюдение, кража интеллектуальной собственности и внедрение вредоносных программ.

FYI, второй вариант (дистанционный) ранее использовалась на смартфоны, поскольку они не обладают достаточной производительностью, дискового пространства и оперативной памяти для обработки распознавания речи на борту ограничения phone.These в основном преодолен, хотя на основе сервера SR на мобильных устройствах остается универсальным.

Распознавание речи в браузере

Дискретные распознавания речи может быть выполнено в веб-браузере, а также работает с поддерживаемыми браузерами. Remote SR не требует установки программного обеспечения на рабочем столе компьютера или мобильного устройства, как это в первую очередь система на основе сервера с присущими вопросам безопасности, отмеченных выше.

  • (Remote) : https://dictation.io (использование Хром / Хром) Служба диктовку записывает звуковую дорожку пользователя через веб — браузер. В свою очередь, dictation.io использует API Google для распознавания речи. В Google Docs, Google Голосовой ввод работает в браузере Chrome, независимо от операционной системы , поскольку она представляет собой систему на основе сервера.
  • (DSR) : Есть решения , которые работают только на клиенте, без отправки данных на сервер, например pocketsphinx.js .

двигатели распознавания речи Free

Ниже приведен список текущих проектов, посвященных реализующее распознавание речи в Linux, а также основные нативные решения. Это не конечный пользователь приложения. Они программируют библиотеки, которые программист может использовать для разработки приложений для конечных пользователей.

  • CMU Sphinx является общим термином для описания группы систем распознавания речи , разработанные в университете Карнеги — Меллона.
  • Julius является высокопроизводительным, два прохода большого словаря распознавания непрерывной речи (LVCSR) декодер программного обеспечения для речевых связанных исследователей и разработчиков.
  • Kaldi инструментарий для распознавания речи , представленной в соответствии с лицензией Apache.
  • Mozilla DeepSpeech развивается с открытым исходным кодом Speech-To-Text двигатель в основанный на научно — исследовательскую работу глубокой речи Бэйду. Он предназначен для использования конечным пользователем в ближайшие месяцы.

Возможно, активные проекты:

  • Lera (Большой словарь распознавания речи) на основе Саймона и CMU Sphinx для KDE.
  • Speechpad.pw использует Google, механизм распознавания речи и Chrome родные сообщений API для обеспечения прямого речевого ввода в Linux.
  • Речь использует движок распознавания речи Google, чтобы поддерживать диктант на разных языках.
  • Речь управление : это Qt-приложение , которое использует CMU Sphinx инструменты «s как SphinxTrain и PocketSphinx обеспечить утилиты распознавания речи , как контроль рабочего стола, диктат и транскрибировать на рабочий стол Linux.
  • Утконос является открытым исходным кодом , который прокладка позволит патентованный Dragon NaturallySpeaking работает под Wine работать с любым приложением Linux X11.
  • FreeSpeech, от разработчика Platypus, является настольным приложением кросс-платформенный бесплатно и с открытым исходным кодом для GTK , который использует CMU Sphinx инструменты «s для обеспечения голосовой диктовки, изучение языка и редактирование в стиле Dragon NaturallySpeaking.
  • Vedics (Voice Enabled Desktop Взаимодействие и система управления) является речевой помощник для GNOME среды
  • GnomeVoiceControl диалог системы для управления рабочего стола GNOME , который был разработан в Google Summer Кодекса в 2007 году.
  • Nati система голосового управления многоязычным написана на Python
  • SphinxKeys позволяет пользователю вводить клавиши клавиатуры и щелчки мыши, говоря в микрофон их.
  • VoxForge является свободой слова и корпусом акустического хранилище модели с открытым исходным кодом двигателей распознавания речи.
  • Саймон стремится быть чрезвычайно гибким , чтобы компенсировать диалекты или даже нарушение речи. Он использует либо НТК / Julius или CMU СФИНКС, работает на ОС Windows и Linux и поддерживает обучение.
  • Speeral Speeral группа инструментов распознавания речи разработаны в университете в Авиньоне
  • Jasper проектhttps://jasperproject.github.io/ Jasper является открытым исходным кодом платформы для разработки всегда на, с голосовым управлением приложений. Это встроенный Raspberry Pi фронт-енд для CMU Sphinx или Julius
Читать еще:  Добавление диска в linux

Можно разработчикам создавать программное обеспечение для распознавания речи Linux с использованием существующих пакетов, полученных от проектов с открытым исходным кодом.

  • CVoiceControl является KDE и X Window независимая версия своего предшественника KVoiceControl. Владелец прекратил развитие в альфа-стадии разработки.
  • Open Mind Speech, часть инициативы Open Mind, направлен на развитие свободных (GPL) средства распознавания речи и приложений, а также собирать данные речи. Производство закончилось в 2000 году.
  • PerlBox является Perl управления и речевым выходом на основе. Разработка состава на ранних стадиях в 2004 году.
  • Xvoice пользовательского приложения для обеспечения диктовки и команды управления для любого X приложения. Развитие закончилось в 2009 году во время начала тестирования проекта. (Требуется собственный ViaVoice для функции)

Фирменные распознавания речи двигателей

  • Verbio ASR коммерческий сервер распознавания речи для Linux и окон платформ.
  • DynaSpeak, из SRI International , (дикторонезависимой распознавания речи комплекта для разработки программного обеспечения , которое масштабируется от малых до больших систем, для использования в коммерческих, потребительских и военных приложений)
  • Janus Recognition Toolkit (JRTk) является закрытым исходным кодом инструментарий распознавания речи в основном ориентированы на Linux , разработанная Systems Laboratories Interactive , разработанные в университете Карнеги — Меллона и Технологический институт Карлсруэ , для которых коммерческие и исследовательские лицензии доступны.
  • LumenVox Speech Engine является коммерческой библиотекой для Linux и Windows , для включения в других программах. Она была интегрирована в Asterisk системы обмена учрежденческой.
  • VoxSigma представляет собой набор программного обеспечения распознавания речи , разработанная Vocapia Research .

Голосовое управление и быстрые клавиши

Распознавание речи обычно относится к программному обеспечению , которое пытается отличить тысячи слов в человеческом языке. Управление голоса может относиться к программному обеспечению , используемое для отправки оперативной команды на компьютер или устройство. Голосовое управление , как правило , требует гораздо меньшего словарного запаса и , таким образом , гораздо легче реализовать.

Простое программное обеспечение в сочетании с сочетанием клавиш , имеет самый ранний потенциал для практически точного управления голосом в Linux.

Запуск программы распознавания речи для Windows с Linux

Используя слой совместимости

Можно использовать такие программы, как Dragon NaturallySpeaking в Linux, используя Wine , хотя могут возникнуть некоторые проблемы, в зависимости от используемой версии.

Использование виртуализованных ОС Windows

Также можно использовать программное обеспечение для распознавания речи для Windows под Linux. Используя не-стоимость виртуализации программного обеспечения, можно запустить Windows , и NaturallySpeaking под Linux. VMware Server или VirtualBox поддержка копирования и вставки в / из виртуальной машины, делая продиктовал текст легко перенести в / из виртуальной машины.

Speechpad.ru

Поддержка пользователей и инструкции

Интеграция голосового блокнота с Linux (Ubuntu и др.)

Возможности интеграции

Эта статья об интеграции с Linux, смотри соответсвенно интеграцию с Windows и интеграцию с Mac.

Интеграция голосового блокнота с Linux позволяет вводить текст голосом напрямую в приложениях Linux.

Установка интеграции с Linux

1. Устанавливаем браузер Google Chrome.
2. Устанавливаем расширение с магазина Google Chrome.

3. Скачиваем модуль интеграции в зависимости от разрядности Linux: модуль для 32 разрядной от 07.11.2016, модуль для 64 разрядной от 07.11.2016. Распаковываем, открываем папку в окне терминала, проверяем права на запуск у файла bash скрипта install_host.sh и запускаем его (не нужно при этом использовать sudo, то есть запуск должен быть от пользователя).

4. Регистрируемся в голосовом блокноте, вводим, полученный логин и пароль, нажимаем Войти.

5. Переходим в кабинет пользователя (ссылка появится) и
нажимаем там на кнопку Включить тестовый период.

6. Переходим вновь на https://speechpad.ru (закрывает остальные вкладки браузера с блокнотом, если они открыты), обновляем страницу, отмечаем флажок Интеграции с OS и нажимаем на кнопку Включить запись.

7. Открываем любое приложение, например Gedit, и диктуем в него.

8. Если вам понравилось пользоваться модулем интеграции, то делаем заказ на включение его на выбранный вами срок.

Пример установки голосового ввода в Ubuntu

Удаление модуля интеграции

Удалять модуль можно, если вы не хотите с ним работать больше.

1. Проверяем права на выполнение для файла uninstall_host.sh и запускаем этот файл в окне терминала.
2. Удаляем папку с модулем интеграции.

Работа с модулем интеграции

Возможности интеграции с Linux в целом схожи с возможностями интеграции с Windows, но в Linux голосовой ввод зависит он установок клавиатуры и возможен только при активации соответствующей раскладки. То есть, если вы вводите текст на русском, то должна быть активна русская раскладка. Кроме того для большинства Linux этот язык должен быть установленный по умолчанию в системе (первым в списке раскладок клавиатуры), хотя для Ubuntu это необязательно.

Для модуля интеграции с Linux не реализован голосовой ввод горячих клавиш.

История версий

13.06.2016 — первая версия

05.11.2016 — исправлена грубая ошибка

07.11.2016 — Поправлена обработка знаков пунктуации и цифр.

Навигация по записям

Интеграция голосового блокнота с Linux (Ubuntu и др.) : 9 комментариев

«Установка программ с собственным инсталлятором из файлов sh, run
Иногда программы могут распространяться с собственным инсталлятором. Это ничем не отличается от ситуации в Windows. Только здесь, распаковав tar.gz архив с дистрибутивом программы, вы вместо setup.exe увидите что-то наподобие install.sh. Это заранее собранный пакет ПО, который оформлен в виде скрипта или бинарника, он берёт на себя работу по размещению файлов в нужных местах и прописыванию нужных параметров. При этом пропадает возможность управлять таким ПО с помощью пакетного менеджера.

Пользоваться такими пакетами нежелательно,

но если выбора нет, то переходим в директорию с файлом, например:»

1. Жаль, что выбора нет!
2. Хорошо бы наладили на уровне пакетного менеджера!

Большое спасибо за разработку модуля для линукса.

Рад что вам он пригодился.

Добрый день! По какой-то причине не проставляется галочка в Интеграции, все оплачено, раньше работало, но теперь никак не включается. Скрин сделала, но не могу понять, как его прикрепить.
Помогите, пожалуйста!

Ура!
Галочка проставилась!
Спасибо, большое!

Добрый день! Как можно сделать так чтобы переводить напечатанный в буфер обмена текст одной кнопкой на Linux?

Ссылка на основную публикацию
Adblock
detector