Обсуждение:Синтез речи

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

В ближайших планах:

  1. сделать раздельчик что-то вроде «Программные реализации синтезаторов речи» и осветить там современные программные TTS-системы плюс всякие Speech API и SDK, а, может, и на аппаратные замахнуться, токо по ним мало инфы (в основном коммерческого характера) :(
  2. сократить скучный раздел «Способы синтеза речи» — разбить его на отдельные статьи или переписать, хотя даже в таком виде он мне нравится: классификация здесь более строгая, чем в английском вики-аналоге (кстати, оттуда надо выжать по максимуму хорошего)
  3. написать статьи, на которые ведут крассные ссылки, кое-какие уже написал :)
  4. украсить статью иллюстрациями, токо с этими копирайтами, рука пока не поднимается, а так хочется японского робота вставить, мочи нет :)
  5. когда все будет готово, разобраться с категориями

Одному надоело уже писать, приглашаются соавторы ;)--Morpheus 20:02, 22 марта 2006 (UTC)[ответить]

1.Относительно пункта 1- есть статья про синтезаторы в Linux http://linux.tiflocomp.ru/docs/ux_synths.php

2.Относительно пункта 3- чего там с красными ссылками?

3. Относительно пункта 1- Выжимайте английский аналог,пожалуйства, редактируйте лирику:

Способы синтеза речи

Для описания качества системы синтеза речи применяются два параметра- естественность звучания и понятность речи. Под естественностью звучания речевого синтезатора понимается на сколько получаемые звуки приближены к естественной речи человека. Под разборчивостью/легкость для понимания речевого синтезатора понимается на сколько легко можно понять искусственную речь. Идеальный речевой синтезатор должен обладать обеими характеристиками: и естественностью звучания и разборчивостью, и различные способы синтеза речи пытаются оптимизировать эти две характеристики. Некоторые из этих способов синтеза речи лучше передают естественность звучания, другие - понятность. А цели систем синтеза часто определяют избираемый подход. Существует два основных способа, используемых для генерирования синтезированных речевых сигналов: конкатенативный и формантный синтез. Конкатенативный синтез В основе конкатенативного синтеза лежит конкатенация/соединение (или компиляция) сегментов записанной речи. Как правило, конкатенативный синтез придает естественность звучанию синтезированной речи. Тем не менее, естественные колебания в речи и автоматизированные технологии сегментации речевых сигналов создают шумы в полученном фрагменте, которые снижают естественность звучания. Существует три подвида конкатенативного синтеза. Параметрический синтез Параметрический синтез использует огромную речевую базу данных (записанная речь белее часового звучания). В процессе создания базы данных, каждое записанное речевое сообщение разбивается на несколько отрезков или на: отдельные фоны, слоги, морфемы, фразы и предложения. Обычно сегментация на отрезки при помощи специально созданного устройства для распознавания речи, настроенного на режим "вынужденного регулирования", требующим затем правки в ручном режиме при помощи средств, дающих зрительное представление, таких как изменение амплитуды сигнала во времени и спектрограммы. Перечень единиц в речевой базе данных создается на основе сегментации и акустических параметров, таких как собственная частота (высота тона), длительность, позиция в слоге и окружающие фоны. Во время выполнения необходимое речевое сообщение создается путем определения подходящей цыпочки возможных единиц из базы данных (выбор единиц). Процесс обычно осуществляется при помощи специально продуманного дерева решений. Параметрический синтез позволяет передать максимальную естественность звучания благодаря тому, что не проводится масштабная цифровая звуковая обработка записанной речи, которая обычно не позволяет записанной речи звучать более или менее натурально, хотя в некоторых системах используется незначительная звуковая обработка в месте компиляции для выравнивания формы сигнала. Действительно, полученный фрагмент из системы оптимального выбора единиц часто неотличим от естественных голосов людей, особенно в ситуациях, для которых настраивают системы TTS. Хотя максимальная естественность звучания часто требует наличия больших данных отфрагментированной речи, в некоторых системах насчитываются гигабайты записанных данных, которые вмещают десятки часов записанной речи. Дифонный синтез Для дифонного синтеза применяется минимальная речевая база, которая содержит все дифоны (переходы от звука к звуку), существующие в данном языке. Количество дифонов в конкретном языке зависит от фонотактики (сочетаемости фонем) данного языка: в испанском языке насчитывается около 800 дифонов, в немецком - около 2500. При дифонном синтезе только один пример каждого дифона содержится в речевой базе. В процессе требуемая просодия предложения накладывается на эти минимальные единицы при помощи технологий цифровой звуковой обработки, таких как кодирование методом линейного предсказания, PSOLA или MBROLA. Качество полученной речи обычно не такое хорошее как при unit selection, но ее звучание более естественное, чем при формантном синтезе. Дифонный синтез имеет недостатки- наличие акустических шумов как и при конкатенативном синтезе и "роботоподобное" звучание как и при формантном синтезе, и имеет немного преимуществ- подход в решении задачи и небольшие габариты. Применение этого метода в коммерческих целях сокращается, но его все еще продолжают использовать в исследованиях, потому что существует огромное количество областей для его применения. Параметрический синтез Параметрический синтез компилирует записанные заранее слова и фразы для создания полных речевых сообщений. Он используется в приложениях, где многообразие текстов системы будет ограничено определенной темой/областью, например объявления об отправлении поездов и прогнозы погоды. Это технология проста в использовании, долго применялась в коммерческих целях: эту технологию применяли при изготовлении электронных приборах, таких как говорящие часы и калькуляторы. Естественность звучания этих систем потенциально может быть высокой благодаря тому, что многообразие видов предложений ограничено и близкое соответствие просодии и интонации исходных записей. Но так как эти системы ограничены выбором слов и фраз в базе данных, они не могут иметь широкое распространение, и могут синтезировать комбинации слов и фраз, на которые они были запрограммированы. Формантный синтез Формантный синтез не использует никаких образцов человеческой речи. Напротив, речевое сообщение синтезированной речи создается при помощи акустической модели. Параметры, таки как собственная частота, озвончение и уровни шума варьируются по прошествии времени и создают форма сигнала искусственной речи. Этот метод иногда называют синтез по правилам, но многие оспаривают это, так как многие конкатенативные системы используют компоненты синтеза по правилам для некоторых частей системы, например, передняя/клиентская часть, термин- неточный. Многие системы, в основе которых лежат технологии формантного синтеза генерируют искусственную, речь с "роботоподобным" звучанием, и получающееся речевое сообщение ни при каких обстоятельствах нельзя спутать с естественной речью человека. Однако, максимальная естественность звучания не всегда является целью речевой синтезирующей системы, а системы формантного синтеза имеют некоторые преимущества перед конкатенативными системами. Формантно-синтезированная речь может быть очень понятной, и даже при большой скорости в ней нет акустических шумов, присущих для конкатенативных систем. Высокая скорость синтезированной речи часто используется для людей с проблемами зрения для быстрого наведения компьютеров при помощи скрин-ридера. Во-вторых, формантные синтезаторы часто программы, которые меньше по размеру, чем конкатенативные системы, так как у них нет базы данных речевых образцов Они могут использоваться во встроенных компьютерных ситуациях, так как требуемые память и мощность процессора минимальны. И, наконец, так системы, в основе которых лежит формантный синтез осуществляют всеобщий контроль за всеми аспектами создаваемого речевого сообщения, то результатом может стать широкое разнообразие просодии или интонации, передающие не только вопросы и утверждения, но и спектр эмоций и тонов голоса. Другие способы синтеза речи • Атикуляторный синтез до не давнего времени представлял интерес только в основном для научных целей. В его основе лежат численное моделирование речевого тракта человека и артикуляторные процессы, происходящие там. Лишь немногие из этих моделей недавно были значительно улучшены и стали эффективны для коммерческого использования в речевых синтезированных системах. Счастливым исключением стала и система на базе NeXT, первоначально создавалась и разрабатывалась Триллиум Саунд Ресеч Инк. (Trillium Sound Research Inc), a Calgary, Alberta, Canada-based software spin-off company из Университета Калгари, где провели большую часть оригинального исследования. Following the demise of the various incarnations of NeXT (основанная Стивом Джобсон (Steve Jobs) в конце 1980-х и объединилась с компанией Apple в 1997) the Trillium software was put out under a General Public Licence (GPL) см сайт GNU, with work continuing as gnuspeech -- a GNU project. The original NeXT software and recent ports of major portions of that software to both Mac OS/X и GNU/Linux GNUstep are available на сайте GNU вместе с доступом к инструкциям по эксплуатации и статьями относительно теоретической основы работы. Система, впервые появившаяся в 1994, доказала возможность full articulatory-based text-to-speech conversion при помощи waveguide или transmission-line аналогов ротового и носового трактов человека под наблюдением Carré's Distinctive Region Model что, in turn, based on work by Gunnar Fant и других в Стокгольмской технологической лаборатории речи при Королевском Институте Технологии формантного анализа (Stockholm Speech Technology Lab of the Royal Institute of Technology on formant sensitivity analysis). Эта работа доказала, что форманты в трубке с резонатором можно отслеживать только по восьми параметрам, которые очень близки естественным артикуляторам речевого тракта человека. Система охватывает словарь произношения полностью look-up together с правилами контекста для размещения компиляции и параметров для генерирования, а так же модели ритма и интонации, заимствованные из лингвистических/фонологических исследований. • Гибридный синтез объединяет в себе черты формантного и конкатенативного синтеза, целью которого является максимально уменьшить акустические шумы в процессе речевых сегментов. • Синтез на основе HMM- способ синтеза на основе скрытой марковской модели: (Hidden Markov Models- HMM). В этой системе речевой частотный спектр (речевой тракт), собственная частота (синтезатор речи), и длительность (просодия) создаются/моделируются одновременно при помощи скрытых марковских моделей. Речевые формы сигнала генерируются из скрытых марковских моделей, которые в свою очередь базируются на критерии максимального правдоподобия.

Заявление "...порой не отличить от реальной человеческой речи" мягко говоря не соответствует действительности. Тот же усиленно рекламируемый vitalvoice от ЦРТ, несмотря на заявления его разработчиков, генерит голос который подходит разве что для озвучки каких-нибудь информационных сообщений. И то, если при неправильном понимании этих сообщений, ничего серьезного не произойдет. Озвученный же голосами из этой программы текст можно слушать не более пары минут, иначе начинает просто болеть голова. Так что в этой области еще непочатый край работы. 94.72.45.90 20:40, 7 марта 2011 (UTC)Kluwert[ответить]

Почему в статье отсутствует упоминание о программе Vocaloid? 2.94.169.249 13:11, 23 июля 2012 (UTC)[ответить]

Это неправильная ветвь в развитии синтеза речи.[править код]

Невозможно получить качественную речь вычислительными алгоритмами. Сложность физики голоса и чувствительность слуха на фальш не позволят.95.73.201.11 19:06, 11 октября 2012 (UTC) Tmaker1978 Ну так не позволяют, что не смешно. В естественной речи глюков не слышно, а на порядки более точную имитацию чувствительность не позволяет. 31.135.41.175 03:36, 6 июня 2019 (UTC)[ответить]

Удалил "Существующие проблемы"[править код]

Удалил этот вклад 212.188.40.194 - раздел Существующие проблемы по следующим причинам:

  • не указано ни одного источника при достаточно сомнительном содержании (например, "Упорядочить алгоритм с текстом" "Перед тем, как программа начнет осуществлять (про)чтение (за)данного текста, она должна прежде упорядочить все символы, цифры и аббревиатуру у себя внутри", "Усложняет (про)чтение текстов порой, аббревиатура сокращений в названиях городов" - и так далее.) В данной виде это оригинальное исследование
  • неэнциклопедический стиль ("Ни один программист еще пока не пишет программы синтеза речи, таким образом, чтобы после прочтения программой некоторого текста, в ней создавались смысловые представления о прочитанном. ", "Мы же когда произносим слова, то не сильно задумываемся, где нужно в этот момент ставить ударение.")
  • стилистические ошибки ("аббревиатура сокращений в названиях городов")
  • текст — набор неких тривиальностей, которые мало чего дают для раскрытия темы.

На этих основаниях решил, что данный вклад является завуалированным вандализмом. Собственно, стиль и даже орфография не являются препятствием к правкам в Википедии, но для всех этих рассуждений должны быть источники, а сами рассуждения быть полезными для статьи, чтобы их можно было подправить. Пока что Ваша правка нарушает консенсус. Если у Вас есть интерес к плодотворной работе в Википедии, пожалуйста, ознакомьтесь хотя бы с некоторыми правилами. Желаю успехов! РоманСузи 08:48, 4 января 2014 (UTC)[ответить]

Здравствуйте РоманСузи.

Если ваш английский на достаточно высоком уровне, то вы должны будете понять, почему заведомо удачный текст в английской статье, пришлось писать собственными словами. http://en.wikipedia.org/wiki/Speech_synthesis Не думаю, что после его прочтения вы будете также придерживаться выдвинутого вами мнения, о том что "при достаточно сомнительном содержании", как вам казалось ранее. Постарайтесь вникнуть в оборот, английской речи:

<<Text normalization challenges

The process of normalizing text is rarely straightforward. Texts are full of heteronyms, numbers, and abbreviations that all require expansion into a phonetic representation. There are many spellings in English which are pronounced differently based on context. For example, "My latest project is to learn how to better project my voice" contains two pronunciations of "project".

Most text-to-speech (TTS) systems do not generate semantic representations of their input texts, as processes for doing so are not reliable, well understood, or computationally effective. As a result, various heuristic techniques are used to guess the proper way to disambiguate homographs, like examining neighboring words and using statistics about frequency of occurrence.

Recently TTS systems have begun to use HMMs (discussed above) to generate "parts of speech" to aid in disambiguating homographs. This technique is quite successful for many cases such as whether "read" should be pronounced as "red" implying past tense, or as "reed" implying present tense. Typical error rates when using HMMs in this fashion are usually below five percent. These techniques also work well for most European languages, although access to required training corpora is frequently difficult in these languages.

Deciding how to convert numbers is another problem that TTS systems have to address. It is a simple programming challenge to convert a number into words (at least in English), like "1325" becoming "one thousand three hundred twenty-five." However, numbers occur in many different contexts; "1325" may also be read as "one three two five", "thirteen twenty-five" or "thirteen hundred and twenty five". A TTS system can often infer how to expand a number based on surrounding words, numbers, and punctuation, and sometimes the system provides a way to specify the context if it is ambiguous. Roman numerals can also be read differently depending on context. For example "Henry VIII" reads as "Henry the Eighth", while "Chapter VIII" reads as "Chapter Eight".

Similarly, abbreviations can be ambiguous. For example, the abbreviation "in" for "inches" must be differentiated from the word "in", and the address "12 St John St." uses the same abbreviation for both "Saint" and "Street". TTS systems with intelligent front ends can make educated guesses about ambiguous abbreviations, while others provide the same result in all cases, resulting in nonsensical (and sometimes comical) outputs, such as "co-operation" being rendered as "company operation".>>

По поводу ОРИСС, вы немного преувеличели. Вы конечно знакомы с программированием и должны знать, что перед тем как программа начала бы выполнять что-то нужное, в ней необходимо прописать инструкции(свод условностей и законов), как и что делать, или вы не согласны? Также рекомендую, самостоятельно послушать тексты с сокращениями и аббревеатурой, при помощи какой-либо программы поддерживающей синтез речи. Возможно об ОРИССе вопрос будет снят.
Соглашусь с тем, что не все было написано и восполнено как подобает, сам долго сомневался, вносить это в сатью в такам виде или нет. Попробуйте тогда взять на себя роль редактора и скорректировать предложеный текст, дабы поместить его в эту статью. Заранее буду благодарен. 212.188.40.194 16:01, 4 января 2014 (UTC)[ответить]
  • Указанный Вами текст и в англовики не имеет ссылок на авторитетные источники (за исключением ссылки на SSML, касающейся какой-то небольшой детали). Сама англовики не является авторитетным источником, поэтому для данного текста проблема останется, даже после редактирования. При этом сопутствующие очевидные вещи и трюзмы интересуют мало, речь идёт о проверяемости внесённой Вами информации. Заметьте, что по англовики я её проверить не могу, так как там она тоже она взята неизвестно откуда (если бы там были указаны источники, я бы смог хотя бы их перенести). Тем не менее, вещи (в основном) не такие тривиальные и требуют указания источников (АИ - авторитетные, независимые источники). Я с удовольствием помогу, когда для этих вещей будут найдены АИ. И причина моего нежелания редактировать текст, переведённый из англовики, только в том, что любой серьёзно настроенный редактор отметит весь этот раздел как ориссный и/или пометит отдельные утверждения требованиями источников, а потом, подождав пару недель (или даже раньше), будучи совершенно правым, удалит этот материал. И всё потому, что мы с Вами изначально неправильно его разместили. Так как в тексте были видимые невооруженным глазом огрехи, то в соответствии с требованиями к статьям из Википедия:Патрулирование я был вынужден удалить весь фрагмент. Надеюсь, Вы понимаете, что мои действия не являются неким самодурством, а служат более эффективной работе над статьями в Википедии. РоманСузи 18:13, 4 января 2014 (UTC)[ответить]

Я хорошо понял вас, и могу заверить, что все это легко проверяется без ссылок на АИ. Ни чего нового, или не проверяемого, там не было сказано. За последнее время синтез речи заметно похорошел в плане звучания, а вот неправильное чтение некоторых слов, сокращений в тексте и т. п. остается неизменным. Консенсус именно в том и состоит, чтобы показать не только положительные, очевидные стороны обсуждаемого объекта(предмета), но и отрицательные, дабы не представлять всё в розовом цвете тем кто этим только начинает интересоваться.

Приведу банальный, хорошо известный пример. Когда некто покупает отечественный автомобиль, делая на нем акцент, он же не смотрит на то, что хорошо что он хотя бы ездит, а должен знать и его минусы, такие как плохо закрывающиеся дверки после несколько лет эксплуатации, а также более громко слышимый шум работающего двигателя в салоне. Может поэтому, наш автопром продолжает клепать авто с этими же огрехами, раз не нашелся такой АИ который бы указал им на это. Не подумайте, что я противник наших авто, "лучше иметь такие чем не иметь их вовсе", без обид.
Но порой тем и хороши статьи "англовики", что в них информации больше чем у нас. Почему я назвал их текст "заведомо удачным", это по тому что он(автор, кто бы им не был) указал в каком направление разработчикам нужно работать, чтобы улучшить хотя бы то, что есть. Я сам часто стараюсь пользоваться синтезом речи, но и меня он на каком-то этапе начинает раздражать, именно из-за ошибок при чтение того или иного текста. Не скрою, было время читал не страницами, а книгами. Интернет тогда еще был дорог, а литературы на электронных носителях хоть отбавляй. К чему это я, а к тому, что в Интернете всяких заковыристых текстов гораздо больше, чем в литературных текстах некоторых произведений. Поэтому и неудивительно, что кого-то хватает на прослушивание только одной или двух страниц максимум. 212.188.40.194 22:24, 4 января 2014 (UTC)[ответить]
  • В Википедии есть совершенно четкое определение того, что такое АИ: ВП:АИ. И для приведенного выше текста АИ нужны, так как там описывается далеко не внешние свойства систем синтеза речи. Например, «Most text-to-speech (TTS) systems do not generate semantic representations of their input texts» — если Вы даже попробовали пару-другую программ, откуда Вы знаете, какие алгоритмы они используют? Приведенный Вами английский текст плох, как я сейчас вижу, не только отсутствием указания источников, но и расплывчатостью: rarely, most, recently… Приводятся некие цифры (five percent) без каких-либо источников. Поэтому заверений тут никаких не нужно, нужно найти статьи, книги, материалы научных конференций по данной теме (и не блоги на хабрабабре!), в которых кто-то, чья компетентность не вызывает сомнений, научно проанализировал ситуацию. Да, некоторые приводимые в Википедии факты не требуют подтверждения источниками, но в проблеме синтеза звука таких немного. Может быть, в статье о конкретной программе может быть что-то очевидное (запустил — видно то-то, звучит так-то), но здесь статья общая. Поэтому чтобы вклад в обсуждаемую статью был качественный и его завтра же не удалили, требуются подтверждения. РоманСузи 08:42, 5 января 2014 (UTC)[ответить]

А в общем-то ваш оппонент РоманСузи, в чем-то, но прав. Не сущесвует на данный момент синтеза отвечающим всеми параметрами. Среди тех, что есть можно сказать одно, есть чуть лучше и есть чуть хуже. В связи с этим предлагаю в этой статье устроить конкурс, для того чтоб каждый мог предложить, ему понравившуюся программу. С условиями, - этот синтез должен читать по-русски, - имя победителя в статью может вносить, только админ и ни как иначе. Все предложения для участия, принимаются на этой странице. 213.87.129.48 16:05, 5 января 2014 (UTC)[ответить]

  • Я не против раздела о проблемах, я лишь за то, чтобы текст был качественным и подтвержденным источниками. Мы можем тут хоть десять конкурсов устроить, но названия программ и т. п. тоже должны упоминаться в статье на основании источников. Не пойму, что здесь ещё можно обсуждать? РоманСузи 16:47, 5 января 2014 (UTC)[ответить]
В начале я хотел высказаться о сказанном, "запустил — видно то-то, звучит так-то", затем решил что не стоит далее продолжать бессмысленную дискуссию. Хотя это "одно" было мной запущено и проверено на десяти и более синтезаторах и почему-то у всех, как мне кажется, одни и те же ошибки при чтение. Помню в конце 90-х продавались программы конструкторы SDK, где можно было самому создать синтез речи. Изначальный код в нем был разработан еще в начале 90-х (так называемый - SAPI), хорошо известной компанией MicroSoft, так может быть основная масса программ является клоном того самого речевого движка.

Так или иначе у меня есть несколько программ которыми готов поделиться, лишь одной у меня вероятно не будет ни когда, на то есть свои причины.

  • Digalo Николай — пользовался раньше и очень много, сейчас меньше плавно перейдя на
  • Acapela Алёна — но уже гораздо меньше, в среднем от нескольких страниц до одного рассказа
  • Translate.Googl — чаще пользуюсь когда нахожусь в Интернете (в нем есть функция синтеза речи)
"Алгори́тм — набор инструкций, описывающих порядок действий исполнителя для достижения результата решения задачи за конечное число действий."

Вот самый простой алгоритм линейного исполнения:

  • ТЕКСТ—(Анализ Текста>—(Построение Правил Произношения>—(Подбор Звуковых Элементов>—(Акустическая Обработка>—РЕЧЬ
ТЕКСТ—(АТ>—(ППП>—(ПЗЭ>—(АО>—РЕЧЬ такой подход может использоваться, только если текст состоит лишь из слов, в других же случаях в алгоритмах используются условия переходов, а это уже будет более ветвистая цепочка. 212.188.40.194 19:56, 5 января 2014 (UTC)[ответить]

То я и гляжу толпа народу в двери ломится, видно не очень популярная тема, ну так и быть оставлю вам для коллекции то чем вот уже несколько лет пользуюсь. А пользуюсь продуктом от Loquendo TTS Ольгой и Дмитрием по настроению, оба хорошо читают. При выборе повелся на рекламу с их сайта и демо версией, похоже это развод был, сами дикторы начитали так словно это читает программа, а когда стал пользоваться все как обычно. 213.87.129.48 05:51, 6 января 2014 (UTC)[ответить]

Используется ли для записи словаря обычный инструментарий звукозаписи?[править код]

Используется ли для записи словаря для компилятивного синтеза обычный инструментарий звукозаписи? Или какой-то другой? Как добиваются, чтоб синтезированная фраза звучала как одна фраза, а не каждый элемент словаря как отдельное предложение. 31.135.41.175 16:30, 5 июня 2019 (UTC)[ответить]