65429

Створення засобів озвучення текстової інформації на основі конкатенативного сегментивного синтезу української мови

Автореферат

Информатика, кибернетика и программирование

Розроблення алгоритмів і програмно-апаратних засобів для систем комп’ютерного розпізнавання та відтворення мовних і зорових образів є одним з основних завдань систем штучного інтелекту – галузі науки, яка займається теоретичними дослідженнями...

Украинкский

2014-07-29

328 KB

1 чел.

PAGE  1


Рис. 1. Схема взаємозв’язків ознак природності звучання українського мовлення

G1

G2

G4

G5

Gp

G3

Gp

Gs

Gm

G1

G2

3

G4

G5

Рис. 2. Схема ознак природності звучання українського мовлення для конкатенативного сегментив-ного синтезу

Початкові сегмнти

EMBED Equation.DSMT4   EMBED Equation.3  

Префікси

Деякі семантичні підодиниці

Префікси з частинами коренів

Склади

Окремі фонеми

без-, від-, воз-, про-

абст-, аква-, архі-

Частини коренів або цілі корені

зшк-

ма-, ли-, ко-

з-, т-, о-

Внутрішні егменти

EMBED Equation.DSMT4  

Складно мультифонемні буквосполучення

Деякі семантичні підодиниці

Склади

Окремі фонеми

-жджа-, -ффи-, -лла-, -р`є-

-ма-, -ко-,  -не-

-к-, -в-,

-а-

-ма-,

-ко-

Кінцеві сегменти

EMBED Equation.DSMT4  

Складно мультифонемні  буквосполучення

Деякі семантичні підодиниці

Суфікси з закінченнями

Склади

Окремі фонеми

-вство, -ння

-метр, -мент

-льник, -нька, -сько

-во, -ди, -мі

-в, -к

EMBED Equation.DSMT4  

EMBED Equation.DSMT4  

EMBED Equation.DSMT4  

EMBED Equation.DSMT4  

EMBED Equation.DSMT4  

EMBED Equation.DSMT4  

EMBED Equation.DSMT4  

EMBED Equation.DSMT4  

EMBED Equation.DSMT4  

EMBED Equation.DSMT4  

EMBED Equation.DSMT4  

EMBED Equation.DSMT4  

EMBED Equation.DSMT4  

EMBED Equation.DSMT4  

EMBED Equation.DSMT4  

Слова української мови

Повні набори сегментів

Мінімальний корпус слів

Мінімізатор

Блок створення

об’єктів та елементів синтезу

EMBED Equation.DSMT4  

Набір об’єктів синтезу EMBED Equation.DSMT4  

Набір елементів синтезу EMBED Equation.DSMT4  

Рис.7. Схема роботи моделі побудови мінімального корпусу слів для створення бази даних звукових сегментів

Рис. 8. Зовнішній вигляд системи дослідження кількості входжень фонем української мови

no

no

no

yes

yes

yes

yes

for

if

if

while

for

for

start “make_wo(word)”

wo_data

wo = []

start_segments = read_segments(startsegments_path)

in_segments = read_segments(insegments_path)

end_segments = read_segments(endsegments_path)

last_segment = ‘’

segment in end_segments

word.endswith(segment)

last_segment = segment

word = [:-len(segment)]

segment in start_segments

word.startswith(segment)

wo.append(segment)

word = [len(segment):]

segment in in_segments

word.startswith(segment)

create_wodata

wo.append(segment)

word = [len(segment):]

if

segment in in_segments

Рис. 9. Схема алгоритму сегментації слова

та створення об’єкта синтезу

no

no

yes

yes

if

for

for

Start ‘create_realsegments’

realsegments

realsegments = []

word = read_words(words_path)

allsegments = read_segments(allsegments_path)

word in words

wo = make_wo(word)

segment in allsegments

segment in wo

realsegments.append(segment)

Рис. 10. Схема алгоритму створення бази

                  даних фактично існуючих сегментів

Таблиця 4.  Результат попереднього оброблення деяких слів текстового тексту

з/п

Слово

Слово

1

конкатенативний

#конкатенати_вний^

2

сегментивний

#сегменти_вний^

3

підхід

#підхі_д^

4

до

#до^

5

комп’ютерного

#комп’ю_терного^

6

синтезу

#си_нтезу^

7

українського

#украї_нського^

8

мовлення

#мо_влення^

Державний університет інформатики

і штучного інтелекту

ШАТКОВСЬКИЙ Микола Миколайович

УДК 004.934.5

СТВОРЕННЯ ЗАСОБІВ ОЗВУЧЕННЯ ТЕКСТОВОЇ ІНФОРМАЦІЇ

на ОСНОВІ конкатенативного сегментивного

синтезу української мови

05.13.23 – системи та засоби штучного інтелекту

Автореферат

дисертації на здобуття наукового ступеня

кандидата технічних наук

Київ – 2010


Дисертацією є рукопис.

Роботу виконано в Інституті кібернетики ім. В.М. Глушкова НАН України.

Науковий керівник доктор фізико-математичних наук, професор

   Крак Юрій Васильович,

   Інститут кібернетики

ім. В.М. Глушкова НАН України,

старший науковий співробітник відділу

інтелектуальних систем керування динамічними

об’єктами

Офіційні опоненти:  доктор фізико-математичних наук, професор

   Шелепов Владислав Юрійович,

   Державний університет інформатики

і штучного інтелекту,

головний науковий співробітник лабораторії комп’ютерних  підручників;

кандидат технічних наук,

Сажок Микола Миколайович,

Міжнародний науково-навчальний центр

інформаційних технологій і систем,

старший науковий співробітник відділу розпізнавання та синтезу звукових образів.

Захист відбудеться 12.11. 2010 р. о(об) 11 год. на засіданні спеціалізованої вченої ради К 11.243.01 при Державному університеті інформатики і штучного інтелекту за адресою:

83050, м. Донецьк, пр. Б. Хмельницького, 84.

З дисертацією можна ознайомитися в науковій бібліотеці Державного університету інформатики та штучного інтелекту (м. Донецьк, пр. Б. Хмельницького, 84).

Автореферат розіслано 12.10. 2010 р.

Учений секретар

спеціалізованої вченої ради        І.В. КАЧУР

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність теми. Розроблення алгоритмів і програмно-апаратних засобів для систем комп’ютерного розпізнавання та відтворення мовних і зорових образів є одним з основних завдань систем штучного інтелекту – галузі науки, яка займається теоретичними дослідженнями, розробленням та застосуванням алгоритмічних і програмно-апаратних систем і комплексів з елементами штучного інтелекту та моделюванням інтелектуальної діяльності людини. Важливим і актуальним напрямом досліджень є розроблення мультимедійних технологій для систем штучного інтелекту, навчальних та віртуальних середовищ з елементами штучного інтелекту, засобів та систем інтелектуалізації комп’ютерних інтерфейсів, невід’ємною складовою яких є системи комп’ютерного синтезу голосової мовної інформації.

Сучасні засоби аналізу та синтезу мовленнєвих сигналів і мовного апарату людини почали інтенсивно розвивати із середини ХХ ст. у зв’язку із прогресом комп’ютерної техніки, обчислювальних методів та програмного забезпечення.

Проблеми створення таких засобів досліджують у багатьох наукових організаціях світу, до яких належать, зокрема, Лабораторія комп’ютерних наук та штучного інтелекту Масачусетського технологічного інституту, Лабораторія комунікацій та оброблення сигналів Кембріджського університету, Лабораторія Белла компанії AT&T, Лабораторія систем та оброблення сигналів Політехнічного факультету університету Монса, Лабораторія оброблення сигналів та інформації Швейцарського федерального технологічного інституту, Університет Карнегі Мелон, Відділення теоретичної та прикладної лінгвістики Московського державного університету ім. Ломоносова, Лабораторія розпізнавання та синтезу мовлення Об’єднаного інституту проблем інформатики Національної академії наук Білорусі, Державний університет інформатики і штучного інтелекту, Міжнародний науково-навчальний центр інформаційних технологій і систем, Київський національний університет імені Тараса Шевченка та ін.

Вагомий внесок у створення та розвиток теорії оброблення мовленнєвих сигналів та синтезу мовлення зробили вчені Дж. Фланаган, А. Белл, Г. Фант, Л. Рабінер, Т.К. Вінцюк, Д. Маркел, Г. Дадлі, Д. Клатт, С. Саїто, Ф. Ітакура, Р. Шафер, Т. Дютуа, В.Ю. Шелепов, О.М. Карпов, В.М. Сорокін, Б.М. Лобанов, М.М. Сажок, Ю.М. Рашкевич, Ю.В. Крак та інші.

Сучасні системи комп’ютерного синтезу мовлення є невід’ємною складовою засобів людино-комп’ютерного інтерфейсу інформаційних технологій, високоінтелектуальних гіпермедійних технологій, навчальних програм і віртуальних середовищ з елементами штучного інтелекту та мають практичні застосування, зокрема:

– системи мовленнєвого діалогу в апаратних та програмних комплексах (компанії Apple, IBM, Microsoft, Google, Ford, українська компанія PeopleNet та ін.);

 бібліотечні, довідникові, енциклопедичні комп’ютерні системи та web-системи (Texthelp Systems, ReadSpeaker, Ivona та інші);

– системи голосового виведення інформації для людей зі спеціальними потребами (Sakrament, Synapse, Freedom Scientific та ін.);

– підсистеми озвучення текстової інформації web-джерел та телекомунікаційні системи IP-телефонії (компанії Polycom, Addpac, Avaya, Cisco, Grandstream Networks та інші).

Описані засоби забезпечують зручність (а деколи і єдину можливість) використання програмної складової сучасної комп’ютерної техніки саме завдяки мовленнєвому озвученню інформації. Потреба в них виникає з економічних та соціальних причин, що й зумовлює актуальність створення сучасних засобів комп’ютерного синтезу мовлення природної якості.

Системи синтезу мовлення можна класифікувати за способами створення мовного сигналу; вирізняють три основні напрями:

– артикуляторний синтез – створення штучних мовленнєвих сигналів на основі моделювання мовного апарату людини;

– формантний синтез – створення штучних мовленнєвих сигналів на основі акустичних моделей і динамічної зміни таких параметрів, як значення частот основного тону формант та зашумленості;

– конкатенативний синтез – створення вихідного акустичного сигналу на основі конкатенації (послідовного додавання) необхідних елементів синтезу.

Процес конкатенації визначається структурою бази даних елементів синтезу, оскільки безпосередньо залежить від природних даних та забезпечує високу природність звучання синтезованої мови. Тому з підвищенням природності звучання синтезованої мови буде зростати і розмірність елементної бази синтезу. Є кілька стандартних підходів до вибору концепції формування мінімальних елементів синтезу – фонів, алофонів, дифонів, складів, фонем-трифонів тощо. Природність та якість звучання синтезованих мовленнєвих сигналів пояснюється тим, що в системах конкатенативного синтезу мовлення елементами синтезу є реальні природні мовленнєві сигнали, зазвичай вимовлювані професійними дикторами, корінними носіями мови.

Специфіка української мови, на відміну від, наприклад, англійської чи французької, полягає у тому, що орфографічне подання та фонетичне (звукове) відтворення мови є досить наближеними. З іншого боку, фонеми в українському мовленні не є ізольованими і внаслідок взаємодії між фонемами модифікуються різні артикуляційні ознаки одних і тих самих звуків з кожним промовлянням. До того ж в українському мовленні наближення частки голосних звуків у мовному потоці до 50%, за умови їх рідкісного збігу, можна трактувати як перевагу відкритих складів «приголосний-голосний» з відповідними міжфонемними коартикуляційними переходами.

Така будова української мови дає змогу, за умови виділення та врахування певних фонетичних процесів, синтезувати мовлення не конкатенацією транскрибованих фонем (з їх подальшою просодично штучною модифікацією, наприклад, PSOLA-методами), а конкатенацією коартикуляційно та просодично природно зумовлених конструкцій, зокрема, сегментів, забезпечуючи тим самим натуральність та розбірливість звучання синтезованих слів без використання їх фонетичної транскрипції.

Основною сучасною проблемою створення методів комп’ютерного синтезу мовлення є підвищення природності звучання синтезованих сигналів, ґрунтуючись на аналізі мовленнєвих даних та врахуванні просодичних властивостей природного мовлення.

Дисертаційну роботу присвячено створенню нових засобів озвучення текстової інформації та моделей конкатенативного синтезу української мови, спрямованих на підвищення розбірливості та натуральності комп’ютерно-синтезованих слів з урахуванням ознак природності звучання українського мовлення.

Зв’язок роботи з науковими програмами, планами, темами. Дисертаційна робота виконувалася в рамках науково-дослідних тем:  ВК 115.08 «Розробка інформаційної технології озвучення текстової інформації з метою застосування у сфері державного управління» (номер держреєстрації 0105U005161); ІП 115.11 «Розробити нові математичні засоби аналізу, синтезу, виявлення та розпізнавання прихованих образів у сигналах та зображеннях» (номер  держреєстрації 0106U005636); ВФК 115.12 «Розробити нові високоефективні математичні засоби інтелектуального інтерфейсу людини з комп’ютерним середовищем» (номер держреєстрації 0107U004766); ВК 115.17 «Розробка інформаційної технології озвучення текстової та розпізнавання голосової мовної інформації» (номер  держреєстрації 0107U005691); ВК 115.18 «Розробка комп'ютерної системи віртуального спілкування людей з вадами зору та слуху. Підсистема спілкування людей українською мовою жестів та голосового синтезу української мови» (номер  держреєстрації Р 0107U008421). У цих роботах автор був виконавцем та відповідальним виконавцем.

Мета і завдання дослідження. Мета дослідження – створення засобів озвучення текстової інформації на основі конкатенативного сегментивного синтезу українського мовлення. Для досягнення мети в роботі поставлено та вирішено такі завдання:

– аналізування природності звучання українського мовлення в межах проблеми комп’ютерного конкатенативного синтезу мовлення;

– розроблення моделі взаємозв’язків ознак природності звучання українського мовлення, що дозволило врахувати ознаки позиційності, наголошеності та мультифонемності мовленнєвих сегментів;

– розроблення моделі подання текстової інформації для конкатенативного синтезу українського мовлення;

– розроблення об’єктно-елементної моделі конкатенативного сегментивного синтезу, що дозволяє зафіксувати та пов’язати набори об’єктів синтезу та сегментів і отримати можливість підбору конкретних сегментів для озвучення конкретних слів української мови;

– розроблення моделі побудови мінімального корпусу слів для створення бази даних сегментів конкатенативного сегментивного синтезу українського мовлення, що дозволяє створити мінімальну вибірку слів української мови;

– створення наборів текстових сегментів на основі моделі подання текстової інформації та об’єктно-елементної моделі конкатенативного сегментивного синтезу;

– розроблення програмно-алгоритмічних засобів для вирішення проблеми комп’ютерного конкатенативного сегментивного синтезу українського мовлення;

– перевірка функціонування розроблених та програмно реалізованих засобів озвучення текстової інформації на основі конкатенативного сегментивного синтезу української мови на прикладі озвучення заданого тексту українською мовою.

Об’єкт дослідженняконкатенативний підхід до комп’ютерного синтезу слів української мови.

Предмет дослідження – підходи, методи та моделі комп’ютерного синтезу природного українського мовлення та голосового озвучення текстової інформації українською мовою.

Методи дослідження. У дисертаційній роботі використано конкатенативний підхід до комп’ютерного синтезу природного мовлення, методи дослідження природного українського мовлення, методи попереднього оброблення природних мовленнєвих сигналів, методи експертного оцінювання природності звучання комп’ютерного синтезованого українського мовлення, створення баз даних, методи сортування інформації.

Наукова новизна отриманих результатів. Основні результати роботи, що відображають наукову новизну та виносяться на захист, такі:

– дістав подальшого розвитку конкатенативний підхід до комп’ютерного синтезу мовлення, в межах якого враховано ряд властивостей природності звучання, що дозволяє підвищити натуральність та розбірливість комп’ютерно синтезованих слів українського мовлення;

– удосконалено модель подання текстової інформації для конкатенативного синтезу, що дозволило врахувати ознаки позиційності, наголошеності та мультифонемності звучання мовленнєвих сегментів, наведені в моделі взаємозв’язків ознак природності звучання українського мовлення;

– удосконалено модель побудови мінімального корпусу слів для створення бази даних сегментів конкатенативного сегментивного синтезу, які повністю покривають слова української мови;

– уперше розроблено об’єктно-елементну модель конкатенативного сегментивного синтезу, що дозволяє зафіксувати та пов’язати набори об’єктів синтезу та елементів синтезу (сегментів), отримати можливість підбору конкретних сегментів для озвучення конкретних слів української мови та підвищити рівень природності звучання синтезованого мовлення.

Практичне значення отриманих результатів полягає у розробленні комплексного підходу до створення засобів озвучення текстової інформації на основі конкатенативного сегментивного синтезу української мови. Для цього було вирішено такі практичні задачі:

– за результатами аналізу природності звучання українського мовлення та розробленої моделі взаємозв’язків ознак природності звучання українського мовлення створено набори текстових сегментів;

– на основі удосконаленої моделі подання текстової інформації для конкатенативного синтезу українського мовлення, об’єктно-елементної моделі конкатенативного сегментивного синтезу та баз даних текстових сегментів створено програмно-алгоритмічні засоби побудови наборів об’єктів синтезу.

Результати дисертаційного дослідження використано в процесі розроблення комплексу голосових інтерфейсів для вимірювальних приладів, приладів діагностики, керування та зв’язку ПАТ «ЕЛМІЗ», а також під час створення засобів інтелектуалізації людино-комп’ютерних інтерфейсів систем ІP-телефонії в процесі розроблення програмних модулів у ТОВ «Мікроком».  

Окремі результати використовуються у навчальному процесі на факультеті кібернетики Київського національного університету імені Тараса Шевченка під час викладання спеціальних дисциплін «Проблеми робототехніки» та «Інформаційні віртуальні середовища» для студентів факультету кібернетики.

Особистий внесок здобувача. Основні наукові та практичні результати дисертаційної роботи отримано автором особисто й опубліковано в наукових фахових виданнях: [1] – розроблено модель подання інформації для конкатенативного сегментивного синтезу українського мовлення; [2] – досліджено створення систем озвучення текстової інформації, запропоновано концепцію та етапи створення моделей конкатенативного синтезу мовлення, визначено переваги конкатенативного синтезу; [3] – розроблено структурне подання об’єктів та елементів синтезу й описано їх властивості, наведено їх властивості та характеристики; [4] – розроблено концепцію вибору елементів синтезу та створення бази сегментів, наведено алгоритми сегментації та конкатенації елементів синтезу, запропоновано шляхи вирішення проблеми створення бази текстових елементів синтезу та вибірки слів; [6; 7; 9] – розглянуто проблеми моделювання конкатенативних  систем  синтезу  мовлення,  запропоновано  способи їх вирішення;

[8; 15; 16] – запропоновано вирішення проблем моделювання голосових сигналів з урахуванням їх взаємозв’язку з моделюванням зображень голови людини; [10, 11] –  узагальнено структурування  елементів синтезу та їх фонетичних властивостей для задачі конкатенативного сегментивного синтезу українського мовлення; [12 – 14] –проаналізовано мовлення для синтезу мовленнєвих елементів для конкатенативного сегментивного синтезу; [17; 18] – розроблено підхід до синтезу українського мовлення для інформаційної технології невербального спілкування людей з вадами слуху та зору; [19; 20] – перевірено функціонування розроблених та програмно реалізованих засобів озвучення текстової інформації на основі конкатенативного сегментивного синтезу української мови.

Апробація результатів дисертації. Основні результати дисертації доповідались на таких міжнародних конференціях: «Сучасні проблеми математичного моделювання, прогнозування та оптимізації» (Київ–Кам’янець-Подільський, Україна, 2004); «Обчислювальна та прикладна математика» (Київ, Україна, 2004); «Dynamical Systems Modeling and Stability Investigation» (Київ, Україна, 2004, 2007, 2009); «Штучний інтелект та багатопроцесорні системи» (Кацивелі, Україна, 2004, 2006, 2008); ХІ «Міжнародній науковій конференції імені академіка М. Кравчука» (Київ, Україна, 2006); «Knoledge-Dialogue-Solution» (Варна, Болгарія, 2006); «Математичне та програмне забезпечення інтелектуальних систем» (Дніпропетровськ, Україна, 2006, 2009); «Інтелектуальні системи прийняття рішень та прикладні аспекти інформаційних технологій» (Херсон, Україна, 2007, 2008); «Сучасна інформаційна Україна: інформатика, економіка, філософія» (Донецьк, Україна, 2009); «Сучасні проблеми прикладної математики та інформатики» (Львів, Україна, 2009).

Публікації. Основні наукові положення, висновки і результати дослідження опубліковано в 20 наукових працях, у тому числі 5 – у наукових фахових виданнях затверджених ВАК України. Загальний обсяг публікацій становить 4,1 друк. арк., з яких особисто автору належить 2,6 друк. арк.

Структура та обсяг дисертації. Робота складається зі вступу, чотирьох розділів, висновків, трьох додатків. Повний обсяг дисертації – 215 сторінок, з них основний текст 174 сторінки, 3 додатки на 41 сторінці, списку використаних джерел 17 сторінок, що містить 167 найменувань, 43 рисунки та 37 таблиць.

ОСНОВНИЙ ЗМІСТ РОБОТИ

У вступі обґрунтовується актуальність теми, зв’язок з науковими програмами, сформульовано мету і завдання дослідження, предмет, об’єкт і методи дослідження, відзначається наукова новизна й практичне значення, а також апробація отриманих результатів, характеризується структура дисертаційної роботи.

У першому розділі проведено дослідження проблеми комп’ютерного синтезу мовлення. Аналізується комп’ютерне подання звукової інформації та мовленнєвих даних, історія проблеми штучного синтезу мовлення та голосовий апарат людини. Подано результати аналізу підходів та методів комп’ютерного синтезу мовлення. Системи синтезу мови можна класифікувати за способом створення мовного сигналу. Виділяють три основні напрями – артикуляторний синтез, формантний синтез і конкатенативний синтез. Обґрунтовано вибір конкатенативного підходу до комп’ютерного синтезу української мови. Проведено огляд сучасних систем комп’ютерного, переважно конкатенативного, синтезу мовлення та дослідження проблем створення комп’ютерних систем голосового оброблення, мовленнєвих баз даних та засобів синтезу мовлення.

Загальна структура створення сучасних комп’ютерних систем голосового синтезу мовлення складається, переважно, зі створення таких засобів, як аналізу природного мовлення, створення баз даних елементів синтезу, аналізу вхідної текстової інформації, сегментації текстової інформації та оброблення і конкатенації звукової мовленнєвої інформації, озвучення вихідного синтезованого мовлення.

Виконано ґрунтовний аналіз природного та синтезованого мовлення. Досліджено властивості звуків української мови та їх просодичні характеристика, сприйняття природного українського мовлення.

У другому розділі розроблено такі моделі: синтезу ознак природності звучання, взаємозв’язків ознак природності звучання українського мовлення, подання вхідної текстової інформації, об’єктно-елементної моделі, а також створено набори сегментів і об’єктів комп’ютерного конкатенативного сегментивного синтезу українського мовлення.

Проаналізовано ключові властивості звучання природного українського мовлення, які суттєво впливають на якість синтезованого мовлення. Для цього досліджено фонетичні ознаки українського мовлення з метою виділення характеристик природності звучання, виконано їх аналіз. Дослідження голосових мовних сигналів показали, що однакові фонеми в різних контекстних, морфологічних та коартикуляційних умовах мають різні фонетичні характеристики – різняться за амплітудою, частотою основного тону, кількістю періодів основного тону, іншими характеристиками. Ознаки природності звучання українського мовлення для конкатенативного синтезу наведено в табл. 1.

Таблиця 1. Ознаки природності звучання українського мовлення

Ознака

Опис ознаки

G1

Ознака впливу приголосних звуків на голосні. Визначається багатьма фонетичними факторами, зумовлює використання складів як основних сегментів через коартикуляційні переходи між фонемами

G2

Ознака твердості чи м’якості приголосних. Залежно від пом’якшення приголосного в слові за допомогою м’якого знака чи пом’якшувального голосного звучання приголосного змінюється

G3

Ознака роздільності звучання приголосних та голосних звуків. Наприклад, відкриті склади типу «приголосна»«’»«голосна»

G4

Ознака подвоєння приголосних. Подовжені приголосні мають характерне звучання, штучне створення якого являє собою складне та неоднозначне завдання з коартикуляційної модифікації приголосних

G5

Ознака спрощення приголосних при вимовлянні. Найчастіше спрощення відбуваються в суфіксах слів у разі збігу декількох приголосних

G6

Ознака відмінностей звучання між наголошеними та ненаголошеними голосними. Зумовлює створення як наголошених, так і ненаголошених сегментів

Gp

Ознака позиційності сегмента. Характеризує розміщення сегмента в слові – на початку, в середині чи в кінці

Побудова баз даних текстових, а надалі і звукових, елементів синтезу мови базується на основі запропонованих ознак природності звучання українського мовлення. Згідно виконаним аналізом звуки українського мовлення характеризуються високим рівнем взаємовпливів, які наведено в табл. 2, навіть без урахування їх розміщенням в словах.

Таблиця 2. Взаємовпливи ознак природності звучання українського мовлення

Ознаки

Опис процесу взаємовпливу ознак

Приклади

G1 ↔G2

На рекурсію приголосних накладається екскурсія голосних, зокрема з пом’якшенням приголосних

при_голос[ни]й,  при_голос[ні]

G1 ↔G3

У разі вживання апострофа приголосні не пом’якшуються наступною голосною

по[м’я_]кшення

G1 ↔G4

Коартикуляція наголошених голосних змінює просодичні та акустичні властивості приголосних інакше ніж ненаголошених голосних – збільшується амплітуда та кількість періодів основного тону приголосних

коартику[ля_]ція, ба_в[ля]ть,  ікеба_[на]ми

G1 ↔G6

Екскурсія наголошених голосних накладається на рекурсію приголосних інакше ніж ненаголошених голосних, тим самим змінюючи просодичні та акустичні властивості коартикулюючих звуків – збільшується амплітуда та кількість періодів основного тону приголосних

озн[а_]ка, оз[на]ча_ти

G2 ↔G3

Аналогічно до випадку G1 ↔G3

ві[д’є]дна_ння

G2 ↔G4

Подвоєні приголосні пом’якшуються наступними голосними

подвоє[ння]

G2 ↔G5

У випадках спрощення чи заміни фонем під час вимовляння часто відбувається пом’якшення набутих приголосних

битиме[тьс]я

G2 ↔G6

Аналогічно до G1↔G6

[ці_]нний, [ці]на_

G3 ↔G6

Аналогічно до G1↔G6, але з урахуванням коартикуляційних властивостей вживання апострофа

во[з’є_]днувати, во[з’є]дна_ння

G4 ↔G6

Аналогічно до G1↔G6, але з урахуванням коартикуляційних властивостей подвоєння приголосних

жи[ття_], бага_[ття]

G5 ↔G6

У наголошених та ненаголошених випадках у разі заміни приголосної в групі приголосних відбуватимуться різні коартикуляційні явища

[бджо_]ли, [бджо]ли_ний

Для врахування зазначених взаємозв’язків ознак природності звучання та покращення натуральності звучання для вибору елементів синтезу розроблено модель взаємозв’язків ознак природності звучання українського мовлення – позиційності, наголошеності та мультифонемності.

На підставі даних, наведених в табл. 2, на рис.1 зображено схему взаємозв’язків різних ознак  звучання елементів природного українського мовлення.

З огляду на важливу роль ознаки позиційності мовленнєвих сегментів ключовими ознаками є G1, G6, Gp. Саме ці ознаки і формують основні властивості природності звучання українського мовлення. Варто зауважити, що ознака G2 пов’язана з усіма іншими ознаками, оскільки властивість м’якості чи твердості приголосних наявна в усіх відкритих складах української мови. Проте G2 враховано в коартикуляційних властивостях міжфонемних переходів. Інакше кажучи, G2 є важливою, але залежною від ознаки G1 коартикуляційного впливу приголосних на голосні.

Ознаки G1 – G5 визначають властивості та взаємозв’язки звучання фонем українського мовлення, тобто ці ознаки формують властивості мультифонемності звучання. Звідси схему ознак природності звучання можна зобразити у вигляді рис.2, де Gs – ознака наголошеності голосного, а Gm – сукупність властивостей ознак G1 – G5 :

Згідно із запропонованою схемою кожний сегмент одночасно визначається трьома ознаками природності звучання – позиційністю (початкові, внутрішні та кінцеві сегменти), наголошеністю (наголошені та ненаголошені сегменти), мультифонемністю (фонеми, склади, складно-синтезовані сегменти, морфологічно обумовлені сегменти).

Для врахування зазначених ознак на основі моделі взаємозв’язків ознак природності звучання українського мовлення запропоновано удосконалену модель подання вхідної текстової інформації для конкатенативного сегментивного синтезу українського мовлення, що дозволило здійснювати сегментацію та конкатенацію мінімальних елементів синтезу (це можуть бути як класичні елементи – фони, дифони, фонеми-трифони тощо, так і запропоновані в моделі сегменти спеціальної структури):

,      (1)

де  – слово із загального набору слів української мови , , ,  – кількість слів української мови;  – початковий (префіксний) сегмент із набору початкових сегментів ,, ,  – кількість початкових сегментів;  – кінцевий (суфіксний) сегмент із набору кінцевих сегментів ,, ,  – кількість кінцевих сегментів. Слово розкладається на три частини відповідно до ознаки позиційності – початкову, внутрішню та кінцеву. Початкова та кінцева частини є сегментами. Внутрішня частина може бути порожньою, містити один сегмент чи складатися з декількох сегментів. Внутрішня частина  слова  може бути відсутня (наприклад в двоскладових словах) – тоді подання слова набуватиме вигляду ; внутрішня частина  слова  може складатись із одного сегмента  – тоді подання слова набуватиме вигляду ; внутрішня частина слова може складатись з декількох сегментів  – тоді подання слова набуватиме вигляду . В усіх сегментах враховується ознака наголошеності, тобто необхідні сегменти є наголошеними. Згідно з ознакою мультифонемності сегменти вибирають якнайбільшими, враховуючи коартикуляційні та просодичні властивості слова – зменшуючи кількість конкатенацій сегментів і підвищуючи природність звучання синтезованої мови. Схематично структуру типів сегментів зображено на рис. 3 –  5.

Рис. 3. Схема типів початкових сегментів з прикладами

Рис. 4. Схема типів внутрішніх сегментів з прикладами

Рис. 5. Схема типів кінцевих сегментів з прикладами

На основі удосконаленої моделі подання текстової інформації та моделі взаємозв’язків ознак природності звучання українського мовлення створено повні набори текстових сегментів для методу конкатенативного сегментивного синтезу українського мовлення – набір початкових сегментів, набір внутрішніх сегментів та набір кінцевих сегментів, за якими можна сегментувати довільне слово української мови.

Важливим фактором зміни голосних є наголос – ненаголошені голосні в українській мові внаслідок певного ослаблення артикуляції значно відрізняються від наголошених, артикуляція яких енергійніша й чіткіша, наголошений голосний переважно в 2–3 рази довший від ненаголошеного. Причому ненаголошені голосні не встигають повністю оформитись у звуки такої якості, як наголошені, що особливо позначається на характерній фазі голосного. Тому врахування наголошеності мовного потоку є принциповою складовою розроблюваного підходу. Сегменти, що містять голосні фонеми чи ними є, розглядаються в обох варіантах – наголошеному і ненаголошеному.

Довільне слово української мови подається як ключова одиниця мовлення, що спричинено залежністю елементів синтезу від місця розташування в слові, його коартикуляційних властивостей, фізичних та акустичних характеристик, і визначається складністю зв’язків різних елементів слова під час вимовляння. Така постановка проблеми вимагає подання слова кінцевим об’єктом комп’ютерного конкатенативного синтезу. У зв’язку з цим завдання синтезу зводиться до озвучення заданих відповідно до вхідного тексту послідовних наборів об’єктів синтезу.

Щоб отримати можливість підбирати сегменти для озвучення конкретних об’єктів синтезу та щоб зафіксувати й пов’язати набори сегментів і об’єктів синтезу, розроблено об’єктно-елементну модель конкатенативного сегментивного синтезу українського мовлення. Згідно з цією моделлю об’єктам синтезу ставляться у відповідність послідовні набори елементів синтезу (сегментів) з урахуванням натуральності та розбірливості звучання. Такий підхід дозволяє контролювати якість звучання конкретних синтезованих слів зокрема та підвищити рівень природності звучання синтезованого мовлення взагалі.

Схематично об’єктно-елементну модель конкатенативного сегментивного синтезу українського мовлення зображено на рис. 6.

Рис. 6. Схема об’єктно-елементної моделі подання інформації

Крім зазначеного, запропонована модель дозволяє розробити засоби побудови мінімального корпусу слів, на основі чого, після звукозапису, стає можливим вирішувати таке практичне  завдання, як створення бази даних звукових сегментів.

У третьому розділі розроблено алгоритми та їх програмні реалізації для створення засобів озвучення текстової інформації на основі конкатенативного сегментивного синтезу українського мовлення. Розроблено модель побудови мінімального корпусу слів для створення бази даних звукових сегментів. Схему моделі зображено на рис. 7.

Для комплексного врахування ознак природності звучання українського мовлення проаналізовано такі аспекти українського мовлення, як кількості буквосполучень та складів, слів з подвоєннями приголосних, з апострофами, з пом’якшеними чи м’якими складами, зі складними мультифонемними буквосполученнями.

Створено та програмно реалізовано алгоритми аналізу цільового набору об’єктів синтезу на частоту входження різних сегментів відповідно до моделі взаємозв’язків ознак природності звучання – позиційності, наголошеності та мультифонемності. Загальний вигляд однієї зі складових розроблених засобів аналізу бази даних слів українського мовлення показано на рис. 8.

На основі об’єктно-елементної моделі подання інформації розроблено алгоритми сегментації вхідної текстової інформації та вихідних штучних мовленнєвих сигналів.

У процесі роботи створено цільовий набір об’єктів синтезу для загального завдання комп’ютерного конкатенативного сегментивного синтезу українського мовлення, в якому враховані властивості не лише слів, але й сегментів. Схему алгоритму створення об’єкта синтезу зображено на рис. 9.

 У результаті роботи алгоритму, об’єкт синтезу формується з трьох частин – орфографічного (тексто-вого) подання слова, послідовного набору сег-ментів (згідно з моделлю подання) та рейтингу (кіль-кості сегментів).

Перевірено повноту покриття текстовими сег-ментами бази даних слів української мови. Про-аналізовано частоту вход-ження сегментів у базу даних слів української мови, тим самим обґрун-товано використання елементів синтезу зазначе-них сегментів.

Виконано аналіз кіль-кості різних буквосполу-чень, складів, слів з подво-єними приголосними, м’я-кими складами, слів зі спеціальними  мультифо-немними сегментами. По-будовано повні набори реально існуючих текстових сегментів. Схему алгоритму створення бази даних  фактично існуючих сегментів зображено на рис. 10.

У четвертому розділі перевірено функціонування розроблених та програмно реалізованих засобів озвучення текстової ін-формації на основі конкатена-тивного сегментивного син-тезу української мови, а саме, проведення практичного екс-перименту з озвучення зада-ного тестового тексту.

Описано постановку та хід проведення експерименту з комп’ютерного озвучення  слів засобами конкатенатив-ного сегментивного синтезу слів української мови.

Задамо тестовий текст українською мовою для проведення експерименту з комп’ютерного озвучення слів засобами конкатенативного сегментивного синтезу слів української мови:

Конкатенативний сегментивний підхід до комп’ютерного синтезу українського мовлення є розвитком конкатенативного підходу в синтезі мовлення. Характеризується природністю звучання синтезованої голосової мовної інформації. Базується на моделі подання текстової інформації та об’єктно-елементній моделі конкатенативного сегментивного синтезу української мови.

Попередньо оброблено слова заданого тестового тексту в межах експерименту, результат якого наведено в табл. 4.

Використовуючи розроблені в розділі 2 набори сегментів вибрано експериментальні набори початкових, внутрішніх та кінцевих текстових сегментів для заданого тексту.

Проведено сегментацію слів заданого тестового тексту згідно з розробленими моделлю подання текстової інформації та алгоритмом сегментації.

На основі об’єктно-елементної моделі створено взаємопов’язані фіксовані набори сегментів (табл. 5) та об’єктів (табл. 6) комп’ютерного конкатенативного сегментивного синтезу для заданого тестового тексту.

Таблиця 5.  Приклади перетворення деяких слів на об’єкти синтезу 

Номер

слова

Слово

Об’єкт синтезу [слово — набір сегментів — рейтинг об’єкта]

1

конкатенативний

#конкатенати_вний^  — #ко н ка те на ти_ в ний^ — 8

2

сегментивний

#сегменти_вний^ — #се г ме н ти_ в ний^ — 7

3

підхід

#підхі_д^ — #під хі_ д^ — 3

4

до

#до^ — 1

5

комп’ютерного

#комп’ю_терного^ — #ко м п’ю_ те р ного^ — 6

6

синтезу

#синтезу^ — #си_ н те зу^ — 4

7

українського

#украї_нського ^ — #у к ра ї_ н сь кого^ — 7

8

мовлення

#мо_влення^ — #мо_ в ле ння^ — 4

Побудовано корпус слів для створення експериментальних наборів початкових, внутрішніх та кінцевих звукових сегментів. Проведено звукозапис корпусу слів та сегментацію корпусу слів на експериментальні набори початкових, внутрішніх та кінцевих звукових сегментів.

Таблиця 6. Приклади деяких об’єктів синтезу з їх зв’язком із корпусом слів

з/п

Слово

Сегменти

Слова із тестового корпусу слів

1

конкатенативний

#ко

н

ка

те

на

ти_

в

ний^

#кобза_р^

#інтерме_цо^

#і_грашками^    #і_нках^

#гіпо_тезі^

#віднахо_дження^

#клапти_чками^

#і_кавка^

#іксоподі_бний^

2

сегментивний

#се

г

ме

н

ти_

в

ний^

#сейсмогра_ма^

#Євгра_фій^

#інтермеді_йний^

#інтерме_цо^

#клапти_чками^

#і_кавка^

#іксоподі_бний^

3

підхід

#під

хі_

д^

#підки_нути^

#Ахі_л^

#Берд^

4

до

#до^

#до^

5

комп’ютерного

#ко

м

п’ю_

те

р

ного^

#кобза_р^

#імплози_вний^

#ви_п'ють^

#Інтерне_т^

#персе_н^

#ідеа_льного^

6

синтезу

#си_

н

те

зу^

#си_днями^

#інтерме_цо^

#гіпо_тезі^

#Кавка_зу^   #Пе_нзу^

7

українського

к

ра

ї_

н

сь

кого^

#убо_гий^

#акроба_т^

#абстракціоні_зм^

#Іраї_д^     #ініої_т^

#інтерме_цо^

#англі_йської^

#ба_рського^    #жовтобо_кого^

8

мовлення

#мо_

в

ле

ння^

#мо_дниця^

#і_кавка^

#блейве_йс^

#упу_щення^

На основі алгоритму конкатенації створено засоби програмного забезпечення для озвучення слів заданого експериментального тексту.

Засобами розробленого програмного забезпечення для озвучення слів виконано комп’ютерний синтез заданого тестового тексту. Результат комп’ютерного конкатенативного сегментивного синтезу слова «конкатенативний» зображено на рис. 11.

Рис. 11. Комп’ютерно синтезоване слово «конкатенативний»

Розроблено протокол оцінювання природності звучання синтезованих слів засобами конкатенативного сегментивного синтезу слів української мови. З використанням протоколу оцінювання проаналізовано звучання комп’ютерно синтезованого засобами конкатенативного сегментивного синтезу експериментального тексту українською мовою, згідно з яким продемонстровано високу натуральність, розбірливість та адекватну природній просодичність звучання синтезованих слів української мови, низький рівень розривностей звучання в синтезованих сигналах. Загалом на основі експертних оцінок синтезоване мовлення засобами комп’ютерного конкатенативного сегментивного синтезу слів українського мовлення можна вважати натуральним, розбірливим та схожим на природне.

Акти про впровадження результатів дисертаційної роботи наведено у дод. А, опис підсистеми аналізу частоти фонетично та морфологічно обумовлених складових мовлення в словах української мови – в дод. Б, повні набори текстових сегментів для конкатенативного сегментивного синтезу слів української мови – в дод. В.

ВИСНОВКИ

У дисертаційній роботі створено засоби озвучення текстової інформації на основі конкатенативного сегментивного синтезу українського мовлення.

Основні результати дисертаційної роботи.

1. Розроблено удосконалену модель подання текстової інформації для конкатенативного синтезу українського мовлення, що дозволило врахувати ознаки позиційності, наголошеності та мультифонемності звучання мовленнєвих сегментів, наведені в моделі взаємозв’язків ознак природності звучання українського мовлення.

2. Розроблено об’єктно-елементну модель конкатенативного сегментивного синтезу, що дозволяє зафіксувати та пов’язати набори об’єктів синтезу та елементів синтезу (сегментів) для конкатенативного сегментивного синтезу, отримати можливість підбирати конкретні сегменти для озвучення конкретних слів української мови та підвищувати рівень природності звучання синтезованого мовлення.

3. Розроблено удосконалену модель побудови мінімального корпусу слів для створення бази даних звукових сегментів конкатенативного сегментивного синтезу українського мовлення, які повністю покривають слова української мови.

4. Створено набори текстових сегментів на основі виконаного аналізу природності звучання українського мовлення та розробленої моделі взаємозв’язків ознак природності звучання українського мовлення.

5. Розроблено програмно-алгоритмічні засоби дослідження і сегментації орфографічного подання  слів української мови та конкатенації звукових мовленнєвих сегментів на основі конкатенативного сегментивного синтезу.

6. Перевірено функціонування розроблених та програмно реалізованих засобів озвучення текстової інформації за результатами конкатенативного сегментивного синтезу української мови на прикладі озвучення заданого тексту українською мовою.

Результати дисертації були застосовані під час виконання науково-дослідних тем в Інституті кібернетики ім. В.М. Глушкова НАН України. Практичні результати дисертаційної роботи окреслили завдання подальших наукових досліджень і можуть бути використані для розроблення методів комп’ютерного синтезу українського мовлення.

СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ

Статті у наукових фахових виданнях

1. Крак Ю.В. Сегментація мовної інформації для задач автоматичного озвучення / Ю.В. Крак, М.М. Шатковський // Вісник Київського університету. Сер. фіз.-мат. наук. – К.: Нац. ун-т імені Тараса Шевченка. – 2006. – Вип.1. – С. 156160.

2. Кривонос Ю.Г. Анализ структуры задачи создания систем озвучивания текстовой информации / Ю.Г. Кривонос, Ю.В. Крак, Н.Н. Шатковский // Компьютерная математика. – К.: Институт кибернетики им. В.М. Глушкова НАН Украины. – 2005. – №3. – С. 87–95.

3. Кривонос Ю.Г. Структура, свойства, характеристики объектов и элементов синтеза речи / Ю.Г. Кривонос, Ю.В. Крак, Н.Н. Шатковский // Компьютерная математика. – К.: Институт кибернетики им. В.М. Глушкова НАН Украины. – 2006. – №1. – С. 61–69.

4. Крак Ю.В. Математична модель подання текстової інформації для методу конкатенативного сегментивного Text-to-Speech синтезу / Ю.В. Крак, М.М. Шатковський // Штучний інтелект. – Донецьк: ІПШІ МОН і НАН України. – 2006. – №1. – С. 158–165.

5. Шатковський М.М. Об'єктно-елементна модель подання текстової інформації для задачі конкатенативного сегментивного синтезу української мови / М.М. Шатковський // Штучний інтелект. – Донецьк: ІПШІ МОН і НАН України. – 2008. – № 4. – С. 796–802.

Тези наукових доповідей

6. Крак Ю.В. Моделювання фонем для мовних сигналів конкатенативної системи синтезу української мови / Ю.В. Крак, Н.М. Требіна, М.М. Шатковський // Тези ІІ Міжнар. конф. «Обчислювальна та прикладна математика». – К.: Нац. ун-т імені Тараса Шевченка. – 2004. – С. 103.

7. Крак Ю.В. Створення моделі конкатенативного сегментивного синтезу української мови / Ю.В. Крак, Н.М. Требіна, М.М. Шатковський // Праці Всеукр. наук.-метод конф. «Сучасні проблеми математичного моделювання, прогнозування та оптимізації». – Кам’янець-Подільський. – 2004. – С. 256–257.

8. Крак Ю.В. Моделювання процесів синтезу мовних сигналів та об’ємних зображень голови людини / Ю.В. Крак, О.В. Бармак, О.С. Ганджа [та ін.] // Праці конференції «Dynamic system modeling and stability investigation». Вісник Київського університету, кібернетика. – Серія: фіз.-мат. наук. – К.: Нац. ун-т імені Тараса Шевченка. – 2005 – Вип.2. – С. 385.

9. Кривонос Ю.Г. Система конкатенативного сегментивного синтеза украинского языка / Ю.Г. Кривонос, Ю.В. Крак, Н.Н. Требіна, Н.Н. Шатковский [та ін.] // Материалы Междунар. научн.-техн. конф. «Искусственный интелект. Интеллектуальные и многопроцессорные системы.» (20-25 сентября 2004г.). – Донецк: ИПИИ «Наука і освіта». – 2004. – Т. 2. – С. 21–22.

10. Крак Ю.В. Дослідження фонетичних властивостей і характеристик для задачі синтезу української мови / Ю.В. Крак, Н.М. Требіна, М.М. Шатковський // Матеріали одинадцятої міжнар. наук. конф. імені академіка М. Кравчука (18-20 трав., 2006 р.). – К.: ТОВ «За друга». – 2006. – С. 859.

11. Кривонос Ю.Г. Исследование структуры и свойств объектов и элементов синтеза для задачи озвучивания текстовой информации / Ю.Г. Кривонос, Ю.В. Крак, Н.Н. Шатковський // Proceedings  XII-th International Conference «Knowledge-Dialogue-Solution». – Varna. – 2006. – p. 329–334.

12. Кривонос Ю.Г. Синтез та розпізнавання мовних і візуальних образів людини / Ю.Г. Кривонос, М.Ф. Кириченко М.Ф., Ю.В. Крак [та ін.] // Четверта міжнародна науково-практична конференція «Математичне та програмне забезпечення інтелектуальних систем (MPZIS-2006)»: Тези доповідей (15-17 листопада 2006р.). – Д.: Вид-во Дніпропетр. ун-ту. – 2006. – С. 86.

13. Крак Ю.В. Інформаційна система аналізу та синтезу голосових та візуальних образів людини / Ю.В. Крак, О.В. Бармак,  Г.М. Єфімов [та ін.] // Материалы Седьмой Междунар. науч.-техн. Конф. «Искусственный интеллект и многопроцессорные системы» (25-30 сент. 2006 г.). – Донецк: ИПИИ «Наука і освіта». – 2006. – Т. 2. – С. 346–348.

14. Кривонос Ю.Г. Aналіз і синтез мовних сигналів та віртуальних зображень голови людини / Ю.Г.Кривонос, Ю.В. Крак, О.В. Бармак [та ін.] // Матеріали наук.-практ. конф. «Інтелектуальні системи прийняття рішень та  прикладні аспекти інформаційних технологій». – Херсон: ПП Вишемирський В.С., 2007. – Т. 3. – С. 151–152.

15. Крак Ю.В. Моделювання голосових сигналів та зображень голови людини / Ю.В. Крак, О.В. Бармак, О.С. Ганджа [та ін.] // Вісник Київського національного університету імені Тараса Шевченка. International Conference «Dynamical Systems Modeling and Stability Investigation». – Thesis of conference reports. May 22-25, ДП «Інформаційно-аналітичне агентство». – К.: Нац. ун-т імені Тараса Шевченка. – 2007. – С. 378.

16. Кривонос Ю.Г. Аналіз та синтез голосових і візуальних образів людини / Ю.Г. Кривонос, Ю.В. Крак, М.Ф. Кириченко [та ін.] // Праці міжнародної конференції «Питання оптимізації обчислень» (ПОО-ХХХП), присвяченої пам’яті академіка В.С.Михалевича. – К: Інститут кібернетики ім. В.М. Глушкова НАН України. – 2007. – С. 147.

17. Крак Ю.В. Конкатенативний сегметивний синтез та розпізнавання інформації українською мовою / Ю.В. Крак, О.С. Загваздін, М.М. Шатковський // Тези доповідей п’ятої міжнародної науково-практичної конференції «Математичне та програмне забезпечення інтелектуальних систем (MPZIS-2007)» (14-16 листопада 2007р.). – Дніпропетровськ: Вид-во Дніпропетровського ун-ту. – С. 104–105.

18. Крак Ю.В. Моделювання української мови жестів в системах побудови людино-комп’ютерного інтерфейсу / Ю.В. Крак, О.В. Бармак, О.С. Ганджа [та ін.] // Тези міжнародної наукової конференції «Інтелектуальні системи прийняття рішень і проблеми обчислювального інтелекту (ISDMCI'2008)». – Херсон: ХНТУ. – 2008. – Т.1. – Ч.1. – С. 78–80.

19. Кривонос Ю.Г. Інформаційна технологія невербального спілкування людей з вадами слуху / Ю.Г. Кривонос, Ю.В. Крак, О.В. Бармак [та ін.] // Искусственный интеллект. Интеллектуальные системы: Материалы IX Междунар. науч.-техн. конф. – Донецк: ИПИИ «Наука і освіта». – 2008. – Т.2. – С. 39–43.

20. Крак Ю.В. Озвучення текстової інформації українською мовою на основі сегментивного конкатенативного синтезу / Ю.В. Крак, М.М. Шатковський // Збірник наукових праць XVI Всеукраїнської наукової конференції «Сучасні проблеми прикладної математики та інформатики». – Львів: Видавничий центр ДНУ імені Івана Франка. – 2009. – С. 119.

АНОТАЦІЯ

Шатковський М.М. Створення засобів озвучення текстової інформації на основі конкатенативного сегментивного синтезу української мови. – Рукопис.

Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.23 – засоби та системи штучного інтелекту. – Державний університет інформатики та штучного інтелекту, Донецьк, 2010.

Дисертацію присвячено створенню засобів комп’ютерного озвучення текстової інформації на основі конкатенативного сегментивного синтезу української мови.

У роботі дістав подальшого розвитку конкатенативний підхід до комп’ютерного синтезу мовлення, в межах якого враховано ряд властивостей природності звучання, що дозволяє підвищити натуральність та розбірливість комп’ютерно синтезованих слів українського мовлення. Розроблено моделі взаємозв’язків ознак природності звучання українського мовлення, подання текстової інформації, об’єктно-елементна модель конкатенативного сегментивного синтезу українського мовлення. На основі моделей розроблено повні набори сегментів, алгоритмічно-програмні засоби сегментації текстової інформації та конкатенації штучних мовленнєвих сигналів, створення об’єктів синтезу.

Перевірено функціонування розроблених та програмно реалізованих засобів озвучення текстової інформації на основі конкатенативного сегментивного синтезу української мови на прикладі озвучення засобами конкатенативного сегментивного синтезу заданого тексту українською мовою.

Ключові слова: синтез українського мовлення, корпус слів, мовленнєва база даних, природність звучання, ознаки природності звучання мовлення, модель подання текстової інформації.

АНОТАЦИЯ

Шатковский Н.Н. Создание средств озвучивания текстовой информации на основе конкатенативного сегментивного синтеза украинского языка. – Рукопись.

Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.23 – системы и средства искусственного интеллекта. – Государственный университет информатики и искусственного интеллекта, Донецк, 2010.

Диссертация посвящена созданию средств компьютерного озвучивания текстовой информации на основе конкатенативного сегментивного синтеза украинского языка.

В работе получил дальнейшее развитие конкатенативний подход к компьютерному синтезу речи, в рамках которого учтен ряд свойств естественности звучания, что разрешает повысить натуральность и разборчивость комп'ютерно синтезированных слов украинской речи. Разработана усовершенствованная модель представления текстовой информации для конкатенативного синтеза украинской речи, что позволило учесть признаки позиционности, ударности и мультифонемности звучания речевых сегментов, приведенных в модели взаимосвязи признаков естественности звучания украинской речи. Орфографически поданное в модели слово раскладывается на три части согласно  признаку позиционности – начальную, внутреннюю и конечную части. Начальная и конечная части являются соответственно начальным и конечным сегментами. Внутренняя часть может быть пустой, содержать один сегмент или состоять из нескольких сегментов. Во всех сегментах учитывают признак ударности, т.е. необходимые сегменты под ударением. Согласно признаку мультифонемности сегменты выбираются наибольшими, состоящими из наибольшего количества букв/звуков, тем самым уже учитывая коартикуляционные и просодические свойства слова. Таким образом, уменьшается количество конкатенаций сегментов и повышается естественность звучания синтезированной речи.

Разработана объектно-элементная модель конкатенативного сегментивного синтеза, которая разрешает зафиксировать и связать наборы объектов синтеза и элементов синтеза (сегментов) для конкатенативного сегментивного синтеза, получить возможность подбора конкретных сегментов для озвучивания конкретных слов украинского языка и повысить уровень естественности звучания синтезированной речи. Согласно модели функциональными объектами синтеза являются слова – минимальные семантически завершенные единицы языка. Элементами синтеза являются сегменты – определенные морфологически, фонетически и просодически обусловленные элементы синтеза. При формировании сегментов учтены признаки естественности звучания украинской речи – позиционности, ударности и мультифонемности.

Созданы полные наборы текстовых сегментов на основе проведенного анализа естественности звучания украинской речи и разработанной модели взаимосвязей признаков естественности звучания украинской речи. Разработаны программно-алгоритмические средства построения наборов объектов синтеза на основе усовершенствованной модели представления текстовой информации, объектно-элементной модели и наборов текстовых сегментов. В рамках конкатенативного сегментивного синтеза слов украинской речи модификация звуковых сегментов не осуществляется. Незначительная модификация речевых сигналов осуществляется лишь на этапе их предварительной обработки при создании полных наборов звуковых сегментов.

Проведена проверка функционирования разработанных и программно реализованных средств озвучивания текстовой информации на основе конкатенативного сегментивного синтеза украинского языка на примере озвучивания заданного текста. На основе проведенной проверки речь, синтезированную средствами компьютерного конкатенативного сегментивного синтеза слов украинской речи, можно считать натуральной, разборчивой и похожей на естественную.

Ключевые слова: синтез украинской речи, корпус слов, речевая база данных, естественность звучания, признаки естественности звучания речи, модель представления текстовой информации.

ABSTRACT

Mykola M. Shatkovkyy Creation of resources of text information insonification based on concatenative segmentative synthesis of Ukrainian language. – Manuscript.

Dissertation to obtain a candidate degree in technical sciences on speciality 05.13.23 – systems and facilities of artificial intelligence. – State University of Informatics and Artificial Intelligence, Donetsk, 2010.

Dissertation is devoted to creation of text information insonification resources based on concatenative segmentative synthesis of Ukrainian language.

Concatenative approach to the computer speech synthesis has obtained firther development. Natural Ukrainian language features are considered. This allows to improve synthesized speech naturalness and legibility. Natural Ukrainian language features (positioning, stressing and multi-phoneming) interrelation model, text information presentation model and object-elemental model of concatenative segmentative Ukrainian speech synthesis are developed. Concatenative segmentative Ukrainian speech synthesis textual segment sets and database. Ukrainian speech information analysis and synthesis program resources are developed.

Functioning of developed text information insonification resources based on concatenative segmentative synthesis of Ukrainian language is inspected on specified Ukrainian text.

Keywords: Ukrainian speech synthesis, speech corpus, speech database, speech naturalness,  speech sounding features, model of text presentation.


 

А также другие работы, которые могут Вас заинтересовать

45541. Типология корпоративных изданий 36 KB
  Типология корпоративных изданий Корпорация – человеческие и финансовые ресурсы общая цель профессиональные интересы идентификация Печатные методы PR: Фирменный журнал Многотиражная газета Информационный бюллетень Письмо Прессбук – результат мониторинга в сброшюрированном виде для руководителя Отчет Корпоративная реклама Корпоративные документы кодексы относит к корпоративным изданиям по форме – журналы газеты и информационные бюллетени. Что такое корпоративное издание Это периодическое издание журнал газета...
45542. Спичрайтинг как технология 41 KB
  специфическая PRтехнология представленная в виде техники подготовки и написания текста предназначенного для устного исполнения а также консалтинг первого должностного лица по организации публичного выступления и его исполнению. – учебная дисциплина раздел деловой риторики Спичрайтер – лицо занимающееся профессиональной PRдеятельностью по составлению текста устного публичного выступления для первого лица и консалтингу касающемуся организации и исполнения публичного выступления. Цели публичного выступления: информирование улучшение...
45543. Слоган в политических и корпоративных маркетинговых коммуникациях 59.5 KB
  СЛОГАН: Понятийный аппарат: Слоган – четкая ясная и сжатая формулировка рекламной идеи которая воспринимается и запоминается. Ачкасова Слоган – спрессованная до формулы суть рекламной концепции доведенная до лингвистического совершенства запоминающаяся мысль. Феофанов Слоган фирменный лозунг представляет собой постоянно используемый оригинальный фирменный девиз.Иванова Слово слоган произошло от гаэльского означавшего в древности воинственный призыв к бою.
45544. Политический имидж 43.5 KB
  Политический имидж Структурная модель политического лидера ЕгороваГантман Пятичленная модель Персональные характеристики психофизические – активность агрессивность сила мощь; характер тип личности стиль принятия решений; локус контроля психологическая интенция индивида на восприятие им ситуации контроля значимых для него ситуаций внутренний – сам всё контролирует; внешний – фаталист; личные коммуникативные характеристики Социальные характеристики модель ролевого поведения – по Берну человеческие качества социальный и...
45545. Имидж организации 39 KB
  Имидж организации Имидж – целенаправленно сформированный образ субъекта ПР персоны корпорации выделющий определённые ценностные характеристики призванный оказать эмоциональнопсихололгическое воздействие на определённую группу ЦО. Имидж – форма. Конечным результатом PRдеятельности является формирование стойкого социальнопсихологического стереотипа под названием ИМИДЖ. Образ непроизвольный и имидж конструируется специально и целенаправленно.
45546. Консалтинг в PR-деятельности: виды и технологии 44 KB
  Мнение консультанта должно носить свободный и объективный характер. Опыта консультанта. Самая важная характеристика в консалтинге – КОМПЕТЕНТНОСТЬ консультанта в области бизнеса клиента и самое главное связей с общественностью. И может быть охарактеризована следующими позициями: Неосязаемость услуги Непостоянство качества Неотделимость от источника Несохраняемость Главные критерии оценки труда консультанта: Прозрачность труда консультанта – степень открытости к.
45547. Понятийный аппарат 70 KB
  Потенциалом навредить компании или разрушить ее.Регресс Негативизация имиджа падение авторитета Последствия кризисов: необходимость уплаты штрафных санкций; смена руководства компании; массовые увольнения сотрудников; отзыв продукции с рынка; остановка производства; ликвидация предприятия; поглощение конкурентами Особенности эффективного давления на кризис: репутация компании; признание вины; открытость и обеспечение информацией; аргументы и факты; поддержка общественных групп; гибкость стратегии Кризисный PR В каких же...
45548. PR в системе интегрированных маркетинговых коммуникаций 33.5 KB
  ИМК – это технология т. ИМК – новый способ понимания целого состоящего из отдельных видов МКPR – это группы общественности Маркетинг – потребиели а реклама – целевая аудитория . ИМК перестраивают МК с целью увидеть их так как и потребитель – единым потоком инфи из одного источника. Что входит в состав ИМК Несколько точек зрения: 1.
45549. Использование современных интернет-технологий в ПР-деятельности 42 KB
  Использование современных интернеттехнологий в ПРдеятельности. PR в Интернете – это коммуникативная деятельность в сети Интернет направленная на формирование и поддержание взаимопонимания и сотрудничества между субъектом PR Интернетпредставительством компании Интернетпроектом отдельным сайтом и сетевой общественностью; а также на обеспечение стабильной двусторонней коммуникации и получение обратной связи от целевых групп субъекта PR. Под PRкоммуникацией в сети Интернет можно понимать следующие: PR – коммуникация в Интернете...