2 PhD, профессор, Department of Computer Science of the University, г. Тегеран, Иран. 2 PhD докторант, Институт информационных и вычислительных технологий КН МОН РК., г. Алматы, Казахстан.

УДК 519.7, 519.97


МРНТИ 28.23.00


1, Bagher B.2, Турдалыулы М.3, Абильда Б.


РАСПОЗНАВАНИЕ КАЗАХСКОГО ПИСЬМЕННОГО ТЕКСТА НА ОСНОВЕ НЕЙРОННЫХ СЕТЕЙ


(1PhD, асс. профессор, Институт информационных и вычислительных технологий КН МОН РК., г. Алматы, Казахстан.

2PhD, профессор, Department of Computer Science of the University, г. Тегеран, Иран.

2PhD докторант, Институт информационных и вычислительных технологий КН МОН РК., г. Алматы, Казахстан.)


Аннотация

Преобразование графемы в фонему является одной из основных подсистем систем Text-to-Speech (TTS). Преобразование последовательности написанных слов в соответствующей им последовательности фонем для казахского языка сложней чем для других языков. Общие подходы, используемые в казахстанских коммерческих системах TTS, имеют несколько модулей и сложные модели для обработки естественного языка. В этой статье мы определяем преобразование графем в фонему как задачу последовательного обозначения; и используем измененные рекуррентные нейронные сети (RNN) для создания интеллектуальной и интегрированной модели для этой цели. Рекуррентные сети модифицируются как имеющие два направления и снабжены долгосрочными-краткосрочными блоками памяти (Long-Short Term Memory) для получения большей части прошлой и будущей контекстуальной информации для принятия решений. Эксперименты, проведенные в этой статье, показывают, что в дополнение к объединенной структуре двунаправленный RNN-LSTM имеет хорошую производительность в распознавании произношения казахских предложений с точностью более 98 процентов.

Ключевые слова: Распознавания речи, нейронные сети, глубокие нейронные сети, глубокие обучения.


Аңдатпа

1, Bagher B.2, Турдалыулы М.3 Абильда Б.

НЕЙРОНДЫҚ ЖЕЛІ НЕГІЗІНДЕ ҚАЗАҚША ЖАЗБА МӘТІНІН ТАНУ

(1PhD, қау. профессор, ҚР БҒМ ҒК Ақпараттық және есептеуіш технологиялар институты, Алматы қ., Казахстан.

2PhD, профессор, Department of Computer Science of the University, Тегеран қ., Иран.

2PhD докторант, ҚР БҒМ ҒК Ақпараттық және есептеуіш технологиялар институты, Алматы қ., Казахстан.)

Гарфемаларды фонемаларға түрлендіру Text-to-Speech (TTS) жүйесінің негізгі ішкі жүйесі болып табылады. Тізбектеліп жазылған мәтінді, сейкесінше фонемалар тізіміне түрлендіру, басқа тілдерге қарағанда қазақ тілі үшін өте күрделі. Қазақстандық TTS коммерциялық жүйесін қолданудың жалпы ұсынысында бірнеше модулдер бар және табиғи тілді өңдеуге модельдері өте күрделі. Бұл мақалада біз графемдарды фонемаларға түрлендіруін тізбектей белгілеу есебінде қарастырып: осы мақсатта біріккен және интеллектуальды модельді құрып, өзгерген рекурентті (RNN) нейрондық желіні қолданамыз. Рекуррентті желілер екі бағытта жаңғырады және ағымдағы үлкен бөліктегі қазіргі және өткен мезеттегі ақпаратты алып шешім қабылдап, қысқа-ұзақ жады бөліктерімен жабдықталады (Long-Short Term Memory). Осы мақалада жүргізілген тәжиірбелер екі бағыттағы RNN-LSTM біріккен құрылымы 98 пайыз дәлдікпен қазақ мәтіндерінің дауысталуын тануын жетілдіреді

Түйін сөздер: Сөйлеу тану, нейрондық желі, терең нейрондық желі, терең оқыту.


Abstract

1, Bagher B.2, Турдалыулы М.3, Abilda B.

RECOGNITION OF THE KAZAKH WRITTEN TEXT ON THE BASIS OF NEURAL NETWORKS

(1PhD, ass. professor, KR MER CR Institute of Information and Computational Technologies, Almaty, Kazakhstan.

2PhD, professor, Department of Computer Science of the University, s. Tegheran, Iran.

2PhD student, KR MER CR Institute of Information and Computational Technologies, Almaty, Kazakhstan.)

Grapheme to phoneme conversion is one of the main subsystems of Text-to-Speech (TTS) systems. Converting sequence of written words to their corresponding phoneme sequences for the Kazakh language is more challenging than other mon approaches used in the Kazakh commercial TTS systems have several modules and complicated models for natural language processing. In this paper we define the grapheme-to-phoneme conversion as a sequential labeling problem; and use the modified Recurrent Neural Networks (RNN) to create a smart and integrated model for this purpose. The recurrent networks are modified to be bidirectional and equipped with Long-Short Term Memory (LSTM) blocks to acquire most of the past and future contextual information for decision making. The experiments conducted in this paper show that in addition to having a unified structure the bidirectional RNN-LSTM has a good performance in recognizing the pronunciation of the Kazakh sentences with the precision more than 98 percent.

Keywords: Speech recognition, neural networks, deep neural networks, deep learning.


Введение. Преобразование письменного текста в речь, называется "Text-to-Speech (TTS)", которое было разработано стремительно быстро для многих языков за последнее десятилетие [1–3]. Системы TTS широко используются на различных платформах, включая персональные компьютеры, смартфоны и интернет-услуги. Эта технология, как правило, делится на две основные подсистемы: обработка естественного языка (NLP) и синтез речи [4, 5]. Первые извлечения подсистемы предопределили лингвистические и контекстные особенности из входного текста. В TTS системах выходным продуктом NLP является произносимая форма (pronunciation form) представленная последовательностью фонем. Вторая подсистема принимает последовательность фонем, и извлекает параметры голоса, которые затем будут использоваться для синтеза речевого сигнала. Следовательно, извлечение последовательности фонем из письменного текста называют преобразованием графемы в фонему (GTP).

Подсистема для обработки естественного языка во многом зависит от структуры языка, для которой разрабатывается система TTS. В системе TTS письменная форма предложения, с начало преобразуется в последовательность фонемы, которая показывает как письменный текст должен быть произнесен. Извлечение этих фонем из письменной формы слов является сложной задачей. Первый и наиболее распространенный способ преобразования графемы в последовательность фонем - применение лексикона [6-8]. В этом методе используется большая таблица всех возможных письменных слов языка с их соответствующими последовательностями фонем. Количество слов в лексиконе ограничено, а слова постепенно увеличиваются в каждом языке. В связи с этим произношения незнакомых слов вне тренировочного набора данных является потенциальной проблемой для систем TTS на основе лексикона. К тому же нахождение произношения слов в лексиконе может быть исчерпывающим и влияет на общую эффективность работы системы. В дополнение к этим недостаткам, процесс языков на основе тюркоязычной вязи (например, казахский) наиболее сложней, чем языки латинской графики (например, английский):

В казахском языке 42 буквы и 37 звуков.

Гласные звуки в казахском языке

Виды гласных звуков

По подъему языка

По положению челюсти

По участию губ

твердые

мягкие

открытые

сжатые

губные

неогубленные

а, о, ы, ұ, э, у

ә, ө, і, ү, е, и

а, ә, е, о, ө, э

ы, и, і, у, ұ, ү

о, ө, у, ұ, ү

а, ә, е, э, ы, і, и


Согласные звуки в казахском языке

Виды согласных звуков

Звонкие

Сонорные

Глухие

б, в, г, ғ, д, ж, з, һ

й, л, м, н, ң, р, у

к, қ, п, с, т, ф, х, ч, ц, ш, щ


Фонематическая система состоит из 25 согласных, 15 гласных звуков (специфических звуков - 9: ә, і, ө, ү, ұ, ң, ғ, қ, һ). Опущение гласных звуков в стандартной орфографии казахского языка вызывает двусмысленность омографа. Есть много казахских слов с одинаковой письменной формой, но разными произношениями при твёрдых и мягких словах. Например, слова «жиналыс (жыйналыс) – собрание» и «жидек (жійдек) – ягода». Предложение, в котором используются эти слова, определяет их значения и произношение. Для того, чтобы отличить их, в системе GTP необходим раздел дизамбигуаций омографов. В казахском языке роль и произношения слов меняются в зависимости от их положения в предложении.

Эти проблемы снижают гибкость и эффективность лексикона в преобразовании графемы в фонему для казахского TTS больше, чем на других языках. Казахские коммерческие продукты TTS состоят из нескольких модулей, связанных друг с другом последовательно таким способом, которым ошибка каждого модуля размножается через последующие; и имеет отрицательные влияния на их работу. Системы используют огромный лексикон, который имеет несколько форм произношения для каждого слова в соответствии с частью речи. Это означает, что система должна также определить часть речи слова в предложении, чтобы устранить неоднозначность омографов. В отличие от английского языка казахский имеет неупорядоченную структуру; и в зависимости от стиля и техники писателя положение и порядок слов может меняться. Поэтому определение части речи не является легкой задачей и любая ошибка может привести к снижению окончательной точности системы. Кроме того, данный раздел должен различать слова с произношением.

В данной работе определяем процесс преобразования графемы в фонему казахского языка в виде задачи отображения последовательности. В отличие от предыдущих подходов, которые используют несколько сложных модулей, мы проводим всестороннюю и интегрированную модель, используя рекуррентные нейронные сети (RNN), которые принимают Казахские предложения (последовательности букв) в качестве входных данных и преобразует их в последовательности фонем. Эксперименты данной научно-исследовательской работы показывают, что рекуррентные сети имеют высокую точность в решении этой задачи.

Последовательное обозначение. За последние несколько лет глубокие нейронные сети с прямой связью показали себя как эффективный метод моделирования различных задач искусственного интеллекта, как распознавание речи, а также анализа документов и распознавания изображений. Эти сети могут моделировать огромное количество обучающих данных параллельно. Тем не менее, глубокие нейронные сети ограничены задачами в которых известны длина и размеры входных и выходных данных; и не могут моделировать задачу последовательного обозначения с переменной входной длиной. В последнее время многие масштабные проблемы, как вопросно-ответная система, распознавания речи, анализ документов и преобразование графемы в фонему могут быть определены как задачи отображения последовательности. Следовательно, последовательное обучение является важным подходом в области искусственного интеллекта; и на нем основаны много приложений, как обработка естественного языка и процесс последовательностей ДНК. В зависимости от приложений и задач, последовательная маркировка классифицируется на 4 различные группы: последовательный прогноз, последовательная генерация, последовательное распознавание и последовательное принятие решений. Крайне важно иметь знания о структуре и математических определений этих групп для того, чтобы правильно воспринимать и использовать последовательное обозначение.

Нейронные сети можно использовать для последовательной обработки данных в двух направлениях. Первый способ заключается в устранении элемента времени с помощью техники скользящего окна и в сборе входной последовательности, разделенной на перекрывающиеся окна. Оптимальная ширина окна зависит от характера задачи; также эта техника очень чувствительна к временным сдвигам во входной последовательности. Следовательно, производительность скользящего окна неудовлетворительна в последовательном обучении. Второй способ заключается в использовании рекуррентных связей в нейронных сетях и определений задачи, в качестве отображения между двумя временными последовательностями. Такой способ привел к созданию рекуррентных нейронных сетей. В данной работе используем рекуррентную нейронную сеть для преобразования казахских графем в фонемы.

Рекуррентная нейронная сеть. Структура RNN похожа на другие нейронные сети за исключением того, что у них есть по крайней мере одна циклическая синаптическая связь в скрытых нейронах для хранения и использования графической информаций последовательностей. В отличие от традиционных нейронных сетей с прямой связью (FNN) и многослойного персептрона (MLP), RNN не только отображает входные данные на выходные, но и учитывает всю историю входной последовательности. Изучение рекуррентных сетей является временным процессом; и значения нейронов во выходном слое зависит от памяти входных данных. В базовой структуре данные сети можно рассмотреть как MLP, в котором каждый нейрон скрытых слоев снабжен контуром обратной связи. Процедура изучения осуществляется с помощью тех же алгоритмов обратного распространения, используемых в сетях с прямой связью. На рисунке 2 представлена структура рекуррентных нейронных сетей.





Рисунок 2: Общая структура рекуррентных нейронных сетей


Также как сети с прямой связью, рекуррентные сети имеют входные, скрытые и выходные слои. Представим, что есть нейроны K, M и L во входном, скрытом и выходном слоях, соответственно. Векторы активации этих слоев даны в (1), (2), и (3) соответственно.

 (1)

 (2)

 (3)


Где t – транспозиция. Промежуточные весовые коэффициенты этих слоев (4).

 (4)

В режиме прямого прохода, при использований (5) и (6), получено значение активации нейрона j скрытого уровня:

 (5)

 (6)

Где иj - нелинейная функция активации нейрона j в скрытом уровне. Значение выходного нейрона l вычислено, с помощью (7).

 (7)

Рекуррентные сети имеют хорошую производительность при решении последовательных задач обозначения, в стандартной структуре данных сетей есть три недостатка:

  • RNN не применяет будущий контекст для обозначения текущих вводных данных последовательности.
  • RNN имеет ограниченные возможности в сохранении и использовании графической информаций продолжительностью более нескольких временных шагов.
  • Непараллельное обновление веса в модели RNN делает процедуру обучения этих сетей очень медленной и затратной по времени.

Эти недостатки препятствовали широкому применению рекуррентных сетей учеными в области последовательной маркировки и временной классификации.

Эксперименты и результаты. Рекуррентные нейронные сети двустороннего действия, оснащенные блоками памяти LSTM обладают высокой точностью для различных задач последовательного обозначения; как распознавание речи и рукописного текста. Однако, в алгоритме обучения существуют временные зависимости среди элементов последовательности; и параллельная реализация рекуррентных сетей не представляется возможным.

Данное исследовании провело несколько экспериментов для преобразования последовательность графем в последовательность фонем казахского языка с использованием CURRENNT. Для обучения модели используются два корпуса: FarsDat с более чем 500000 слов; и обозначенный раздел казахского письменного корпуса, который имеет более чем 10 миллионов обозначенных слов. Цель состоит в том, чтобы отобразить последовательность графем в последовательность фонем. Графема каждой буквы представлена числом как одномерный входной вектор признаков. Следовательно, входной слой/уровень сети имеет только один нейрон; в то время как выходной слой/уровень имеет 180 нейронов. Каждый выходной слой посвящается одному из вариантов произношения казахского языка. Стоит отметить, что существует около 230 вариантов произношений в казахском языке; но некоторые из них редко используются в данном языке.

В данной работе два основных эксперимента. В обоих экспериментах используется казахский письменный корпус текстов. 80%, 10%, и 10% этого корпуса соответственно посвящены подготовке, проверке правильности и тестовым наборам. В первом эксперименте рассмотрели каждое предложение как отдельную последовательность. Во втором эксперименте каждые 10 предложений корпуса размещены в качестве входной последовательности; и один нейрон добавлен к выходному уровню, чтобы указать на конец предложения. В данной работе мы впервые рассмотрели фонологическую характеристику казахского языка, а также структуру ее артикуляций. Мы применили CURRENNT, который является основанной на GPU оптимальной реализацией рекуррентных нейронных сетей. Результаты экспериментов показали более чем 98% точность в преобразовании казахских графем в фонем. Более того, модель интегрирована и не имеет ни одной из сложностей характерных предыдущим методам.



Список использованной литературы:


  1. The festival speech synthesis system, http://www.cstr.ed.ac. uk/projects/festival/.
  2. Cepstral text-to-speech system, http://www.cepstral.com/en/ demos.
  3. Hmm-based speech synthesis system (hts), http://hts.sp. nitech.ac.jp/.
  4. Onaolapo J., Idachaba F., Badejo J., Odu T., Adu O., A simplified overview of text-to-speech synthesis, Proceedings of the World Congress on Engineering, 2014, 1.
  5. Isewon I., Oyelade J., Oladipupo O., Design and implementation of text to speech conversion for visually impaired people, International Journal of Applied Information Systems, 2014, 7(2), 25-30.
  6. Latacz L., Mattheyses W., Verhelst W., Speaker-specific pronunciation for speech synthesis, Text, Speech, and Dialogue, Springer, 2013, 501-508.
  7. Bagshaw P. C., Phonemic transcription by analogy in text-tospeech synthesis: Novel word pronunciation and lexicon compression, Computer Speech & Language, 1998, 12(2), 119-142.
  8. Chen G., Khudanpur S., Povey D., Trmal J., Yarowsky D, Yilmaz O., Quantifying the value of pronunciation lexicons for keyword search in lowresource languages, Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference, IEEE, 2013, 8560-8564.






Подпишитесь на рассылку:

Казахстан

Иран

Доктора медицины

Информационные технологии


Смотрите полные списки: Профессии

Профессии: Техника и производство



Проекты по теме:

Основные порталы, построенные редакторами

Домашний очаг

ДомДачаСадоводствоДетиАктивность ребенкаИгрыКрасотаЖенщины(Беременность)СемьяХобби
Здоровье: • АнатомияБолезниВредные привычкиДиагностикаНародная медицинаПервая помощьПитаниеФармацевтика
История: СССРИстория РоссииРоссийская Империя
Окружающий мир: Животный мирДомашние животныеНасекомыеРастенияПриродаКатаклизмыКосмосКлиматСтихийные бедствия

Справочная информация

ДокументыЗаконыИзвещенияУтверждения документовДоговораЗапросы предложенийТехнические заданияПланы развитияДокументоведениеАналитикаМероприятияКонкурсыИтогиАдминистрации городовПриказыКонтрактыВыполнение работПротоколы рассмотрения заявокАукционыПроектыПротоколыБюджетные организации
МуниципалитетыРайоныОбразованияПрограммы
Отчеты: • по упоминаниямДокументная базаЦенные бумаги
Положения: • Финансовые документы
Постановления: • Рубрикатор по темамФинансыгорода Российской Федерациирегионыпо точным датам
Регламенты
Термины: • Научная терминологияФинансоваяЭкономическая
Время: • Даты2015 год2016 год
Документы в финансовой сферев инвестиционнойФинансовые документы - программы

Техника

АвиацияАвтоВычислительная техникаОборудование(Электрооборудование)РадиоТехнологии(Аудио-видео)(Компьютеры)

Общество

БезопасностьГражданские права и свободыИскусство(Музыка)Культура(Этика)Мировые именаПолитика(Геополитика)(Идеологические конфликты)ВластьЗаговоры и переворотыГражданская позицияМиграцияРелигии и верования(Конфессии)ХристианствоМифологияРазвлеченияМасс МедиаСпорт (Боевые искусства)ТранспортТуризм
Войны и конфликты: АрмияВоенная техникаЗвания и награды

Образование и наука

Наука: Контрольные работыНаучно-технический прогрессПедагогикаРабочие программыФакультетыМетодические рекомендацииШколаПрофессиональное образованиеМотивация учащихся
Предметы: БиологияГеографияГеологияИсторияЛитератураЛитературные жанрыЛитературные героиМатематикаМедицинаМузыкаПравоЖилищное правоЗемельное правоУголовное правоКодексыПсихология (Логика) • Русский языкСоциологияФизикаФилологияФилософияХимияЮриспруденция

Мир

Регионы: АзияАмерикаАфрикаЕвропаПрибалтикаЕвропейская политикаОкеанияГорода мира
Россия: • МоскваКавказ
Регионы РоссииПрограммы регионовЭкономика

Бизнес и финансы

Бизнес: • БанкиБогатство и благосостояниеКоррупция(Преступность)МаркетингМенеджментИнвестицииЦенные бумаги: • УправлениеОткрытые акционерные обществаПроектыДокументыЦенные бумаги - контрольЦенные бумаги - оценкиОблигацииДолгиВалютаНедвижимость(Аренда)ПрофессииРаботаТорговляУслугиФинансыСтрахованиеБюджетФинансовые услугиКредитыКомпанииГосударственные предприятияЭкономикаМакроэкономикаМикроэкономикаНалогиАудит
Промышленность: • МеталлургияНефтьСельское хозяйствоЭнергетика
СтроительствоАрхитектураИнтерьерПолы и перекрытияПроцесс строительстваСтроительные материалыТеплоизоляцияЭкстерьерОрганизация и управление производством

Каталог авторов (частные аккаунты)

Авто

АвтосервисАвтозапчастиТовары для автоАвтотехцентрыАвтоаксессуарыавтозапчасти для иномарокКузовной ремонтАвторемонт и техобслуживаниеРемонт ходовой части автомобиляАвтохимиямаслатехцентрыРемонт бензиновых двигателейремонт автоэлектрикиремонт АКППШиномонтаж

Бизнес

Автоматизация бизнес-процессовИнтернет-магазиныСтроительствоТелефонная связьОптовые компании

Досуг

ДосугРазвлеченияТворчествоОбщественное питаниеРестораныБарыКафеКофейниНочные клубыЛитература

Технологии

Автоматизация производственных процессовИнтернетИнтернет-провайдерыСвязьИнформационные технологииIT-компанииWEB-студииПродвижение web-сайтовПродажа программного обеспеченияКоммутационное оборудованиеIP-телефония

Инфраструктура

ГородВластьАдминистрации районовСудыКоммунальные услугиПодростковые клубыОбщественные организацииГородские информационные сайты

Наука

ПедагогикаОбразованиеШколыОбучениеУчителя

Товары

Торговые компанииТоргово-сервисные компанииМобильные телефоныАксессуары к мобильным телефонамНавигационное оборудование

Услуги

Бытовые услугиТелекоммуникационные компанииДоставка готовых блюдОрганизация и проведение праздниковРемонт мобильных устройствАтелье швейныеХимчистки одеждыСервисные центрыФотоуслугиПраздничные агентства

Блокирование содержания является нарушением Правил пользования сайтом. Администрация сайта оставляет за собой право отклонять в доступе к содержанию в случае выявления блокировок.