парсер
семантическая сеть
тезаурус
парсинг
морфоанализатор
морфопарсер
________________________________ = особая разновидность словарей общей или специальной лексики, в которых указаны семантические отношения между лексическими единицами
________________________________ = синоним вокабулы, заголовок словарной статьи
________________________________ = словарь, в котором статьи упорядочены не по алфавиту, как обычно, а по смыслу
________________________________ = точная спецификация некоторой предметной области, которая обеспечивает словарь для представления и обмена знаниями об этой предметной области и множество связей, установленных между терминами в этом словаре
________________________________ = информационная модель предметной области, имеющая вид ориентированного графа, вершины которого соответствуют объектам предметной области, а дуги (рёбра) задают отношения между ними
________________________________ = программа или часть программы, выполняющая синтаксический анализ
________________________________
6. Какая из этих схем является концептуальным графом? Опишите его свойства. Расшифруйте предложения в 1) и 2). Опишите типы связей, обозначенных в дугах между узлами.
1)
2) 
7. Какое из деревьев отражает результаты синтаксического анализа, а какое семантического?
1)
2) 
Пример 3
1. Какая разметка из приведенных ниже является морфологической, а какая семантической?
<?xml version="1.0" encoding="windows-1251" ?>
<text>
<p>
<s>
<w>Звонили<ana lemma="ЗВОНИТЬ" pos="Г" gram="мн, нс, нп, дст, прш," /></w>
<w>к<ana lemma="К" pos="ПРЕДЛ" gram="" /></w>
<w>вечерне
<ana lemma="ВЕЧЕРНЯ" pos="С" gram="жр, ед, дт, пр, но," />
<ana lemma="ВЕЧЕРНИЙ" pos="П" gram="ср, ед, кр," /></w>
<pun>.</pun> </s>
<s><w>Торжественный<ana lemma="ТОРЖЕСТВЕННЫЙ" pos="П" gram="мр, ед, им, вн," /></w>
<w>гул<ana lemma="ГУЛ" pos="С" gram="мр, ед, им, вн, но," /></w>
<w>колоколов
<ana lemma="КОЛОКОЛ" pos="С" gram="мр, мн, рд, но," />
<ana lemma="КОЛОКОЛОВ" pos="С" gram="мр, фам, ед, им, од," /></w>
……………………..<pun>.</pun> </s></p></text>
<?xml version="1.0" encoding="cp866"?>
<МЕТА–ДОКУМЕНТ>
<ДОКУМЕНТ>
<НАЗВАНИЕ>Сообщение газеты “Мир Кино”</НАЗВАНИЕ>
<ДАТА>20.03.2000</ДАТА>
<УЧАСТНИК_ОБЩЕНИЯ Имя=”Мир Кино” Тип=”Автор”>
<СОЦИАЛЬНЫЙ_СТАТУС>
<ХАРАКТЕРИСТИКА>Печатное издание</ХАРАКТЕРИСТИКА>
</СОЦИАЛЬНЫЙ_СТАТУС>
</УЧАСТНИК_ОБЩЕНИЯ>
</ДОКУМЕНТ>
2. Создайте морфологическую разметку предложения:
«Модуль семантического анализа текстов предназначен для нормализации синтаксической структуры, распознавания терминов, классификации терминов по семантическим признакам.»
Итоговая аттестация
Критерии формирования оценок.
В зачет из расчета 40 баллов включаются:
· 5 баллов реферат по одной из предложенных тем
· Письменный тест 5 баллов
· Отчет по курсовой работе 30 баллов
Итого за курс – 100 баллов.
Критерии оценки реферата
Цель написания реферата заключается в более детальном исследовании лингвистических программных средств и применении теоретических знаний в практике их использования в лингвистическом исследовании.
Критерии оценки реферата см. выше (в п. 3.1 «самостоятельная работа»)
Критерии формирования оценок по письменному тесту.
Письменный тест нацелен на проверку сформированности основных компетенций, связанных с владением теоретическим материалом и навыками практического использования лингвистического программного обеспечения и технологиями обработки текста и звучащей речи.
Тест состоит из 5 теоретических вопросов и оценивается из 5 возможных баллов (по 1 баллов за каждый вопрос).
В работе оценивается: полнота и объем ответа, использование терминологического аппарата, правильность, логичность и четкость изложения материала, актуальные примеры использования ПО для решения лингвистических задач.
Банк вопросов:
1. Прикладная лингвистика, кибернетика и информатика. Задачи и методы, области приложения ПЛ. Широкое и узкое понимание интересов ПЛ.
2. Компьютерная лингвистика на стыке наук.
3. Современные актуальные прикладные задачи: лингвистическая экспертиза, атрибуция устного и письменного текста и др.
4. Развитие компьютерного речевого интерфейса.
5. Основные проблемы распознавания звучащей речи.
6. Классификация систем распознавания речи и примеры работающих систем.
7. Распознавание письменного текста.
8. Современные программы распознавания символов.
9. Автоматическая обработка печатного текста в современных текстовых процессорах и издательских системах (АОТ в узком смысле).
10. Графематический анализ.
11. Морфологический анализ.
12. Синтаксический анализ. Сегментация предложения.
13. Способы изображения и выявления синтаксических структур.
14. Языковые средства, применяемые при синтаксическом моделировании.
15. Синтаксические (языковые) ограничения, применяемые в прикладных моделях анализа. Общие проблемы парсинга.
16. Автоматический семантический анализ. Работа на уровне словосочетания и фразы.
17. Общая категоризация лексики и семантические характеристики слов.
18. Семантическое отношение и возможности его представления.
19. Работа с тематической структурой текста. «Семантическая сеть». Общие проблемы семантического анализа и перспективы его использования.
20. Понятие корпуса. Корпус и электронная библиотека.
21. Виды лингвистических корпусов. Классификация корпусов. Конкорданс.
22. Метаразметка, морфологическая, синтаксическая, семантическая, дискурсивная разметка.
23. Основные принципы метаразметки корпуса звучащей речи. Максимы Лича.
24. Понятие «гипертекст» в информатике и филологии.
25. Языки разметки гипертекста и программы-браузеры (общий обзор).
26. Поисковые машины. Индекс, индексация, поисковой робот.
27. Лингвистическое обеспечение поисковых систем.
28. Основы оптимизации и продвижения гипертекстовых ресурсов.
29. Копирайтинг и поисковое продвижение. Структура контента. Семантическое ядро. Способы создания семантического ядра.
30. Локализация, интернационализация, перевод сайтов.
31. Закон Ципфа. Перспективы развития лингвистических основ гипертекстовых технологий.
32. Порождение высказываний. Синтез устной речи. Чатботы, машины Тьюринга. Генератор шуток.
33. Системы синтеза речи на современном этапе. Перспективы развития.
34. Машинный перевод. Автоматизированный перевод.
35. Частично автоматизированный перевод. Статистический машинный перевод.
36. Проблема качества перевода. Лингвистическое программное обеспечение. ABBYY Lingvo, Prompt, Trados, Google Translate, Multitran, Babel Fish (Systran)
37. Экспертные системы. Базы знаний.
38. Системы представления знаний на основе когнитивных моделей (фреймы, сценарии, слоты, концепты).
39. Вопросно-ответные системы.
40. Системы аннотирования и реферирования.
41. Перспективы развития слабого и сильного подходов к ИИ.
Критерии оценки курсовой работы
Оценка курсовой работы:
25-30 баллов (отлично) – студент полностью справился с поставленной задачей, в срок представил реферативную часть исследования, собрал и представил анализ собственного материала исследования;
15-24 балла (хорошо) – студент в целом справился с поставленной задачей, в срок представил реферативную часть исследования, собрал собственный материал, иллюстрирующий теоретическую часть исследования, но испытывал затруднения при описании собранного материала, не полностью владеет научным стилем изложения;
5-14 баллов (удовлетворительно) – студент представил реферативную часть по теме исследования, но не владеет научным стилем изложения, испытывает затруднения в сборе и описании собственного материала, выявлены нарушения в оформлении текста курсовой (требования к оформлению ссылок, списка литературы, представлению статистики).
За публичную защиту курсовой работы на научной сессии института и получение одобрения в форме грамоты за 1, 2, 3 место, представление итогов работы на конкурс научных работ студент дополнительно получает 1-10 баллов.
Баллы, полученные за выполнение и публичную защиту курсовой работы, присоединяются к баллам по курсу.
Примеры тематик курсовых работ:
· Мониторинг репутации политического деятеля в поисковом пространстве
· Поисковые подсказки и сниппеты Google
· Приемы лингвистической идентификации личности в авторском тексте
· Лингвистические особенности SEO - копирайтинга"
· Семантический поиск и семантические поисковые системы
· Поисковый дискурс и анализ поисковых запросов
· Морфологическая разметка корпуса текстов (на примере корпуса региональных СМИ)
· Основные стратегии создания конверсионного текста сайта автомобильной тематики.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 |


