Партнерка на США и Канаду по недвижимости, выплаты в крипто
- 30% recurring commission
- Выплаты в USDT
- Вывод каждую неделю
- Комиссия до 5 лет за каждого referral
3. Основные направления применения компьютерных технологий в лингвистике. Компьютерный инструментарий лингвистических исследований.
Когнитивная наука как один из источников формирования категорий компьютерной лингвистики. Теория знаний. Способы представления знаний в компьютерных системах, работающих с естественным языком. Язык как механизм представления и обработки знаний. Процедурный и декларативный способы представления знаний. Категорийные понятия: фреймы, сценарии, семантические сети, сцена. Исследовательский инструментарий компьютерной лингвистики. Понятие о лингвистическом алгоритме. Языки программирования и лингвистические алгоритмы. Формальные языки представления текста как инструмент его автоматической обработки. Использование компьютерных средств обработки языковых данных. Использование различных средств и сред программирования. Метаязыки.
Компью́терная лингви́стика (также: математи́ческая или вычисли́тельная лингви́стика, англ. computational linguistics) - научное направление в области математического и компьютерного моделирования интеллектуальных процессов у человека и животных при создании систем искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков. Компьютерная лингвистика частично пересекается с обработкой естественных языков. Однако в последней акцент делается не на абстрактные модели, а на прикладные методы описания и обработки языка для компьютерных систем. Полем деятельности компьютерных лингвистов является разработка алгоритмов и прикладных программ для обработки языковой информации. Обработка естественного языка (англ. natural language processing; синтаксический, морфологический, семантический анализы текста). Сюда включают также: корпусная лингвистика, создание и использование электронных корпусов текстов; создание электронных словарей, тезаурусов, онтологий. Например, Lingvo. Словари используют, например, для автоматического перевода, проверки орфографии. Автоматический перевод текстов. Среди русских переводчиков популярным является Промт. Среди бесплатных известен переводчик Google Translate. Автоматическое извлечение фактов из текста (извлечение информации) (англ. fact extraction, text mining). Автореферирование (англ. automatic text summarization). Эта функция включена, например, в Microsoft Word. Построение систем управления знаниями. Экспертные системы. Экспе́ртная систе́ма (ЭС, англ. expert system) - компьютерная система, способная частично заменить специалиста-эксперта в разрешении проблемной ситуации. В информатике экспертные системы рассматриваются совместно с базами знаний как модели поведения экспертов в определенной области знаний с использованием процедур логического вывода и принятия решений, а базы знаний - как совокупность фактов и правил логического вывода в выбранной предметной области деятельности. Похожие действия выполняет такой программный инструмент как «Мастер» (англ. Wizard). Мастера применяются как в системных программах так и в прикладных для упрощения интерактивного общения с пользователем. Главное отличие мастеров от экспертных систем – отсутствие базы знаний - все действия жестко запрограммированы. Это просто набор форм для заполнения пользователем. Другие подобные программы - поисковые или справочные (энциклопедические) системы. По запросу пользователя они предоставляют наиболее подходящие (релевантные) разделы базы статей (представления об объектах областей знаний, их виртуальную модель). «Классический» подход к построению экспертных систем плохо согласуется с реляционной моделью данных, что делает невозможным эффективное использование современных промышленных СУБД для организации баз знаний таких систем. Предпринимаемые энтузиастами попытки объединить «классические» подходы к разработке экспертных систем с современными подходами к построению пользовательского интерфейса (проекты CLIPS Java Native Interface, и др.) не находят поддержки среди крупных компаний-производителей программного обеспечения и по этой причине остаются пока в экспериментальной стадии. Создание вопросно-ответных систем (англ. question answering systems). Оптическое распознавание символов (англ. OCR). Например, программа Fine Reader. Автоматическое распознавание речи (англ. ASR). Есть платное и бесплатное ПО.
4. Автоматическая обработка письменного текста.
Математическая и статистическая структура текста. Применение точных методов к исследованиям языка и текстов. Автоматизированные системы обработки текста и их архитектура. Формальные языки представления текста как инструмент его автоматической обработки. Теория подъязыков. Структура текста - составные части текста, связанные между собой в единое целое, которым является произведение. Эти части: 1) слова и словосочетания; 2) предложения; 3) фразы; 4) сверхфразовые единства, в которые объединяются единством темы несколько фраз (сверхфразовые единства 1-й ступени); 5) сверхфразовые единства 2-й ступени (они объединяют сверхфразовые единства 1-й ступени более общей темой); 6) сверхфразовые единства 3-й ступени (они объединяют сверхфразовые единства 2-й ступени еще более общей темой) и т. д.; 7) рубрика (подраздел низшей ступени - напр., параграф), выделяемая заголовком и являющаяся сверхфразовым единством следующей ступени (объединяющая, напр., сверхфразовые единства 3-й ступени); 8) рубрика следующей ступени (напр., глава), выделяемая своим заголовком и объединяющая несколько рубрик низшей ступени, и т. д. Некоторые сверхфразовые единства выделены еще и графически как абзац. По степени автоматизации информационные системы делятся на: автоматизированные - информационные системы, в которых автоматизация может быть неполной (то есть требуется постоянное вмешательство персонала); автоматические - информационные системы, в которых автоматизация является полной, то есть вмешательство персонала не требуется или требуется только эпизодически. «Ручные информационные системы» («без компьютера») существовать не могут, поскольку существующие определения предписывают обязательное наличие в составе информационных систем аппаратно-программных средств. Вследствие этого понятия «автоматизированная информационная система», «компьютерная информационная система» и просто «информационная система» являются синонимами. Развитие информационных технологий привело к появлению компьютерного подъязыка, в состав которого входят компьютерные термины, профессионализмы и жаргонизмы. Среди них есть и заимствования из других профессиональных подъязыков, а также трансформированные или переосмысленные слова и выражения общелитературного языка. Типологическая неоднородность лексических и фразеологических единиц в компьютерном подъязыке – неслучайна. Сфера компьютерных технологий характеризуется открытостью, множественностью связей с различными отраслями практической деятельности, что вызвано приобщением к ней людей разных возрастов и профессий. Лексические единицы английского компьютерного подъязыка можно условно разделить на три группы: 1) общеизвестные слова, получившее в подъязыке программистов новые значения (window – окно > (комп.) область на экране дисплея, chip – тонкий ломтик > (комп.) микросхема); 2) общеизвестные слова и компьютерные термины, переоформленные в компьютерном жаргоне (computer (компьютер) – confuser (от англ. to confuse – запутывать, сбивать с толку), compatibility (совместимость) – combatibility (от англ. combat – бой, сражение); 3) слова, возникшие в компьютерном подъязыке (gronked об устройстве, программе: абсолютно неработоспособный, phishing фишинг – разновидность интернет-мошенничества; выуживание информации, позволяющей совершить «кражу личности», bogon богон – вымышленная частица неработоспособности). Поскольку в лексике русского компьютерного подъязыка значительную часть составляют заимствования из английского языка, подробно рассматривается ассимиляция иноязычных слов. Проникновение компьютерной лексики в русский компьютерный подъязык происходило путем: лексического заимствования (file – файл, processor – процессор), калькирования (motherboard – материнская плата), перевода английского термина нейтральным русским словом или с использованием профессиональных и жаргонных слов других профессий (Windows (операционная система) – форточки, окошки, стекляшки), фонетического искажения (shareware – шаровары, button – бутон). При образовании «компьютеризмов» в русском языке применяется морфологический способ в его разновидностях: суффиксация (arcade (компьютерная игра) – аркадная), префиксально-суффиксальный способ (to attach – приаттачить прикрепить файл к письму), лексикализация графических сокращений (IBM – айбиэмка), сложение основ (мышедром коврик для мыши), сложносокращенные слова (системный оператор – сисоп), усечение (notebook (ноутбук) – ноут), универбация (the Trojan Horse – Троянский конь – троян, троянец, конь вредоносная компьютерная программа), интродукция (appendix (приложение) > (комп. жарг.) аппендикс + (мед.) аппендицит = (комп.) аппендицит приложение), контаминация (user > юзер + зверь = юзверь пользователь). При образовании жаргонизмов возможно сочетание моделей словообразования (application program – прикладная программа – прикладушка (универбация + суффиксация).
5. Автоматизация анализа и синтеза текста. Этапы анализа текста.
Процедура преданализа. Автоматический морфологический анализ. Связь морфологического анализа со словарем, основные виды анализа. Автоматический синтаксический и семантический анализ. Основные способы, проблемы и результаты. Изображение, представление и обнаружение синтаксических структур. Поверхностный и глубинный синтаксический анализ. Связь синтаксиса с семантикой с точки зрения автоматического анализа и синтеза. Поверхностный и глубинный синтаксический анализ. Прагматический анализ текста вытекает из функционального, логически продолжает и развивает его. Греческое pragmatos (дело, действие) - область науки (семиотики, языкознания), в которой изучается функционирование языковых знаков в речи. В прагматику лингвистическую включаются вопросы, связанные с субъектом (автором текста), адресатом (читателем) и - главное - с их взаимодействием в акте коммуникации. Субъект речи (автор текста) определяет: цели и задачи сообщения (например, информирование, волеизъявление, инструктирование и т. д.); тип речевого поведения; отношение к сообщаемому, его оценку (или отсутствие таковой); акценты при конструировании текста сообщения. Адресат речи (читатель текста): интерпретирует текст, в том числе косвенные и скрытые смыслы; испытывает воздействие - интеллектуальное, эмоциональное, эстетическое. Прагматический анализ вскрывает эти взаимодействия автора и читателя, устанавливает меру полезной информации в тексте, ориентируясь на типологию читательского адреса. Прагматический анализ лежит в основе теории дискурса. Дискурсом (от франц. discours - речь) в настоящее время считается связный текст в совокупности с экстралингвистическими факторами - психологическими, социокультурными и др. Дискурс - это текст, взятый в событийном аспекте как социально направленное «действо». Метафорически дискурс - это речь, погруженная в жизнь. Поэтому термин «дискурс» в настоящее время представляется некорректным в применении к древним текстам, так как дискурс целиком обращен к прагматической ситуации. Тенденция к размежеванию терминов «текст» и «дискурс» наметилась в 70-80 гг. Под дискурсом стали понимать разные виды актуализации текстов в связи с экстралингвистическими показателями. Построение прагматической структуры. Выявление текстовых структур. Межфразовые связи, текст как единое целое. Автоматический морфологический анализ (АМА) - анализ отдельно взятой словоформы и всех тех сведений, которые из нее можно извлечь безотносительно к тому, относятся ли эти сведения к морфологии или нет. Автоматический морфологический анализ определяется двумя факторами: 1) тип текста, подвергаемого анализу; 2) тип алгоритма автоматической обработки текста. МА начинается с поиска входного слова в словаре и с членения словоформы на составляющие ее морфемы. Общая схема морфологического анализа: 1. Общие правила (управляющий алгоритм). 2. Список (таблицы) суффиксов. 3. Список (таблицы) информации к суффиксам. 4. Список нестандартных операций (нестандартная запись). 5. Обработка омонимичных основ. Важен тип входного словаря. Учитывая связь морфологического анализа со словарем можно выделить следующие группы морфологического анализа: 1) морфологический анализ со словарем словоформ: каждой словоформе приписывается определенная информация (слово отыскивается, информация извлекается); 2) морфологический анализ со словарем основ (проблемы: анализ найденных в словаре форм, как отождествить разные словоформы одного и того же слова) сравнение словоформы на полное совпадение -> нет -> словоформа = основа + окончание. В задачу морфологического анализа входит разрешение синонимии и омонимии основ. 3) Морфологический анализ методом логического умножения (Варга). Каждой морфеме сопоставляется информация, полученная в результате объединения информации о словоформах, в которые входит данная морфема. Информация о словоформе получается, как пересечение или логическая конъюнкция (&) информации о морфемах, входящих в данную словоформу. Тем самым функция, определенная на множестве словоформ, заменяется на функцию, определенную на множестве морфем. Такой анализ производится при наличии словаря основ и применяется к флективным языкам. Каждой букве соответствует булевый вектор (есть 1, нет 0), перемножая эти векторы выходят на категорию. 4) независимый морфологический анализ без словаря словоформ. Максимальное использование информации о флексиях во флективных языках выделяются грамматические морфемы (флексии, предлоги, союзы, знаки препинания между словами - все элементы. передающие связи слов во фразе. Группа флексий, характеризующаяся одинаковым набором грамм отношений, которые они могут передавать, образует морфему. Флексии, входящие в одну морфему, называются алломорфами, т. е. морфемными синонимами. Задача алгоритма состоит в том, чтобы по взаимному расположению алломорфов отнести каждую флексию к ее морфеме. С этой целью строятся специальные словари: словари флексий, словари слов, не несущих грамматических информаций (наречий и т. п.). Способ имеет ограниченное применение.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 |


