Компьютерные и сетевые технологии в индивидуальной работе филолога
Компьютер в индивидуальной работе филолога
Начало компьютерной эры - середина 50-х годов XX века. Первая американская корпорация, которая под руководством Томаса Дж. Уотсона начала производство электронно-вычислительных машин, - International Business Machines (IBM). В 1970 году инженер американской фирмы INTEL изобрел микропроцессор. Благодаря этому суперизобретению, постепенно огромные электронные вычислительные машины превратились в компактные и дешевые персональные компьютеры (ПК), предназначенные для решения насущных практических задач, выполнение которых не требует огромного объема памяти.
Виды деятельности
1. Создание текста, предназначенного как для компьютерной вёрстки: набор текста и его техническое и литературное редактирование. Для выполнения этих задач журналист может использовать любой текстовый редактор. Один из наиболее удобных текстовых редакторов - Word. Текстовый редактор позволяет, не перепечатывая текст, очень быстро вносить в него изменения: менять местами части текста, заменять одни слова другими, исправлять ошибки и опечатки, дополнять либо сокращать текст и так далее. Все эти технологические нововведения значительно повысили оперативность подготовки текста для публикации.
2. Обработка и сортировка информации. Большие возможности в этой области привели к возникновению новой журналистской специализации – исследовательской интернет-журналистики, основанной на работе с релятивными, то есть «живыми» базами данных.
3. Макетирование, верстка и дизайн печатных изданий – работа, в которой появление компьютера произвело настоящую технологическую революцию.
4. Организация сетевого периодического издания.
Компьютер способен выполнять три функции: воспринимать информацию, обрабатывать ее в соответствии с программой и выдавать результаты. Для этого компьютер обладает памятью различных видов: оперативной, постоянной и полупостоянной. Для работы филолога значение имеет достаточный объем оперативной памяти. Кроме внутренней памяти, компьютер может иметь внешнюю память – магнитные диски (дискеты) и накопители CD-ROM. Связь компьютера с интернетом осуществляется двояко: либо через выделенную линию, либо через модем (устройство, подключающее компьютер к интернету через телефонную линию). Важнейшими характеристиками персональных компьютеров являются объем памяти и производительность или скорость работы.
Один из навыков компьютерной культуры - дать правильное имя файлу. Так же, как и заголовок текста, имя файла концентрирует в себе смысловую суть.
Основные операции, из которых складывается работа с текстом на компьютере в программе текстового редактора – это:
- Набор текста;
- Сохранение текста;
- Редактирование текста, то есть его исправление;
- Форматирование или оформление текста: выбор вида и размера шрифта для различных частей текста, определение параметров страницы, формата абзаца и т. д.;
- Печать текста.
Правила подготовки текста к компьютерной верстке
- Текстовые редакторы Microsoft Word и WinWord предлагают по умолчанию очень разумный стиль, который практически полностью подходит для дальнейшей компьютерной верстки. Поэтому данный стиль настоятельно рекомендуется для набора материалов перед компьютерной версткой: стиль - «Основной текст», шрифт – «Times New Roman» без выделений и подчеркиваний. Размер полей, кегля и интерлиньяжа в данном случае значения не имеет. Главное требование – сохранение их неизменными на протяжении всего текста.
- Выравнивание (или выключка) строк – по левому краю, включая заголовок и подпись, а также другие элементы заголовочного комплекса.
- Табуляцию (отступ красной строки) выставлять запрещается. Это связано с тем, что в стиле основного текста в газете имеется своя табуляция, которая прибавится к текстовой, а исправлять это придется вручную.
- На заголовки, подзаголовки и другие элементы заголовочного комплекса эти правила тоже распространяются, так как стиль заголовочного комплекса в макете также прописан отдельно и не совпадает с текстовым.
- Набор осуществляется без переносов (как и выставлено по умолчанию). Принудительная расстановка переносов строжайше запрещена в связи с тем, что длина строки в тексте не совпадает с длиной строки в колонке макета, поэтому перенос может оказаться в любом месте строки, а исправление этой ошибки тоже возможно только вручную.
- Особое внимание надо обратить на слитное, без переносов и пробелов, написание сокращений и аббревиатур; больших чисел; сокращенных выражений типа и т. д.; инициалов с фамилиями; скобок или кавычек с первой и последней буквой слов, размещающихся внутри них; знаков препинания, за исключением тире, с последней буквой предыдущего слова (тире отделяется пробелами по обеим сторонам, а дефис – нет), знаков и обозначений от последующих за ними цифр (например, №5).
- Весь массив текста, включая элементы заголовочного комплекса и подпись, должен быть набран основным, светлым, нормальным, прямым шрифтом, без выделений и без набора всего слова прописными буквами (клавиша Caps Lock). В случае важности и необходимости авторских выделений частей текста журналист должен представить их в печатной форме, а в электронной – без таковых.
- В тексте между словами не допускается более одного пробела. Лучший способ избежать лишних пробелов – научиться работать в режиме так называемых «Непечатных символов», к которым относятся табуляция, перенос и абзац.
- Необходимо проверить набранный, готовый текст с помощью приложения «Проверка орфографии». Это поможет выявить опечатки, однако ни орфография, ни пунктуация, ни тем более стилистика не могут быть полноценно и безошибочно проверены компьютером. Поэтому «Проверка орфографии» - лишь удобный помощник для грамотного специалиста, однако заменить корректора или литературного редактора не в состоянии даже самая совершенная компьютерная программа подобного рода.
Интернет в персональной работе филолога
Поиск в Интернете
Информационные ресурсы Интернет
Благодаря повсеместному развитию и применению информационных и компьютерных технологий в настоящее время в ту или иную электронную форму переведены огромные ресурсы информации всех областей человеческой деятельности: наука, производство, коммерция, литература, развлечения и т. д.
Программные средства, решающие проблемы поиска информации в Интернете должны быть максимально просты в обращении, осуществлять поиск во всех информационных ресурсах и обеспечивать релевантность, то есть соответствие найденной информации задаче поиска.
Классификация информационных ресурсов.
По способу представления информации источники можно разделить на следующие основные категории:
Web-страницы (являются сегодня основным и наиболее распространенным типом информационных ресурсов в Сети).
Gopher (поддерживает только текстовую форму представления информации).
Телеконференции (предназначены для обсуждения каких-либо вопросов или распространения информации). Все телеконференции разбиты по тематическому признаку на рубрики, иначе называемые группами новостей (news groups). Делятся на модерируемые (управляемые) и немодерируемые, размещение статей в которых производится автоматически по запросу любого пользователя Сети.
Языковой признак распределяет информацию в соответствии с языковым многообразием в сети.
Национально-территориальный признак характерен для коммерческой информации.
Содержащаяся на ресурсе информация может быть разделена по виду и характеру на следующие категории:
Тематическая информация.
Научные публикации.
Рекламная информация.
Справочная информация.
Новости.
Вторичная информация (систематизированная и предварительно обработанная информация: ресурсы, содержащие обзоры, подборки рефератов, каталоги и другую подобную информацию, а также специализированные тематические сайты).
Средства поиска информации
Каталоги являются справочниками, содержащими списки адресов Интернета, сгруппированные по определенным признакам. Как правило, они объединяются по тематике (наука, искусство, новости и т. д.), где каждая тема разветвляется на несколько подуровней.
Поисковые машины постоянно исследуют все узлы Интернета, доступные данной системе поиска, со всеми их связями и ответвлениями. При поступлении запроса от пользователя поисковик рассматривает всю индексированную информацию и выдает список документов, соответствующих задаче поиска.
Найденные документы ранжируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления в тексте.
Машины поиска различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам ранжирования и приоритетов, поэтому наиболее эффективным является применение разных поисковых машин.
Наиболее результативным становится способ включать в запрос часть предложения, содержащего главные слова, а не отдельные слова или выражения.
Корпусная лингвистика – это ещё одна новая область филологии, которая особенно активно начала развиваться благодаря ИКТ.
Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.
Национальный корпус создается лингвистами (специалистами по так называемой корпусной лингвистике, быстро развивающейся современной области языкознания) для научных исследований и обучения языку. Большинство крупных языков мира уже имеет свои национальные корпуса (различающиеся по полноте и уровню научной обработки текстов).
Национальный корпус имеет две важные особенности. Во-первых, он характеризуется представительностью, или сбалансированным составом текстов. Это означает, что корпус содержит по возможности все типы письменных и устных текстов, представленные в данном языке (художественные разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные и т. п.), и что все эти тексты входят в корпус по возможности пропорционально их доле в языке соответствующего периода.
Во-вторых, корпус содержит особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Разметка — главная характеристика корпуса; она отличает корпус от простых коллекций (или «библиотек») текстов, в изобилии представленных в современном интернете, в том числе и на русском языке.
Национальный корпус предназначен в первую очередь для обеспечения научных исследований лексики и грамматики языка, а также тонких, но непрерывных процессов языковых изменений, происходящих в языке на протяжении сравнительно небольших периодов — от одного до двух столетий. Другая задача корпуса — предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка). Современные компьютерные технологии многократно упрощают и ускоряют процедуры лингвистической обработки больших массивов текстов. Раньше исследователь мог лишь просматривать тексты и вручную выписывать из них нужные примеры; эта предварительная (но абсолютно неизбежная) деятельность была очень трудоемкой и не позволяла обрабатывать большие массивы материала. Теперь ограничений на объем анализируемого материала и скорость поиска информации в нем по существу нет, а это означает, что в распоряжении исследователя оказываются колоссальные массивы текстов самого разного типа.
Национальный корпус русского языка в настоящее время включает следующие подкорпуса:
- глубоко аннотированный корпус, в котором для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей); параллельный русско-английский корпус текстов, в котором можно найти все переводы для определенного русского или английского слова или словосочетания; корпус диалектных текстов, включающий запись диалектной речи различных регионов России с сохранением их грамматической специфики; предусмотрен специальный поиск с учётом диалектной морфологии; корпус поэтических текстов, в котором возможен поиск не только по лексическим и грамматическим, но и по специфическим для стиха признакам (поиск определённого сочетания в сонетах, в эпиграммах, в стихотворениях, написанных амфибрахием, с определённым типом рифмовки и т. п.); обучающий корпус русского языка — корпус со снятой омонимией, разметка которого ориентирована на школьную программу русского языка; корпус устной речи - включает расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов 1930-2000-х годов. Основной корпус — тексты, представляющие русский литературный язык, — можно подразделить на три главных массива, имеющих свои особенности: это современные письменные тексты (середина XX — начало XXI века), корпус живой русской речи (записи устных текстов того же периода) и ранние тексты (середина XVIII — середина XX века). По умолчанию поиск по этим трём массивам ведётся одновременно, выбрать один из них (и задать дополнительные параметры) можно на странице установки пользовательского подкорпуса.
Все тексты, входящие в основной корпус, проходят процедуру метаразметки и морфологической разметки. Морфологическая разметка осуществляется с помощью специальных программ автоматического морфологического анализа. В небольшой части основного корпуса (объемом 5 млн словоупотреблений; в дальнейшем эта цифра будет увеличена) произведено ручное снятие омонимии и дополнительная коррекция результатов работы программы автоматического морфологического анализа. Эта часть образует так называемый эталонный морфологический корпус, который может служить удобным полигоном для тестирования различных программ поиска, морфологического анализа и автоматической обработки текстов, а также для исследований современной русской морфологии, требующих повышенной точности поиска. Примеры из этого подкорпуса снабжаются в выдаче пометой [омонимия снята]. Тексты со снятой омонимией снабжены автоматической (при помощи Грамматического словаря русского языка) акцентуацией. (В версии для сохранения/печати ударения могут быть сняты).
Также полезными могут быть в работе филолога многочисленные базы данных, размещённые в электронном виде в Интернете. Просмотр сетевых баз данных обычно дает интересные результаты. Однако воспользоваться ими в полной мере можно только в том случае, если организовать эти сведения в таблицы. Электронные таблицы как раз и являются таким способом организации информации, при котором она распределяется по графам. В форме электронной таблицы база данных представляет собой собрание однотипных записей, то есть набор единиц информации, организованных особым образом с целью поиска в логически сгруппированном массиве. При формировании базы данных в виде электронной таблицы каждая ячейка являет собой поле. Одно или несколько полей, содержащих информацию об одном объекте или событии, составляют запись. Одно из полей записи обычно становится ключевым, так как содержит уникальную характеристику, отличающую эту запись от всех остальных. Именно ключевые поля связывают таблицы в реляционные базы данных. Таблицы в реляционной базе данных разделены между собой, но равноправны. Так, с помощью программы управления базой данных можно сравнить таблицы, связь между которыми ранее отсутствовала, и выявить в сопоставлении любопытные факты, интересные как темы для публикации.
Полезным и простейшим инструментом компьютерных технологий в филологии являются программы, работающие с электронными таблицами – Microsoft Exel и Microsoft Access. Microsoft Exel помогает составлять электронные таблицы, организуя информацию в строки и столбцы, при пересечении которых образуются ячейки–пространства, в которых хранятся самостоятельные единицы информации. Программа позволяет сортировать информацию, рассчитывать средние величины, а также строить диаграммы на основании данных из таблицы.
Для анализа больших наборов данных компьютерные технологии предоставляют в пользование филологам очень удобную программу для реляционных баз данных – систему управления базами данных (database manager). Если таблица – это набор записей, то реляционная база данных – набор таблиц. С помощью системы управления можно просматривать базы данных в поисках необходимой информации либо в поисках темы для публикации.
Необходимо учитывать, что в электронных базах данных могут содержаться ошибки, поэтому прежде, чем публиковать выбранные данные, над провести “проверку на чистоту” различными методами, в числе которых есть и компьтерный запрос “Integrity Check”.
Программа Access учитывает потребность журналиста в том, чтобы ввести в базу данных свои данные, добытые из разных источников и существующие в различных форматах. Используя функцию «Импорт данных» в комплексе с рядом дополнительных команд, филолог может свободно преобразовать свои данные в таблицу и ввести их при необходимости в реляционную базу данных.
Программа управления базами данных удобно организует повседневную работу филолога по накоплению и систематизации ежедневной информации, которую тоже можно сформировать в виде таблиц, преобразуя информацию в алфавито-цифровую или цифровую форму. Таким образом можно создавать функционально удобные записные книжки.
Конечно, принципы работы с таблицами были знакомы и до появления компьютеров, но возможность компьютерных систем оперировать огромными базами данных, сравнивая и сопоставляя их содержимое в самом неожиданном сочетании, открывает перед филологами очень интересное и еще не разработанное поле деятельности и дает новый инструмент в исследовании языка и литературы.
При написании научного исследования следует учитывать, что компьютерные технологии позволяют сегодня выявить случаи плагиата с помощью специальных компьютерных программ. Причём сверяются не только авторские тексты, но и цитаты, ссылки, списки литературы и т. д.
Вопросы и задания для повторения
Какие виды деятельности филолога существенно трансформировались благодаря информационным и компьютерным технологиям? Каковы основные правила подготовки текста к компьютерной вёрстке? Чем полезен корпус русского языка при его изучении? Как можно использовать релятивные базы данных в научном исследовании? Составьте список из 10-ти ссылок, полезных в работе филолога. Проверьте свой текст в программе антиплагиат и проанализируйте полученные результаты.

