Случай 6. N-1 – N* (ядро хранит <целое>)
В этом случае препозитивное существительное N-1 может обозначать признак <часть>: core memory стержневая память (т. е. память на магнитных стержнях).
Примечание 4: Какова в позициях терминоструктуры частотность самих семантических признаков – такое сверхтрудоемкое наблюдение могло бы составить отдельную тему исследований. Но к этому семантическому наблюдению все равно надо стремиться, ибо такие сведения могут быть принципиально важными как при автоматизации распознавания терминоэлементов в тексте, так и при автоматизации «понимания» текста вообще.
Трехпризнаковое описание каждого терминоэлемента позволяет наглядно сопоставить английскую и русскую терминоструктуры (см. гистограмму 2) и увидеть особенности расширения каждой.
Гистограмма 2 показывает, что русская терминоструктура имеет прогрессивное (В. Ингве) расширение, т. е. расширение вправо от ядра (nucleus), а английская регрессивное, т. е. влево от ядра. [Название «лево - и правоветвящиеся структуры» Н. Хомского мы здесь не используем.]
В русской постпозиции (right) выявлено 50,56% употреблений морфологических классов от всего количества их употреблений в экспериментальном массиве русских терминов, а препозитивные классы составили лишь 18,29% , т. е. почти в 3 раза меньше, чем в постпозиции. Прогрессивное расширение русской терминоструктуры (*система обработки данных, *устройство высокоскоростной отцифровки оптических изображений) привносит некую описательность термину, делает его похожим на предложение дефиниции. (Cр. *самолет с изменяющейся геометрией крыла, *больной с высоким хирургическим риском).
Английская же терминоструктура имеет явную тенденцию к регрессивному расширению – 47,51% (two-pass *compiler двухпроходной *транслятор, binary-coded decimal *representation двоично-закодированное десятичное *представление, statement-by-statement *debugging пооператорная *отладка), а не к прогрессивному расширению – 19,12% (*reading in data *считывание данных). В приведенных примерах иногда видно, что и в английских и в русских терминах-эквивалентах направление расширения терминоструктуры совпадают, но эти отдельные факты тенденцию не описывают. Вышеуказанные тенденции английской и русской терминоструктур подтверждаются обсчетом весьма доверительных массивов моделей – повторяем, было обработано 2000 английских и 2000 русских моделей неповторяющихся терминов.
Сколько морфологических категорий претендуют на ближайшие места перед и после ядра, т. е. плотность классов, – это показано в Таблице 3. Здесь следует отметить, что в английских препозициях от (-5) до (-1) морфологические категории активнее русских в несколько раз. По-видимому, это объясняется существующим аналитизмом английского языка, в т. ч. способностью английского существительного играть роль препозитивного атрибута.
Б) ВЫВОДЫ ПО ПЕРВОМУ ЭТАПУ НАБЛЮДЕНИЯ ЗА ТЕРМИНОСТРУКТУРОЙ
1) Разбиение термина на элементы с опорой на семантические признаки
Вычленяя в термине элементы, полезно заимствовать практику информационного поиска, а именно, присвоение ключевому слову статуса «дескриптора» или «недескриптора», т. е. синонима. Например, при многоязычном поиске документ, содержащий термин холлеритные данные, считается релевантным как документу, содержащему термин H-data, так и документу с Hollerith data. Это – синонимичные термины. Поэтому, на этапе ввода термина H-data в наш экспериментальный массив он подвергался предварительному «редактированию» и принимал форму H- #
. В результате, все три варианта термина (холлеритные *данные, Hollerith *data, H- #
) содержали 2 программно-опознаваемых элемента. Если такое редактирование применить в информационном поиске, т. е. на этапе индексирования документа и поискового запроса, то оно может способствовать достижению столь желанной монотонности и устойчивости индексирования.
Термино- структура | Общее количество морфологических классов, возникающих с любыми вероятностями в конкретных позициях терминоструктуры | ||||||||||||
-5 | -4 | -3 | -2 | -1 | * | 1 | 2 | 3 | 4 | 5 | 6 | 7 | |
Русская | – | 1 | 3 | 5 | 10 | 2 | 11 | 15 | 14 | 12 | 8 | 5 | – |
Английская | 4 | 4 | 9 | 10 | 9 | 4 | 6 | 12 | 7 | 6 | 6 | 3 | 10 |
Таблица 3. Морфологическая плотность в пре - и постпозициях
Но что делать, если в тексте это же самое понятие описано более расширенно – «данные на перфокартах, закодированные методом Германа Холлерита»? Это описание является частью дефиниции [21,с.205]. К тому же терминоэлемент Hollerith используется и самостоятельно: термин Hollerith сам выражает понятие «холлеритова система кодирования» [21,с 205], а также присутствует и в составном термине Hollerith strings холлеритовы цепочки [21,с.205]. В нашем случае длинные сочетания вида «данные на перфокартах, закодированные методом Германа Холлерита» объектами нашего исследования не считались и в исходный экспериментальный массив терминов не включались.
2) Об английском морфологическом классе «герундий». В сочетаниях вида data processing system
(N-2 – GER-1 – N*) , система обработки данных (C* – Cрод – Срод) ing-форма считалась нами активным герундием. Здесь триаду <деятель-действие-объект> можно развернуть в стандартное трехчленное предложение system PROCESSES data, где объект (data – прямое дополнение) прочно связан с действием. Прочность связи между объектом и действием сохраняется и в терминах, где реализуется усеченная формула <действие-объект>: data *processing (N-1 – GER*) обработка данных. Действие-герундий и его объект-существительное сохраняются и в термине
reading in data считывание данных..
3) Условный морфологический класс «идентификатор». В терминах вида *язык Ада,
LISP- #*language, ЛИСП- #*язык, команда compare^register, LIFO- #*list подчеркнутые элементы считались нами «идентификаторами». Введение этого условного морфологического класса терминоэлементов помогло нам внести определенную стабильность в процесс предмашинного редактирования терминов.
Можно сказать, что наши три морфолого-синтагматических признака обеспечивают достаточно полное описание поверхностной структуры компаунда. Но как бы много подробностей о поверхностной структуре компаунда такое описание ни сообщало, тем не менее, само содержание межэлементных связей в теле компаунда остается неизвестным. Поэтому, целью следующего этапа наших наблюдений над терминоструктурой было формализованное представление самой семантической организации компаунда.
ВТОРОЙ ЭТАП НАБЛЮДЕНИЯ НАД ТЕРМИНОСТРУКТУРОЙ
Линейность семантической организации термина
Разрабатывая свой подход к формализованному представлению семантики термина, мы рассуждаем следующим образом.
Если речь – письменная или устная – линейна, значит и линейна структура или организация составного термина. То есть, эту структуру можно мыслить в виде некоторой линейной последовательности позиций или ниш, где каждая позиция несет, нагружена, наделена некоторым глубинным значением, несет некую идею. Здесь возможна аналогия с линейно-организованной числовой последовательностью, где каждый разряд (т. е. место) нагружен вполне определенным значением (significance), «весом» (weight). При производстве числовой речи человек загружает каждый числовой разряд конкретным местным значением. Выбор такого локального значения определяется целью числовой речи человека. Здесь уместно отметить, что, по-видимому, впервые сравнение структуры, «формулы» словосочетания с организацией «сложных числовых образований» сделал [13,с.19].
Анализ семантики составных терминов позволил выделить в них присутствие следующих абстракций, которые мы назвали семантическими признаками. Они – следующие: активный субъект-деятель, фиктивный субъект-деятель, действие, объект, назначение-цель, конкретизация, инструментальность, локативность, сходство, устойчивость, партитивность, аблятивность (т. е. отсутствие признака), квантитативность, сделанный=из/материал, идентификатор, адресность/фамильность, язык, счисление.
Мы считаем, что эти признаки надлексичны, они выражают достаточно абстрактные идеи, чтобы считаться универсальными, т. е. они способны возникать в терминах любой предметной области. Но мы допускаем, что содержание некоторых из них не столь надлексично, чтобы причислить признак к разряду универсальных. В последующем мы обсудим проблемы слияния однородных признаков в более абстрактные, более глубинные категории.
Особенности распознавания семантического признака
Предлагаемые семантические признаки (иногда будем их называть просто «признаки») извлекались из неадаптированных текстов вручную, причем, признак распознавался путем анализа и ближайших окрестностей термина. Из текста извлекалась номинативная группа, затем каждый компонент группы анализировался на присутствие терминированности или нетерминированности. Анализ объема содержания опирался на наше понимание терминируемой производственной ситуации, при этом анализ иногда проходил как бы на срезе двух языков. Можно отметить, что выявлению семантического признака способствовало то, что в английском термине он иногда оформлен отчетливее, чем в русском термине. Широко распространенная английская препозиция способствует распознаванию содержания признака, русская же высокочастотная постпозиция придает термину описательность, т. е. расплывчатость. Хотя иногда термины обоих языков имеют препозицию: binary *control, двоичное *управление, octal *representation, восьмиричное представление, binary-coded decimal representation, двоично-закодированное десятичное *представление
О семантической триаде
Рассматривая компаунд как линейную цепочку семантических позиций, мы вправе задать себе следующие вопросы: когда и почему данный нетриадный признак появляется в той или иной позиции? Зависит ли его поведение от семантики ядра? Какова должна быть значимость (significance) признака, чтобы претендовать на место ближе к ядру? По-видимому, на ближайшее место к ядру должен претендовать признак, обладающий наибольшей информативностью, т. е. несущий самую существенную информацию об оттенках терминируемого понятия. Подсчитывая значимость признака, следует учитывать и то, что ядерная позиция может быть занята субъектом фиктивным, т. е. малоинформативным.
Подобно многоразрядному числу, линейная структура компаунда может содержать несколько семантических признаков. Линейность подсказывает вполне оправданный вопрос: должен существовать некий остов, некая опора, слева и справа от которой должны лежать уточняющие признаки. То есть, должна существовать некая прочная конструкция, обусловленная целью научно-технической речи. Эту конструкцию можно сравнить с «формулой» , реализуемой в терминологическом сочетании [14,с. 37].
В попытках «взвесить» роль каждого семантического признака, в стремлении найти некий стержень или опору, вокруг которого признаки расположены в линейной терминоструктуре, нам следует обратиться к той материальной действительности, которую терминологический язык отражает, выражает с помощью своих лингвистических значений.
Итак, каков же материальный мир английского и русского подъязыков вычислительной техники?
1) В этом мире можно отметить следующую особенность – всегда существует широкий класс материальных предметов (компьютер, оборудование, аппаратное обеспечение; программа, программное обеспечение, алгоритм и т. д.), которые выполняют широкий класс действий/процессов (read in, read out, convert, debug, compile, считывать, выводить, преобразовывать, отлаживать, собирать и т. д.) над широким классом других предметов (данные, числа, цифры, файлы, информация, знаки, изображения, образы и т. д.). В данной области знания можно выделить класс сущностей (класс деятелей), которые выполняют вполне перечисляемый набор действий над вполне конкретными сущностями – объектами. Такая схема, по-видимому, присутствует и в большинстве других предметных областей.
2) В своей научно-технической речи человек, по-видимому, стремится как можно быстрее заявить главное, существенное, но при этом стремится свой терминологический знак сделать максимально коротким. Реализуется принцип – максимум информации в минимум времени. Что такое «самое главное»? Это – ответы на вопросы: Кто делает? Что делает? Над чем совершается действие?
В качестве некоего рабочего приема для формализованного представления смысла компаунда нами принято решение – тройку признаков (деятель, действие и объект действия) считать стержнем линейно-организованной семантической структуры компаунда. Слева и справа от каждого опорного признака могут возникать и все остальные уточняющие семантические признаки.
Деятеля (субъекта), его действие и объект этого действия – каждого такого участника терминируемой ситуации назовем актантом, а всю группу – семантической триадой или триадой [4,с.99]. Объект мы иногда будем называть «страдальцем».
Нами принимается, что актантные признаки и их уточняющие признаки обладают одним уровнем абстракции, т. е. все они однородны, гомогенны.
Способы реализации триады в компаундах
Триада реализуется полностью или частично, словесно, морфемно или смешанным способом.
Полная реализация триады.
Триада реализуется полностью в терминах:
а) вида data-processing system, система обработки данных, information extraction technique, способ извлечения информации. Здесь триада выражена словесно, аналитически, под каждый признак выделено отдельное слово;
б) вида data processor, процессор/обработчик данных, program debugger, отладчик программ. Здесь два актанта – <действие> и <субъект> – выражены морфемно, синтетически.
в) вида газораспределитель, кораблестроитель, нефтеанализатор. Здесь вся триада выражена морфемно.
Термины с полной реализацией триады назовем триадными.
Словесное представление признаков, при необходимости, можно свернуть в морфемное и наоборот:
image digitization software <=> image digitizer;
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 |


