Директор института иностранных языков РГПУ им. Герцена

Будущее индустрии перевода. Прогнозы на ближайшие 20 лет

1.

Индустрия перевода – в широком смысле, language service providers.

2.

Сборник 1998 года, ровно 20 лет назад. Текстовый редактор («революция в переводе»). Преимущества текстового редактора (в том числе не нужно перекидывать каретку пишущей машинки). Могли ли мы, находясь в 1998, предсказать состояние ИП сегодня? Спектр услуг поставщиков языковых услуг, МТ, управление проектами? Уже существовали модели статистического перевода IBM.

Когда Томас Андерсон в 1900 году рисовал картину города будущего, он писал, в том числе, о дирижаблях и пневматической почте. На тот момент это были новые, актуальные технологии. 

Я использую другой метод futurecraft, предложенный Карло Ратти и Мэтью Клоделем (авторы книги «Город завтрашнего дня»; разные сценарии будущего на основе запроса «Что если?»).

3.

Прогнозы (социология, характеристика). Поставщики языковых услуг,

переводчики, производители TenTs (translation environments), производители и разработчики машинного перевода, профессиональные объединения, производители "умных гаджетов", профессиональные футурологи.

4-8.

1998 – скромные размышления о значении технологий для перевода, не было термина «индустрия перевода». 2003 – значение технологизации для перевода, новые компетенции, первые протесты «против машин» (переводческая память убивает профессию переводчика). 2010 – будущее интеграции технологий, значение машинного перевода, коллаборативная работа. 2015 – конец индустрии перевода, машинный перевод и будущее человеческого перевода, осмысление индустрии перевода как целого. 2018 — дезинтермедиация (экономические и технологические аспекты), уберизация, централизация ресурсов. Новая волна «луддизма».

НЕ нашли? Не то? Что вы ищете?

9.

Тематика прогнозов сегодня в основном связана с развитием МТ, машинным обучением, моделью распределенной экономики, местом человеческого перевода (в диапазоне от умеренного пессимизма до истерии, от восторженного предвкушения до апокалиптических предсказаний).

Почему прогнозы в массовом порядке стали появляться с 2015 года? Индустрия перевода ощущает угрозу (которую называет возможностями) и не может адекватно реагировать на изменяющийся технологический контекст, датификацию, уберизацию, IA. Или не может не реагировать не изменяясь, не «мутируя» в такой степени, которая делает эту индустрию чем-то другим, то есть без потери идентичности.

10-14.

Общее между разными прогнозами. Во всех прогнозах «от индустрии» имплицитно презюмируется ряд констант.

ИНДУСТРИЯ ПЕРЕВОДА

В разных прогнозах прослеживается устойчивое представление о том, что существует (и будет существовать) «индустрия перевода» или «индустрия языковых услуг» как нечто целостное, объединенное общими целями и задачами, в каком-то смысле равное самому себе. Независимо от того, каким представляется ландшафт межъязыковой коммуникации (технологические, экономические, маркетинговые аспекты), сохраняется представление об относительной целостности этой индустрии. Отчасти это представление обусловлено некоторыми базовыми реалиями, которые точно не исчезнут через 20 лет: все еще будут существовать разные языки и все еще сохранится потребность в межъязыковой коммуникации, а значит нужны будут и посредники в этой коммуникации. 

ТЕХНОЛОГИЯ - ЧАСТЬ ИНДУСТРИИ (НАОБОРОТ, ИНДУСТРИЯ = ЧАСТЬ ТЕХНОЛОГИЙ)

Второе представление или концепт – технологии являются частью индустрии перевода. Индустрия перевода создала собственные технологии, развивает и контролирует их (или развивается «параллельно» с ними). В действительности ситуация прямо обратная: индустрия перевода, именно как индустрия, была создана технологиями. Технологии породили новые задачи, привели к созданию новых типов контента, создали новые виды работы. Технологии, в конечном итоге, приведут к коллапсу индустрии перевода в том виде, в котором она существует сейчас. 

БОЛЬШЕ КОНТЕНТА = БОЛЬШЕ ПЕРЕВОДА

Еще один общий концепт, регулярно транслируемый и многократно воспроизводимый, состоит в том, что увеличение контента ведет к увеличению объемов перевода, а, значит, и к росту индустрии перевода. В разных постах приводятся данные о том, сколько контента производится ежедневно и сколько переводится (десятитысячные доли процента). Возможно это часть маркетингового дискурса, признанного убедить потребителя и инвестора. Однако между ростом контента и ростом потребности в переводе нет прямой зависимости. Косвенно рост контента снижает потребность в переводе. 

КАЧЕСТВО ПЕРЕВОДА

Следующая презюмируемая позиция – качество перевода, которое осмысляется как некая подвижная, но все же константа. Разумеется, существует диверсифицированный подход к качеству (разное качество для разных целей), однако сохраняется представление об определенном уровне качества, абсолютным мерилом которого является профессиональный человеческий перевод. Отсюда следует еще один симптоматический тезис: машинный перевод когда-нибудь достигнет уровня человеческого перевода (предсказание Рейнольда Курцвейля о том, что машинный перевод уровня человеческого перевода в 2029 году). Показательна сама постановка вопроса.  Когда речь идет о сохранении сегмента человеческого перевода, основной аргумент состоит в том, что машина «не понимает» смыслы, поэтому человека «никто не заменит». Вопрос в другом. Должны ли машины достичь уровня человеческого перевода, чтобы заменить человека? При каких условиях это может произойти?

ПЕРЕВОД

Последний концепт, о котором я должен сказать, — перевод как некая константа, базовый компонент межъязыковой коммуникации и как ядро «индустрии перевода».  Перевод, разумеется, сохраниться как вид профессиональной деятельности. Он существует не одно тысячелетие. Однако проблематичным является представление о том, что перевод останется ключевым компонентом индустрии языковых услуг. Есть мнение, что собственно перевод как профессиональный вид деятельности маргинализируется, останется актуальным для небольшой части премиального рынка языка (ведомственные потребности, художественный перевод и т. д.). 

15. Что не учитывается в прогнозах


    Big Data (рассматривается как часть парадигмы технологий) потенциал искусственного интеллекта (AI) изменение способов и структуры производства и потребления контента потребителя)

16.

КОНВЕРГЕНЦИЯ – ДИВЕРГЕНЦИЯ

На слайде вы видите перечень услуг компании TRANSPERFECT на 1998 и 2018 годы. Индустрия перевода развивалась в направлении конвергенции, расширяя спектр услуг и постепенно смыкаясь со смежными сегментами рынка, пытаясь сохранить идентичность. При этом она не могла не трансформироваться. Перевод (как процесс и результат) уже перестал быть единственным (а может даже основным) продуктом или услугой индустрии перевода. При этом не могла не возникнуть конкуренция или даже конфликт со смежными сегментами рынка. Пример – попытка совместить поисковую оптимизацию и перевод.

17.

Пример – поисковая оптимизации (SEO, search engine optimization)

Массовые попытки интегрировать SEO в процесс перевода/локализации начались в середине 2000-х. Фактически SEO в этом контексте означает необходимость «перевода» контента с учетом критериев ранжирования страниц поисковыми системами и поискового поведения пользователей. Перевод и локализация, с одной стороны, и поисковая локализация с другой, представляют собой в значительной степени противоречащие друг другу виды деятельности. Управление ключевыми словами в переводных текстах не может осуществляться в рамках процедуры собственно перевода as «keywords do not translate so content which has been worked on for SEO purposes will lose the SEO benefit the moment they are translated» (Atkins-Krьger 2012).  «Интервенция» поставщиков языковых услуг в область поисковой оптимизации породила беспокойство в сегменте индустрии собственно поисковой оптимизации (объем денежного оборота в этой индустрии больше на треть, чем в индустрии перевода). 

18.

Аналогичные «взаимодействия» характерны и для других сегментов рынка, в которых осуществляется межъязыковая коммуникация (в разных формах и объеме). На слайде представлен перечень терминов, которые используются в смежных областях, в которых аспекты и технологии межъязыковой коммуникации разрабатываются независимо от индустрии перевода. Как будет реагировать индустрия перевода на рост смежных сегментов рынка?

19-20.

На слайде представлен условный график, который дает общее представление об индустрии перевода в контексте развития этих сегментов. Идентичность LSPs сегодня определяется относительным балансом между востребованностью перевода как профессионального вида деятельности, адекватностью технологии рынку коммуникации, объему и задачам коммуникации в разных смежных областях. Адекватным ответом на новые реалии не так давно стало постредактирование. Большая часть прогнозов (включая TAUS) настаивает на значении человеческого перевода в будущем (что весьма сомнительно в масштабах индустрии).

21.

Что если этот тренд (многфункциональность) останется неизменным? Как этот тренд может измениться? 

Ответ 1. Конвергенция. Ничего принципиально не изменится. Рост объема переводов, межъязыковая коммуникация всегда будет нужна. Новые технологические решения позволят переводить больше, быстрее и качественнее. Сохранится высококачественный человеческий перевод (long reads, brand stories). 

Такие прогнозы = из пункта А в пункт Б. Пример с ТВ каналами.

22.

Ответ 2. Индустрия перевода «развалится», «распадется» на отдельные сегменты или сольется с другими сегментами рынка. Платформизация, дизентермедиация, уберизация приведут к «феодализму платформ» Основным активом поставщиков услуг будут платформы (технологические решения) и базы данных. Поставщики (услуги менеджмента, сопровождения) сохранятся только в отдельных сегментах рынка (вертикальный подход – медицина, юриспруденция; горизонтальный подход – текстовые жанры.) Предсказание о самоорганизующихся сетях фрилансеров, которые придут на смену переводческим компаниям. Это нереалистичный сценарий в долгосрочной перспективе. Он не решает вопрос менеджмента и качества. В индустрии перевода представлены ПЛОХО КАТАЛОГИЗИРУЕМЫЕ УСЛУГИ, нет ОБЩИХ ПРАВИЛ ИСПОЛНЕНИЯ БИЗНЕС-ФУНКЦИИ, нет четких ПРАВИЛ ТАРИФИКАЦИИ. 

Оба сценария до определенной степени работают только в краткосрочной перспективе.

23.

Тем не менее, уберизация как тренд заслуживает внимание. Как это тренд может быть реализоваться на практике? Появились компании, которые позиционируют себя как «убер перевода». Поучительным, однако, является тот факт, что обанкротилась компания Fluently, которая предлагала удешевление услуги за счет передачи менеджмента потребителю.

24.

И в том, и в другом сценарии особое место уделяется МТ. Собственно, прогнозы чаще всего и начинаются с МТ. Ставятся разные вопросы. Когда машинный перевод достигнет уровня человеческого перевода? В каком объеме машинный перевод будет представлен на рынке? В каких сегментах рынка МТ заменит человеческий?

Стирание границ между ТМ и МТ, FAUT (Fully Automated Useful Translation). Есть области, в которые машинный перевода будет проникать наиболее активно. Постредактирование.  Все это в рамках существующих прогнозов, не меняет сущность индустрии перевода. Место человеческого перевода – креативное письмо в его разных вариациях. Что это – часть индустрии?

25.

Шутка – машинный перевод блога, призывающего переводчиков бунтовать против машинного перевода. Луддиты. Также протестовали переводчики против ТМ.

26.

Вопрос с машинным переводом намного сложнее. Он связан, в том числе, с презюмируемым ростом индустрии перевода. Структуру потребности в переводе можно описать в маркетинговых терминах “push –pull”. Push – прогнозируемая потребность («большие компании»). Именно исходя из этой потребности делаются прогнозы о росте объемов перевода. Pull – потребность в переводе рядовых пользователей (в том числе на носителей языков, которых не обслуживают поставщики). Эта потребность удовлетворяется в значительной степени «мгновенным» машинным переводом. Если верить постоянно транслируемым цифрам, то объем машинного перевода сейчас превышает объем человеческого перевода в 500 раз. Таким образом, объем перевода в индустрии увеличивается в абсолютных цифрах, но уменьшается в относительных.

27.

Более того, активно развивается мультимодальный машинный перевод, он является встраиваемой технологией. Есть мнение, что основное значение слова «перевод» будет «машинный перевод».

28.

Указанная тенденция влияет и на сегмент «нишевых языков» — языков развивающихся экономик. Усилия, которые требуются поставщикам для эффективного освоения этого сегмента, могут быть непропорциональны ожидаемому эффекту. Машинный перевод решает эту задачу быстрее, хотя и менее качественно. 

29.

Более отдаленное будущее индустрии перевода лежит вне этих сценариев. Что будет, если к ТМ объединить с Big Data. Это уже происходит. Memsource интерпретирует BD как ресурсы платформы, которые позволяют принимать разные решения (определить наиболее качественных или продуктивных переводчиков, потребность в разных языках и т. д.) Lionbridge использует Big Data для более эффективной оценки затрат на локализацию. Smartling использует Big Data в новых алгоритмах управления качеством. Сейчас используются 75 параметров, включая те, которые представлены на слайде. Планируется использовать больше 100 параметров. Но все это не «настоящие» Большие Данные. Фактически это метаданные о сегментах (то есть, когда начал использоваться контекстуальный подход к определению рейтинга совпадения сегмента мы уже использовали Большие Данные?)

Интеграция больших данных в платформы, ТМ, MT может осуществляться и иначе. Можно выделить два основных направления — интеграция больших данных («большого языка»), концентрируемых платформами (on-platform) и интеграция «внешних» больших данных (off-platform). В первом случае речь идет о расширении набора метаданных, включая поведение переводчика, редактора, менеджера, использование усовершенствованных метрик и учет этих метрик в производственных циклах. И т. д. Это уже происходит. Во втором случае, — о данных, которыми располагает заказчик. Прежде всего это поведение и отклик потребителя, поисковые запросы, распространение текстов в сети (в том числе в социальных сетях), транзакции и т. д. Все эти данные могут использоваться для совершенствования производственных циклов, определения приоритетов разных задач, могут включаться как часть данных для обучения движков и т. д.  (определение ресурсов, структуры проекта, распределение задач, real-time adjustments).

30. Определенное движение в этом направлении уже намечается. Ebay использует данные о поведении пользователей для оптимизации машинного перевода.

31. 

Развитие возможно в разных направлениях. Бизнес может делиться большими данными с поставщиками. Или даже поставщики начнут делиться данными между собой. Закрытые базы данных и отсутствие интероперабельности представляют собой, в том числе, способ удержать клиента.

Платформы начнут делиться базами потому, что активом станут не базы, а алгоритмы обработки этих баз. Возможно этот процесс уже начался, но мы об этом не знаем (не знаем условия, на которых платформы делятся базами). Масштабирование — процесс перехода баз от пользователя к платформам, от платформ в общий доступ.

32.

Real Big Data – интеграция сегодняшних технологий перевода с кросс-языковой аналитикой больших данных, анализом лингвистического поведения потребителей в целом, конечных потребителей машинного перевода, голосовыми и видеоданными, данными невербальной коммуникации, эмоционально-оценочной семантикой (например, поведение в сетях). Алгоритмы могут стать основным активом поставщиков языковых услуг.

33.

Однако пока мы еще мыслим традиционными категориями индустрии перевода («среда перевода» и менеджмент, возможность интеграции в эти среды больших данных).

34.

Языковые технологии являются частью более широкого контекста, который они не могут контролировать. Возможно, и даже весьма вероятно, появятся гибридные (человек + искусственный интеллект) среды обработки и производства многоязычного контента. И эти среды уже не будут называться «средами перевода» или «технологиями перевода». 

35.

В качестве примера такого прогноза – предсказание от концерна W3C на 5-10 лет. Слово «перевод» здесь употребляется по традиции.

36.

До сих пор мы говорили о потребителе перевода (потребителе контента) как о некоей постоянной величине. Отсюда и представление о качестве перевода как о константе и о человеческом переводе как об условном мериле качества.

Однако сегодня меняются способы производства и потребления контента, структура массовых коммуникаций, паттерны языкового и поискового поведения, становится подвижной языковая норма. Значительную роль в этом играет пользовательский контент и машинный перевод (pull). Mobile-first generation. Визуализация (включая форматирование), голосовой поиск, видеоконтент. Это касается не только маркетинга и рекламы. Меняется и характер технической коммуникации, которая начинает смыкаться с маркетинговыми способами коммуникации (information services).

37.

Чтобы оценить возможное влияние новых способов распространения и потребления контента на будущее языковой индустрии, нужно читать прогнозы в этих областях.

38.

Новые короткие циклы производства и потребления контента определяют его характеристики: своевременность, релевантность, предиктивность, персонализация, объем информационных блоков и т. д. В этом контексте переосмысляется традиционное представление о качестве (функциональность важнее качества, контекст важнее текста, маркетинговая функция все меньше зависит от качества сообщения). Наиболее адекватным ответом в рамках межъязыковой коммуникации становятся embedded technologies (машинный перевод как один из возможных ответов, искусственный интеллект, машинное обучение). Это касается и технической коммуникации, которая смыкается с маркетинговой.

Для того, чтобы понять, как могут выглядеть такие решения в будущем, нужно знать будущее рекламы, маркетинга, технической коммуникации, профессиональной коммуникации в разных сферах. Останется ли этот сегмент в рамках индустрии перевода? Или он будет встроен в бизнес-процессы?

39.

В этом контексте становится проблематичным будущее креативного письма, транскреации, традиционного технического письма, локализации. Будут ли нужны brand-stories, creative long-reads? Кто их уже сейчас читает? Конечно, остается огромный сегмент переводов, предназначенных для специалистов (техническая и медицинская документация, юридический перевод и т. д.). Но и здесь есть тенденции, которые могут радикально изменить ситуацию. 

40.

Сейчас снова вызывают интерес технологии создания многоязычного контента (технические тексты) на основе автоматических контролируемых языков. Разработки велись уже в 80-е годы. В самом элементарном варианте для этого достаточно N-граммной модели языки (такие модели используются в статистическом машинном переводе). Такие разработки не получили широкого применения, однако сейчас разрабатываются новые системы контролируемой автоматизации письма (CONTROLLED COMPUTER-ASSISTED WRITING).

41.

Вполне вероятно, что такие системы будут включать данные моделей подъязыков, анализ процесса письма и данные автоматической оценки качества. В таких системах теряет смысл понятие перевод, так как производство многоязычного контента контролируется как на «входе», так и на «выходе».

42.

Такие системы дополняются системами генерации естественного языка (natural language generation), которые встраиваются в новую концепцию data-to-text. Не нужно забывать, что и машинный перевод в конечном итоге также представляет собой систему генерации естественного языка на основе исходных текстов. Концепция data-to-text предполагает возможность генерации мультиязыкового контента с учетом разных сценариев (объем и структура данных на разных языках, тип текстов и т. д.)

43.

Уже сейчас активно используются системы автоматического реферирования (automated summarization) и создания описаний и продуктов (product reviews). Наконец появилось такое явление, как роботизированная журналистика (robot/automated journalism). В таком сценарии лингвист (специалист в области языка) будет писать умные шаблоны (intelligent templates), образцы, имеющие заданную структуру, контролировать на разных этапах системы генерации контента, обучать боты. Останется ли в этой индустрии место «аналоговым» копирайтерам и переводчикам?

44.

Интересно, что по этому поводу уже возникли тревожные настроения, как в свое время в связи с интенсивной экспансией машинного перевода. Это новый симптом в языковой индустрии.

45.

Весь объем межязыковой коммуникации, который пронизывает все сферы жизни, сегодня включает человеческий перевод, доработку машинного перевода, машинный перевод и развивающиеся области генерации многоязычного контента (гибридный контент «человек + искусственный интеллект» и автоматический созданный контент. Мы знаем, что доля человеческого перевода уменьшается (перевод по запросу, премиальный сегмент, ведомственные задачи), растет доля машинного перевода (pull) и постредактирования. Однако, учитывая, что все эти тексты включены в единый цикл производства, распространения и потребления контента, что увеличивается доля аудио - и видеоконтента, можно ожидать экспансии развивающихся сегментов. Это приведет к изменению границ «индустрии перевода», переосмыслению концепции качества, и маргинализирует перевод как самостоятельный вид деятельности. 

46.

Ландшафт будущей индустрии языковых услуг может выглядеть следующим образом.

В общем контекста датификации базис языковых технологий будут составлять интеллектуальные системы, обрабатывающие кросс-языковую информацию (в любых ее формах) практически в момент ее появления (то есть это будет непрерывный процесс) (near-instant AI-driven cross-lingual multimodal information processing). 

Возникнет сегмент индустрии, который будет заниматься управлением, производством и распространением многоязычного контента (AI-driven multilingual content management, production, distribution), и перевод или доработка перевода в этом сегменте не будет играть главную роль. В индустрии цифрового маркетинга и рекламы уже ощущается движение в сторону мгновенной генерации персонализированного многоязычного контента (instant user-centered multilingual content generation). 

Сегодняшние лингвисты и копирайтеры будут работать в гибридных (человек + искусственный интеллект) средах обработки и производства многоязычного контента (AI-human multilingual hybrid content processing environments).

Найдется ли в этом ландшафте место человеческому переводу?