ТОЧНОЕ РЕКОНСТРУИРОВАНИЕ 3D МОДЕЛИ ЧЕЛОВЕЧЕСКОГО ЛИЦА С ИСПОЛЬЗОВАНИЕМ СТРУКТУРИРОВАННОГО СВЕТА

В. К. Де Ванса Викрамаратне1, 2, 3

1Московский государственный Институт Радиотехники, Электроники и Автоматики, Проспект Вернадского, 78, 119454 Москва Российская Федерация.

e-mail: *****@***com

2Вычислительный центр имени Российской академии наук, ул. Вавилова, д. 40, 119333 Москва, Российская Федерация, e-mail: *****@***ru

3 Вычислительный центр имени Российской академии наук, ул. Вавилова, д. 40, 119333 Москва, Российская Федерация, e-mail: *****@***ru

Разработана автоматизированная система реконструирования текстурированх 3D моделей человеческих лиц. 3D информация считывается с помощью структурированной подсветки, используемой в откалиброванной системе проектор-камера. Точность 3D реконструкции исследовалась экспериментально.

Введение

Исследования технологий распознавания лиц [1] указывают на то, что дальнейшее улучшение качества распознавания может быть достигнуто посредством одновременного использования как 2D (фото), так и 3D (форма) информации о лице.

Нами разработана автоматизированная система для реконструирования текстурированных 3D моделей человеческих лиц. Из соображений практичности, для считывания 3D информации, был выбран подход с использованием структурированной подсветки, позволяющий обходиться легкодоступным аппаратным обеспечением (проектор и фотоаппарат) и обеспечивающий более контролируемые условия, чем пассивные методы сканирования, такие как стерео.

НЕ нашли? Не то? Что вы ищете?

Постановка задачи

Требуется реконструировать 3D модель по фотографии лица, подсвеченного структурированным светом от проектора. Фон предполагается темным. Текстура для 3D модели должна определяться по второй фотографии, снятой при равномерном освещении.

Подходы и методы

Подход со структурированной подсветкой предполагает использование метода оптической триангуляции, суть которого проиллюстрирована на (Рис. 1).

Рис. 1. Оптическая триангуляция

Проектор показывает прямую p, которая, проецируется 3D кривую, видимые точки которой (при фотографировании) проецируются в соответствующие пиксели камеры. Пусть точка r с координатами [x y z] (в глобальной системе координат) проецируется в пиксель c с локальными координатами [u v]. По известным c и p легко вычислить r. Задача сводится к пересечению луча l (множество точек, проецируемых фотоаппаратом в c) и плоскости, проходящей через фокусную точку проектора и p. Уравнения луча и плоскости определяются параметрами, полученными в результате калибровки.

По завершению калибровки (используется метод, описанный в [2]) производится 3D сканирование, путем фотографирования лица, подсвеченного шаблоном, состоящим из 125 цветных полос равной ширины, как в [3] (рис. 2). В работе [4] показано, что шаблон Де Брюйна дает наилучшие результаты, в ситуации, когда можно проецировать только один шаблон.

Рис. 2. Шаблон Де Брюйна (некоторые цвета могут быть трудноразличимы при печати)

Вертикальные границы цветных полос принимаются за проецируемые тонкие линии. Цвета подобраны так, чтобы любая подпоследовательность из 3-х переходов являлась уникальной, что используется при определении границы, которой принадлежит пиксель на фотографии (рис. 3).

Рис. 3. Лицо, подсвеченное шаблоном Де Брюйна. Фоном является темная ткань.

Алгоритм реконструкции сначала, посредством фильтра Гаусса, удаляет мелкие детали. Затем, используя свертки с масками, определяются «мягкие границы» (приблизительные положения границ полос), из которых, извлекаются «жесткие границы» (точные положения границ полос), см. рис 4.

Рис. 4. Найденные «жесткие границы». Фрагмент (правый глаз)

Вторая фотография используется для сегментации и нормализации цветов. Для определения соответствия между найденными границами и переходами на проекторе используется модификация многопроходного алгоритма динамического программирования, описанного в [3]. Полученные маркированные границы уточняются и сглаживаются с удалением разрывов. Оптическая триангуляция дает облако точек, по которому строится поверхность лица.

Результаты реконструкции лиц

Текстурированная 3D модель лица, полученная из фотографии (рис. 3) показана на рис. 5, 6. Общее время вычислений составляет около 10 секунд на одноядерном Pentium IV 3 GHz. (Исходный код пока не оптимизирован по скорости). Типичная 3D модель содержит около 30’000 точек.

Рис. 5. Слева – фотография с белой подсветкой. Справа – реконструированная 3D модель.

Рис. 6. Детали реконструированной 3D модели

Оценка точности реконструкции. Результаты экспериментов

Мы начали отдельно исследовать точность аппаратуры и точность реализованных алгоритмов, в надежде на то, что это даст лучшее понимание источников ошибок и подскажет как сбалансировать параметры программного и аппаратного обеспечения.

Для исключения ошибок, внесенных аппаратурой, эксперименты проводились в имитационной среде, использующей трассировку лучей для получения синтетических фотографий. Тестовая плоскость располагалась в обзоре камеры и проектора как на рис. 7. Из синтетических фотографий реконструировалось облако 3D точек, через которое, методом наименьших квадратов, проводилась плоскость. Ошибка реконструкции вычислялась в каждой точке облака, как показано на рис 7.

Рис. 7. Вид сверху. Тестовая плоскость повернута в горизонтальной плоскости на угол β. Ошибка реконструкции e возникает когда граница между полосами определяется неверно (α≠0). Расстояние между реконструированной точкой и плоскостью следует делить на cos), чтобы получить e.

Данный эксперимент проводился для углов поворота плоскости β в диапазоне от -50 до +50 градусов. Средняя ошибка реконструкции вычислялась для каждой линии точек отдельно. На рис. 8 изображены результаты экспериментов, из которых видно, что есть факторы, кроме угла β, влияющие на ошибку реконструкции. Для каждой 3D точки была измерена видимая ширина полосы, которая использовалась как оценка величины, пропорциональной ширине перехода в данной точке. График зависимости отношения ошибки к ширине полосы от угла поворота см. рис. 10.

Рис. 8. Средняя ошибка реконструкции (см) для всех линий общих для всех плоскостей (38…64) и для части линий (57…64)

Рис. 9. Средняя ширина полосы (пиксели) от угла поворота. Данные для всех полос (38…64)

Рис. 10. Средняя ошибка реконструкции (см) / ширина полосы от угла поворота

Нижняя оценка точности аппаратуры может быть получена по результатам калибровки камеры (и проектора). Калибровочные матрицы проецируют реконструированные калибровочные плоскости назад на фотографию со средней ошибкой в 1 пиксель, что соответствует ошибке в 0.03 см на 3D модели (вдоль фронтальной плоскости).

Обсуждение

Результаты экспериментов указывают на то, что система возможно уже достигла субмиллиметровой точности реконструкции, однако требуется подтверждение со стороны прямых измерений. Для исследования и объяснения поведения ошибки реконструкции требуются дополнительные эксперименты. Учитывались только 2 фактора: угол β и ширина перехода между полосами. Это шаг в сторону создания системы, с возможностью определения погрешности ошибки реконструкции в каждой точке.

ISO/IEC 19794-5 – стандарт по обмену биометрических данных о лиц – определяет характерные точки, многие из которых могут быть однозначно локализованы на полученных нами 3D моделях. Это может служить критерием того, что качество полученных 3D моделей вполне пригодно для целей распознавания. Система позволяет генерировать реалистичные 2D проекции под любым углом, что может быть использовано в распознавании лиц по 2D данным. Области применения нашей системы включают: системы контроля доступа, паспортной контроль в аэропортах, киноиндустрия, антропологические исследования и т. п.

Заключение

Создана автоматизированная система реконструкции фотореалистичных 3D моделей человеческих лиц. Проведены исследования точности реконструкции, но требуются дополнительные эксперименты. Качество полученных моделей приемлемо для целей распознавания. Система имеет широкий спектр областей применения.

Литература

1.  P. J. Phillips, W. T. Scruggs, A. J. O'Toole, P. J. Flynn, K. W. Bowyer, C. L. Schott, M. Sharpe, FRVT 2006 and ICE 2006 Large-Scale Results, National Institute of Standards and Technology, NISTIR 7408, http://face. nist. gov, 2007

2.  Zhang, Z. “A flexible new technique for camera calibration”. Pattern Analysis and Machine Intelligence, IEEE Transactions on Volume 22, Issue 11, Nov 2000 Pages: 1330 - 1334.

3.  L. Zhang, B. Curless, and S. M. Seitz, “Rapid shape acquisition using color structured light and multi-pass dynamic programming,». The 1st IEEE International Symposium on 3D Data Processing, Visualization, and Transmission, pp. 24–36, June2002.

4.  J. Salvi, J. Pags, J. Batlle. “Pattern Codification Strategies in Structured Light Systems”, Pattern Recognition 37(4), pages 827 - 849, April 2004.

5.  D. Caspi, N. Kiryati, J. Shamir “Range imaging with adaptive color structured light,” IEEE Transactions on Pattern Analysis and Machine Intelligence archive, Volume 20, Issue 5, May 1998, pages: 470 – 480.