Обнаружение локальных пространственных структур для распознавания изображений
Подход выделения признаков, широко применяющийся при решении прикладных задач компьютерного зрения, в настоящее время включает в себя использование алгоритмов обучения признакам без учителя, таким как ограниченная машина Больцмана и разреженный автоэнкодер, что позволяет извлекать признаки автоматически из доменно-специфичной общей выборки. Обучение без учителя особенно эффективно в сочетании с моделями глубокого обучения, такими как сверточные нейронные сети и глубокие сети доверия (DBN). Однако при обработке высокоуровневых и структурированных данных, подверженных инвариантным трансформациям (что особенно актуально для компьютерного зрения в 3D и в движении), построение словаря признаков для отдельно взятого элемента выборки может быть проблематичным. Предложен альтернативный подход, включающий в себя обнаружение некоторых пространственных структур в изображениях, характерных для конкретной выборки. Подобные способы имеют историю применения в задачах распознавания для отдельных, узкоспецифичных доменов (таких как обнаружение взаимоотношений между признаками черт лица). Рассмотренный алгоритм предлагает общий подход к проблеме, эксплуатируя некоторые свойства ориентационных клеток первичной зрительной коры головного мозга, с их помощью обнаруживая обобщенные свойства изображений и агрегируя их для получения информативных статистических параметров, которые в дальнейшем могут использоваться непосредственно для распознавания и классификации.