77334

«Хороший» интерфейс на основе жестов для манипулирования 3D-объектами и метод автоматической калибровки оптических камер

Научная статья

Информатика, кибернетика и программирование

Интерфейс фонарика Поскольку любой манипулятор ограничивает набор возможных взаимодействий от него следует отказаться и осуществлять пользовательский ввод при помощи трёхмерных жестов. Данное устройство обладая шестью степенями свободы позволяет осуществлять ввод трёхмерных жестов являясь при этом простым в установке и использовании. В качестве дешёвого манипулятора для ввода трёхмерных жестов был выбран обыкновенный карманный фонарик.

Русский

2015-02-02

38 KB

0 чел.

«Хороший» интерфейс на основе жестов для манипулирования 3D-объектами и метод автоматической калибровки оптических камер

Александр Зырянов

Кафедра информатики и процессов управления, Уральский государственный университет, Екатеринбург, Россия

  1.  Введение

Условно интерфейсы для манипулирования трёхмерными объектами можно разделить на две категории: традиционные (командная строка, иконографический интерфейс) и естественные (основанные на жестах). Преимуществом первого подхода является легкость расширения (добавление новых команд или графических иконок не требует замены устройства ввода), к преимуществам второго относится меньшее время обучения и более широкая доступность (действия и эффекты действий интуитивно понятны благодаря возможности проецировать опыт взаимодействия с реальностью на виртуальную среду).

В исследовательских задачах суть взаимодействия состоит не в выполнении повседневных операций, а в изучении нового, ранее неизвестного объекта. Следовательно, необходимо создать такой интерфейс, в котором манипуляции с устройством ввода в точности соответствуют воздействию на виртуальный объект (к примеру, поворот манипулятора приводит к аналогичному повороту объекта). Вместе с тем, поскольку мы взаимодействуем с новым, ранее неизвестным объектом, разработчик интерфейса не может с уверенностью сказать, какие именно манипуляции потребуются конечному пользователю. Значит, необходимо создать такой интерфейс, который бы совмещал преимущества традиционных и естественных интерфейсов, т.е. позволял бы взаимодействовать с виртуальным объектом так же, как если бы перед нами был его реальный аналог, мог легко расширяться без замены устройства ввода и, по возможности, оставался простым и недорогим [1].

  1.  Интерфейс фонарика

Поскольку любой манипулятор ограничивает набор возможных взаимодействий, от него следует отказаться и осуществлять пользовательский ввод при помощи трёхмерных жестов.

Различных подходов к реализации захвата движений (Motion Capture) достаточно много, но, к сожалению, все они обладают определёнными недостатками. Оптические методы требуют закрепления специальных маркеров и определенного размещения нескольких камер (для безмаркерного варианта требуется плотно облегающая одежда и отсутствие прочих движущихся объектов в кадре). Инерциальные системы также требуют закреплять датчики и, кроме того, они не способны определять абсолютное положение в пространстве без поддержки оптических систем. Механические системы, помимо прочего, достаточно тяжелы, требуют периодической калибровки и имеют привязку к конкретному размеру. Электромагнитные и ультразвуковые методы являются аналогами оптических систем, но при этом они менее устойчивы к внешним помехам [2-8].

Поскольку для манипуляций виртуальными объектами необходимо захватить положение рук в пространстве, наилучшим решением является использование оптической технологии. Сложность использования, связанную с закреплением датчиков на теле человека, можно устранить, выделив все датчики в отдельное устройство, которое пользователь будет брать в руку.

Примером подобного решения является Wii Remote. Данное устройство, обладая шестью степенями свободы, позволяет осуществлять ввод трёхмерных жестов, являясь при этом простым в установке и использовании. Однако он обладает двумя существенными минусами: во-первых, самым дорогим элементом системы является именно манипулятор (что существенно, если мы хотим захватывать положение двух рук), а во-вторых, Wii Remote гораздо лучше определяет ориентацию, чем собственное положение [9]. Всё это было учтено при разработке собственного устройства ввода, получившего название “Интерфейс фонарика”.

В качестве дешёвого манипулятора для ввода трёхмерных жестов был выбран обыкновенный карманный фонарик. В качестве датчика света используется стандартная веб-камера, которая крепится к монитору. Фонарик, помимо низкой стоимости и лёгкости использования обладает одним немаловажным преимуществом: он является не точечным, а протяжённым источником света. Иными словами, камера видит фонарик не как точку, а как круг. Эта особенность позволяет нам вычислять расстояние до объекта на основе анализа изображения всего одной камеры. Поэтому, при установке системы не требуется производить калибровку, а сама камера может быть размещена совершенно произвольно.

Изображение, получаемое с веб-камеры, подвергается анализу: изменение положения светового пятна позволяет определить две координаты, на основе изменений размера светового пятна определяется третья, а путем анализа геометрической формы светового пятна вычисляются вектор направления фонарика. Проведённые исследования показали, что «интерфейс фонарика» является удобным для пользователей, эффективно работает при любых условиях внешней освещённости, и обладает достаточной точностью и скоростью для успешной игры в аркадные игры [10].

  1.  Распознавание жестов

Для создания богатого интерфейса недостаточно просто определить трёхмерно положение рук пользователя. Необходимо также уметь распознавать пользовательские жесты – траектории, по которым перемещаются фонарики. В качестве основы алгоритма распознавания жестов используется “$1 Gesture Recognizer Algorithm”, предложенный Jacob O. Wobbrock, Andrew D. Wilson, Yang Li. Данный алгоритм обладает отличной точностью: при использовании единственного шаблона для каждого жеста точность достигает 97%, при использовании трёх и более шаблонов точность превышает 99%. Другим важным преимуществом является низкая вычислительная сложность и линейная зависимость от количества базовых фигур [11]. Вместе с тем, данный алгоритм не умеет выделять жест в непрерывном пользовательском вводе, а также работать с трёхмерными траекториями.

Выполненная модификация позволила этому алгоритму работать в трёхмерном пространстве и осуществлять распознавание жестов в процессе их ввода (т.е. без необходимости как-то обозначать начало и конец жеста). Несмотря на то, что новый алгоритм оказался в несколько раз сложнее, внесённые изменения не повлияли ни на вычислительную сложность, ни на точность распознавания жестов. Проведённые исследования это подтверждают [12].

Т.к. мы хотим реализовать возможность оперирования виртуальными объектами точно так же, как если бы объект был реален, и поскольку в руках у пользователя находится фонарик, в «виртуальной руке» пользователя тоже должен находиться предмет, с помощью которого и осуществляется воздействие на виртуальную среду. Иными словами, все манипуляции с объектами должны выполняться не непосредственно, а при помощи виртуальных инструментов. Благодаря этому подходу пользователь, основываясь на опыте реальной жизни, знает, какой жест применить, чтобы воспользоваться определённым инструментом, и каких результатов от этого действия следует ожидать. Таким образом, пользователь может взаимодействовать с виртуальной средой без предварительного обучения, либо с минимальным обучением принципам функционирования системы. Также следует отметить, что подобные жесты связаны исключительно с предметами и потому не зависят от национальной культуры человека [13].

  1.  Метод автоматической калибровки камер

Интерфейс фонарика позволяет решить ещё одну серьёзную проблему: задачу калибровки камер в системах оптического Motion Capture. Классические подходы, использующие эталонные объекты или светящиеся точки требуют больших вычислительных ресурсов и могут давать ошибочный результат (в силу вычислительной неустойчивости задачи и наличия помех) [14,15].

Интерфейс фонарика, в отличие от традиционного Motion Capture нуждается во всего одной камере для определения трёхмерного положения маркера (т.е. фонарика). Если мы имеем откалиброванную и не откалиброванную камеры, которые обозревают перемещения одного и того же фонарика, то мы получим две пространственные траектории перемещения (по одной относительно каждой из камер). Совмещая эти траектории в пространстве, мы сможем вычислить положение и ориентацию одной камеры относительно другой, а также отношение их фокусных расстояний. Иными словами, мы произведём калибровку.

Поскольку каждая камера работает независимо, и в качестве калибрующих перемещений может выступать любая активность пользователя, процедуру калибровки можно выполнять в фоновом режиме. Т.е. при запуске системы активна одна камера (которой достаточно для начала работы), а затем, незаметно для пользователя, выполняется калибровка всех остальных камер. При этом процесс калибровки может выполняться даже в случае использования нескольких фонариков, т.е. на пользователя не накладывается абсолютно никаких ограничений.

Т.к. калибровка выполняется динамически, то мы можем позволить себе произвести перекалибровку камеры, если первоначальная калибровка оказалась недостаточно точной, либо если камера была перемещена пользователем в другое место. Перекалибровка выполняется автоматически, поскольку система постоянно проверяет каждую камеру на предмет возможных изменений.

Каждая камера функционирует независимо от остальных, следовательно, система может временно отключать те камеры, которые гарантированно не видят фонарики (включая их, когда фонарики приблизятся к их зоне видимости). Также данное свойство позволяет использовать несинхронность камер для увеличения частоты кадров, и чрезвычайно хорошо распараллеливать систему (в графе потоков данных отсутствуют циклы, а объём передаваемых данных минимален) [16].

Описанные выше свойства позволяют строить системы, состоящие из очень большого числа камер, не требующие при этом очень больших вычислительных ресурсов. Иными словами, данная система может успешно функционировать не только в масштабах персонального компьютера, но и в масштабах больших экранов. При этом интерфейс фонарика остаётся простым, недорогим и удобным решением, подходящим для взаимодействия с любыми 3D-объектами.

Список литературы

  1.  В.Л. Авербух, А.В. Зырянов. Методы манипуляций объектами в трёхмерных визуальных средах // Вопросы атомной науки и техники. Сер. Математическое моделирование физических процессов. 2009. Вып. 3. С. 58-69.
  2.  Motion capture (http://en.wikipedia.org/wiki/Motion_capture).
  3.  Maletsky Lorin, Junyi Sun, Morton Nicholas. Accuracy of an optical active-marker system to track the relative motion of rigid bodies // Journal of biomechanics 2007, vol. 40, no3, p. 682-685.
  4.  Ramesh Raskar, Hideaki Nii, Bert deDecker... Prakash: lighting aware motion capture using photosensing markers and multiplexed illuminators // SIGGRAPH papers, 2007, article No. 36.
  5.  Stanford Markerless Motion Capture Project (www.stanford.edu/~stefanoc/Markerless/Markerless.html).
  6.  Miller Nathan, Jenkins Odest Chadwicke, Kallmann Marcelo, Matarić Maja J. Motion Capture from Inertial Sensing for Untethered Humanoid Teleoperation // In Proceedings of the IEEE International Conference on Humanoid Robots 2004.
  7.  Motion Capture as a Means for Data Acquisition (http://vizproto.prism.asu.edu/datacapture/motioncapture1/).
  8.  Maureen Furniss. Motion Capture (http://web.mit.edu/comm-forum/papers/furniss.html).
  9.  Wii Remote (http://en.wikipedia.org/wiki/Wii_Remote).
  10.  Зырянов А. В., Авербух В. Л. Интерфейс на основе жестов для взаимодействия с виртуальными средами // X международный семинар по супервычислениям и математическому моделированию, г. Саров, 29 сентября - 3 октября 2008 г. Тезисы докладов. Стр. 73-74.
  11.  Jacob O. Wobbrock, Andrew D. Wilson, Yang Li. Gestures without Libraries, Toolkits or Training: A $1 Recognizer for User Interface Prototypes // Symposium on User Interface Software and Technology, 2007.
  12.  Зырянов А.В. Методы ввода и распознавания жестов для взаимодействия с виртуальными средами // Третья международная конференция "Информационно-математические технологии в экономике, технике и образовании" г. Екатеринбург, 20-22 ноября 2008 г. Тезисы докладов. Стр. 282-283.
  13.  Зырянов, А.В. Использование языка жестов для манипуляций с трёхмерными объектами в системах научной визуализации. Параллельные вычислительные технологии (ПаВТ'2009): Труды международной научной конференции. 30 марта - 3 апреля 2009 r., стр. 485-489.
  14.  Gutemberg B. Optical Motion Capture: Theory and Implementation (http://ranger.uta.edu/~guerra/Guerra-FilhoRITA05optical.pdf)
  15.  Tomas Svoboda. A Software for Complete Calibration of MultiCamera Systems. // Talk given at MIT CSAIL. Jan 25, 2005
  16.  Зырянов А.В. Самокалибрующаяся масштабируемая система ввода трёхмерных жестов // Информационные технологии моделирования и управления, №1, 2010 г. стр. 42-49.


 

А также другие работы, которые могут Вас заинтересовать

32112. LADJECTIF ET SES SYNONYMES GRAMMATICAUX 11.47 KB
  L'djectif fit l fonction de differents termes: epithetecompl determintif dhernt directement u nom ttribut determinnt predictif detchee. L vleur expressive de l'djectif dns toutes ces fonctions depend en grnde mesure de s plce dns l phrse. L'djectif designe ses trits prticuliers ses qulités et ses defuts.
32113. La syntaxe expressive 13.61 KB
  Y. Skrebnev considere comme neutre une proposition а deux termes, а lordre des mots direct et qui ne contient pas de transposition, cest а dire quil ny a pas dasymetrie forme/fonction (ils communiquent а la proposition des caracteristiques specifiques dordre fonctionnel, emotionnel, expressif)
32114. Les figures de construction 12.9 KB
  Les constructions parallиles, ce sont deux ou plusieurs phrases ou expressions ayant la meme structure syntaxique où setablissent les correspondances entre les idées: Quand un Anglais rencontre un Anglais, il lui dit
32115. Linversion 11.24 KB
  Le COD se place normalement apres le verbe. Mais il se place en tete de la proposition. EX : Aux multitudes asservies, martyrisйes, provisoirement vaincues, Barbusse indiquait le chemin de la libйration.
32116. La definition et les types de figures La figure consiste а detourner le sens par un emploi expressif qui secarte de lemploi canonique de l'unitee linguistique 11.74 KB
  es orateurs employaient les figures pour retenir lattention du public, pour attenuer leurs idees, pour frapper limagination par loriginalitee de lexpression et de points de vue. Mais le role stylistique des figures depasse de beaucoup le champ de la rhetorique
32117. les tropes (figure de sens) 12.8 KB
  Le même réfèrent peut être désigné directement, par le mot au sens propre et indirectement, par son indice secondaire.«Le sens imagé, cest la vision cumulée de deux images » (V.G. Gak).
32118. les comparaisons, leurs typoes et fonctions 12.88 KB
  L stylistique étudie les comprisons imgées qui peuvent être figées stbles ou occsionnelles. Les comprisons imgées rpprochent les rélités différentes pr leur nture elles se distinguent pr l'originlité de cette similitude. que tel comprble ressembler en de les verbes dire croire u Conditionnel etc.
32119. La metaphore. Se base sur le transfert de la nomination d’un referent sur l’autre liee au premier par la ressemblensce. C’est une comparaison en raccourci 12.18 KB
  On distingue : L metp 3 termes : vous n’etes qu’une pie bevrde 2 termes : le desert une mer de sble un terme : mon oiseux u point de vue grmmt les met puvent etre nominles Mon beu nvire o m memoire verble l’ombre violente des touffes de giroflee eclboussit le mur rugueux. djectivlemon esprit mer dverbileJ’i quitee Mdrid prcournt philosophiquement les des Cstilles L semntique des imges on distingue : l met sptile Une mer de sble nthropomorphique quel princesse nimlomorphique : Le troupeuconcret de ponts...
32120. La metonimie et ses variantes, la synecdoque et l’antonomase sont des figures basees sur la contiguitee(sur le rapport de voisinage, d’interdependance) et ne depend pas de la vision personnele de l’auteur 11.84 KB
  Types de metonimies : on prend le contennt pour le contenu et vice vers : boire une bouteille=boisson on prend le producteur pour le produit : un beu Millet=tbleu on prend le lieu d’origine pour le produit : un bordeuxvin fbriquee Bordeux on prend l consequence pour l cuse et vicevers : ce trvil est remrqubleresultt On prend le concret pour l’bstrit : l bottel’oppression l tyrnnie On prend l qulitee pour le porteur de cette qulitee :l bontee memeune femme tres bonne On prend le tout pour l prtie et...