Virtual Reality

Mosaicos de vídeo para Ambientes Virtuais

Introdução e aspectos teóricos

O uso do imaginário fotográfico como parte do processo de criação em computação gráfica é uma técnica bem estabelecida e muito popular. Tal imaginário pode ser usado de diferentes formas, incluindo a manipulação e a composição de fotografias em vídeos. É também possível combinar computação gráfica 3D suavemente com vídeos imaginários para produzir efeitos especiais dramáticos. Mosaicos de vídeo podem ser usados em muitas aplicações diferentes, incluindo a criação de ambientes virtuais - R.V. e efeitos especiais de movimentos. Tais aplicações comumente usam um mapa de ambientes, que, é uma imagem esférica com 360 graus de um dado ambiente.

Neste artigo, apresenta-se um algoritmo que alinha imagens e compõe cenas de complexidade crescente, começando com cenas planas e simples e progredindo para processamento de cenas panorâmicas, e, finalmente, para cenas de profundidade.

Equacionamento básico:

As técnicas apresentadas no artigo são baseadas na habilidade de alinhar diferentes peças de uma cena numa grande pintura da mesma - um mosaico, e então, produzir uma imagem, de forma suave.

As técnicas básicas envolvidas estão relacionadas com: mistura - combinação - de imagens e fusão das mesmas. O autor propõe o uso de coordenadas homogêneas para representação dos pontos. As transformações envolvidas são as mesmas transformações de rotação, escala, translação, perspectiva etc.

Mosaico de imagens planas

Um conjunto simples possível para um mosaico são vistas de uma cena plana tais como documentos, quadros em branco etc. Imagine uma câmara que faça uma varredura de diferentes porções di um objeto. A combinação pode ser obtida por operações do tipo translação e rotação. Agora imagine uma câmara que passa por um quadro branco, que possa ser movida para qualquer posição. Agora uma classe de transformações perspectivas estará envolvida. O fato de a projeção perspectiva captar todas as possíveis informações de mapeamento e um resultado básico da geometria da perspectiva. Dado este conhecimento, como fazer para computar as transformações, relatando as várias peças da cena, de forma a poder combiná-las, posteriormente? Há uma variedade de técnicas possíveis, algumas mais automatizadas que outras. Por exemplo, através da identificação manual de quatro ou mais pontos correspondentes entre as duas vistas. Tais processos manuais são tediosos para serem usados em aplicativos que trabalham com este propósito em larga escala.

Registro de imagem local

A abordagem usada aqui minimiza diretamente a discrepância em intensidades entre pares de imagens após aplicar a transformação de recuperação. Para tanto avalia a combinação de pontos da imagens através de combinação de valores de intensidades e minimiza a soma dos quadrados das intensidades dos erros.*

Para performancear a minimização, usamos o algoritmo de Levenberg- Marquard, que requer computação de derivadas parciais, com relação a parâmetros desconhecidos de movimento.*

Registro de imagem global

Infelizmente, ambas as técnicas de análise por gradientes e de Levenberg-Marquardt somente se prestam a encontrar soluções locais ótimas. No caso de movimento entre sucessivos quadros, nos devemos usar uma estratégia diferente para encontrar o melhor registro - combinação. Duas técnicas diferentes podem ser usadas para tratar tal problema: - combinação hierárquica (usada em visão computacional) e correlação de fases. A primeira fraciona a imagem em versões da imagem menores - movimento pequeno, reduzindo o problema a níveis finos e que tem convergência depende da intensidade de modelos na imagem)

Para grandes mudanças, nós podemos usar a segunda técnica. Ela estima as translações entre 2D entre um par de imagens, tomando um transformada de Fourier 2D para cada uma das imagens envolvidas, computando as diferenças de fases para cada frequência e realizando a transformada inversa de Fourier, buscando um pico na magnitude da imagem. Tal técnica tem resultados bons em casos de pouca distorção perspectiva.

Resultados:

O autor propõe, para avaliação de sua técnica, a aplicação da mesma numa sequência de imagens que resulta num mosaico de 1,300 X 2,046 pixels, baseado numa imagem de resolução 640 X 480. Para computar o mosaico, desenvolveu uma ferramenta de manipulação interativa que faz um refinamento da posição do usuário entre quadros sucessivos relativamente a cada outro quadro. Esta ferramenta inclui uma opção de registro automático que usa correlação de fases para computar as irregularidades de cada imagem com respeito a outra. O algoritmo então refina a localização de cada imagem por minimizar equações.

Mosaico de imagens panorâmicas:

Este é um processo semelhante ao usado em fotos, com rotação da câmera para obtenção de todo o panorama local. Uma abordagem para tratar as projeções 2D perspecitvas da imagem e dividi-la numa esfera de visualização grande, que, potencialmente faça coincidir as regiões. Outra abordagem é para computar a posição relativa de cada quadro para um mesmo quadro base e, periodicamente, escolher um novo quadro base para promover o alinhamento. Uma terceira abordagem é usar uma superfície de visualização cilíndrica para representar o mosaico de imagens.

Recuperação de profundidade da perspectiva:

Em alguns casos, é necessária a profundidade associada com a cena para dar uma ilusão de 3D. Se tal informação é conhecida, vistas adjacentes podem ser produzidas usando interpolação de vistas.

A primeira abordagem assume que a cena é plana, como o caso que tem muitos ambientes: um escritório, por exemplo. A técnica de mosaico desenvolvida a seguir para imagens planas pode ser aplicada para cada região de imagem plana da imagem. A segmentação de cada imagem em componentes planos pode ser feita interativamente ou automaticamente. Desde que peças de planos independentes tenham sido compostas, pode-se, a princípio, recuperar a geometria relativa dos vários planos no movimento da câmera. O autor, no entanto, propõe uma segunda técnica para solução mais geral, que recupera toda a profundidade do mapa. Para tanto, infere que a coordenada z é desconhecida para cada pixel numa dada sequência de imagem.

Quando o movimento da câmera é conhecido, o problema de recuperação é chamado de reconstrução stereo. Esta seção apresenta uma forma mais ampla de solução, chamada de recuperação de profundidade da perspectiva, usada quando se desconhece o movimento da câmera. A solução proposta é simples e robusta.

Formulação:

- uso do algoritmo de Levenberg-Marquardt;

- recuperação de valores de profundidade da perspectiva;

- uso destes valores para interpolação do ponto de vista;

- computação de derivadas parciais*;

- bons resultados.

Aplicações:

Dadas técnicas automáticas para construir cenas 2D e 3D para sequências de vídeo, o que podemos fazer com estes modelos??

- varreduras de quadros em branco;

- aquisição de ambientes para efeitos especiais em vídeos - jogos;

- supermercado em casa;

- turismo interativo;

- aplicações de telepresença ao vivo.

Vantagens da técnica relatada:

- imagens de grande resolução;

- possibilidade de uso em salas de aula;

- produção de efeitos interessantes, tal como a composição com quadros antigos;

O autor destaca a aplicabilidade em Realidade Virtual, nos casos de realidade virtual dinâmica - telepresença - que computa vídeos de múltiplas fontes em tempo real para criar a ilusão de dinamismo em ambientes 3D. Outra aplicação que merece destaque é a telemedicina.

Discussão:

Mosaicos de vídeos provêm uma nova forma poderosa de criar ambientes detalhados necessários às aplicações de Realidade Virtual. É possível criar cenas de altas resoluções e, simultaneamente, recuperar informações parciais da geometria 3D. A abordagem relatada neste artigo apresenta vantagens sobre outras técnicas, produzindo densas informações de formas, trabalhando em áreas de grande textura.