-
Introdução e aspectos teóricos
-
-
O uso do imaginário fotográfico como parte do processo de
criação em computação gráfica é
uma técnica bem estabelecida e muito popular. Tal imaginário
pode ser usado de diferentes formas, incluindo a manipulação
e a composição de fotografias em vídeos. É
também possível combinar computação gráfica
3D suavemente com vídeos imaginários para produzir efeitos
especiais dramáticos. Mosaicos de vídeo podem ser usados
em muitas aplicações diferentes, incluindo a criação
de ambientes virtuais - R.V. e efeitos especiais de movimentos. Tais aplicações
comumente usam um mapa de ambientes, que, é uma imagem esférica
com 360 graus de um dado ambiente.
-
Neste artigo, apresenta-se um algoritmo que alinha imagens e compõe
cenas de complexidade crescente, começando com cenas planas e simples
e progredindo para processamento de cenas panorâmicas, e, finalmente,
para cenas de profundidade.
-
-
Equacionamento básico:
-
-
As técnicas apresentadas no artigo são
baseadas na habilidade de alinhar diferentes peças de uma cena numa
grande pintura da mesma - um mosaico, e então, produzir uma imagem,
de forma suave.
-
As técnicas básicas envolvidas estão
relacionadas com: mistura - combinação - de imagens e fusão
das mesmas. O autor propõe o uso de coordenadas homogêneas
para representação dos pontos. As transformações
envolvidas são as mesmas transformações de rotação,
escala, translação, perspectiva etc.
-
-
Mosaico de imagens planas
-
-
Um conjunto simples possível para um mosaico
são vistas de uma cena plana tais como documentos, quadros em branco
etc. Imagine uma câmara que faça uma varredura de diferentes
porções di um objeto. A combinação pode ser
obtida por operações do tipo translação e rotação.
Agora imagine uma câmara que passa por um quadro branco, que possa
ser movida para qualquer posição. Agora uma classe de transformações
perspectivas estará envolvida. O fato de a projeção
perspectiva captar todas as possíveis informações
de mapeamento e um resultado básico da geometria da perspectiva.
Dado este conhecimento, como fazer para computar as transformações,
relatando as várias peças da cena, de forma a poder combiná-las,
posteriormente? Há uma variedade de técnicas possíveis,
algumas mais automatizadas que outras. Por exemplo, através da identificação
manual de quatro ou mais pontos correspondentes entre as duas vistas. Tais
processos manuais são tediosos para serem usados em aplicativos
que trabalham com este propósito em larga escala.
-
-
Registro de imagem local
-
-
A abordagem usada aqui minimiza diretamente a discrepância
em intensidades entre pares de imagens após aplicar a transformação
de recuperação. Para tanto avalia a combinação
de pontos da imagens através de combinação de valores
de intensidades e minimiza a soma dos quadrados das intensidades dos erros.*
-
Para performancear a minimização, usamos
o algoritmo de Levenberg- Marquard, que requer computação
de derivadas parciais, com relação a parâmetros desconhecidos
de movimento.*
-
-
Registro de imagem global
-
-
Infelizmente, ambas as técnicas de análise
por gradientes e de Levenberg-Marquardt somente se prestam a encontrar
soluções locais ótimas. No caso de movimento entre
sucessivos quadros, nos devemos usar uma estratégia diferente para
encontrar o melhor registro - combinação. Duas técnicas
diferentes podem ser usadas para tratar tal problema: - combinação
hierárquica (usada em visão computacional) e correlação
de fases. A primeira fraciona a imagem em versões da imagem menores
- movimento pequeno, reduzindo o problema a níveis finos e que tem
convergência depende da intensidade de modelos na imagem)
-
Para grandes mudanças, nós podemos
usar a segunda técnica. Ela estima as translações
entre 2D entre um par de imagens, tomando um transformada de Fourier 2D
para cada uma das imagens envolvidas, computando as diferenças de
fases para cada frequência e realizando a transformada inversa de
Fourier, buscando um pico na magnitude da imagem. Tal técnica tem
resultados bons em casos de pouca distorção perspectiva.
-
-
Resultados:
-
-
O autor propõe, para avaliação
de sua técnica, a aplicação da mesma numa sequência
de imagens que resulta num mosaico de 1,300 X 2,046 pixels, baseado numa
imagem de resolução 640 X 480. Para computar o mosaico, desenvolveu
uma ferramenta de manipulação interativa que faz um refinamento
da posição do usuário entre quadros sucessivos relativamente
a cada outro quadro. Esta ferramenta inclui uma opção de
registro automático que usa correlação de fases para
computar as irregularidades de cada imagem com respeito a outra. O algoritmo
então refina a localização de cada imagem por minimizar
equações.
-
-
Mosaico de imagens panorâmicas:
-
-
Este é um processo semelhante ao usado em
fotos, com rotação da câmera para obtenção
de todo o panorama local. Uma abordagem para tratar as projeções
2D perspecitvas da imagem e dividi-la numa esfera de visualização
grande, que, potencialmente faça coincidir as regiões. Outra
abordagem é para computar a posição relativa de cada
quadro para um mesmo quadro base e, periodicamente, escolher um novo quadro
base para promover o alinhamento. Uma terceira abordagem é usar
uma superfície de visualização cilíndrica para
representar o mosaico de imagens.
-
-
Recuperação de profundidade da perspectiva:
-
-
Em alguns casos, é necessária a profundidade
associada com a cena para dar uma ilusão de 3D. Se tal informação
é conhecida, vistas adjacentes podem ser produzidas usando interpolação
de vistas.
-
A primeira abordagem assume que a cena é plana,
como o caso que tem muitos ambientes: um escritório, por exemplo.
A técnica de mosaico desenvolvida a seguir para imagens planas pode
ser aplicada para cada região de imagem plana da imagem. A segmentação
de cada imagem em componentes planos pode ser feita interativamente ou
automaticamente. Desde que peças de planos independentes tenham
sido compostas, pode-se, a princípio, recuperar a geometria relativa
dos vários planos no movimento da câmera. O autor, no entanto,
propõe uma segunda técnica para solução mais
geral, que recupera toda a profundidade do mapa. Para tanto, infere que
a coordenada z é desconhecida para cada pixel numa dada sequência
de imagem.
-
Quando o movimento da câmera é conhecido,
o problema de recuperação é chamado de reconstrução
stereo. Esta seção apresenta uma forma mais ampla de solução,
chamada de recuperação de profundidade da perspectiva, usada
quando se desconhece o movimento da câmera. A solução
proposta é simples e robusta.
-
-
Formulação:
-
-
- uso do algoritmo de Levenberg-Marquardt;
-
- recuperação de valores de profundidade
da perspectiva;
-
- uso destes valores para interpolação
do ponto de vista;
-
- computação de derivadas parciais*;
-
- bons resultados.
-
-
Aplicações:
-
-
Dadas técnicas automáticas para construir
cenas 2D e 3D para sequências de vídeo, o que podemos fazer
com estes modelos??
-
- varreduras de quadros em branco;
-
- aquisição de ambientes para efeitos
especiais em vídeos - jogos;
-
- supermercado em casa;
-
- turismo interativo;
-
- aplicações de telepresença
ao vivo.
-
-
Vantagens da técnica relatada:
-
-
- imagens de grande resolução;
-
- possibilidade de uso em salas de aula;
-
- produção de efeitos interessantes,
tal como a composição com quadros antigos;
-
-
O autor destaca a aplicabilidade em Realidade Virtual,
nos casos de realidade virtual dinâmica - telepresença - que
computa vídeos de múltiplas fontes em tempo real para criar
a ilusão de dinamismo em ambientes 3D. Outra aplicação
que merece destaque é a telemedicina.
-
-
Discussão:
-
-
Mosaicos de vídeos provêm uma nova forma
poderosa de criar ambientes detalhados necessários às aplicações
de Realidade Virtual. É possível criar cenas de altas resoluções
e, simultaneamente, recuperar informações parciais da geometria
3D. A abordagem relatada neste artigo apresenta vantagens sobre outras
técnicas, produzindo densas informações de formas,
trabalhando em áreas de grande textura.
-
|