Tempo de leitura: 6 minutos
Nuvens de pontos são cada vez mais uma fonte de dados principal para informações 3D. Por muitos anos, sistemas LIDAR tem sido a principal forma de criar nuvens de pontos. Mais recentemente, os avanços no campo da visão de computador permitiram a geração de nuvens de pontos detalhadas e confiáveis a partir de imagens – não só a partir de fotografias aéreas tradicionais, mas também de fotos não calibradas de câmeras da consumidor. Leia para saber mais sobre a combinação de imagem densa, a poderosa tecnologia subjacente a este desenvolvimento.
Entendendo a Fotogrametria
Uma boa compreensão da correspondência de imagem densa requer visão sobre a fotogrametria. Fotogrametria em si não é uma nova tecnologia; ele tem sido aplicada na prática por décadas sem muitas mudanças para os seus conceitos fundamentais. A geometria 3D é obtida através da criação de imagens do mesmo objeto a partir de posições diferentes. Isso faz de um único ponto visível sobre o objeto, um pixel em várias imagens. Para cada imagem, uma linha reta pode ser tirada do centro da câmara através do elemento de pixel na imagem. Essas linhas se cruzam em um ponto, que é o local 3D do ponto de objeto (Figura 1).
No entanto, este requer a posição e orientação de cada imagem a ser conhecido. Para este fim, os chamados pontos de amarração são usados para ligar todas as imagens em conjunto. Cada ponto empate é um ponto bem reconhecível que é identificado em todas as imagens em que ocorre. Pontos de ligação suficientes para permitir a reconstrução da posição relativa de todas as imagens. Além disso, pontos conhecidos ou pontos de controle (PCC) com coordenadas 3D devem ser adicionados para obter escala e coordenadas absolutas. Pontos de ligação e pontos de controle são combinados em um ajuste de bloqueio, resultando nas coordenadas 3D de todos os pontos de ligação e, mais importantes ainda, a posição e orientação de cada imagem.
Encontrando pontos correspondentes
Nos velhos tempos de aerofotogrametria analógica, pontos de amarração foram identificados fisicamente fixando pequenos orifícios através da imagem na localização do ponto. Quando a fotogrametria digital surgiu, muito do trabalho manual foi substituído por software de busca de pontos automatizado que pode facilmente detectar centenas de pontos correspondentes e confiáveis em várias imagens. O recurso baseado em combinação é muitas vezes aplicado para esta finalidade. O algoritmo tenta detectar características bem conhecidas – tais como uma marcação de estradas, uma borda edifício ou qualquer outra alteração no contraste forte – em cada imagem individual. Uma vez que todos os recursos tenham sido encontrados, o algoritmo procede para detectar características correspondentes em várias imagens. Isso resulta em pontos correspondentes altamente confiáveis que são muito adequados como pontos de amarração.
Para se obter um ponto de nuvem densa, um ponto correspondente é necessário para quase todos os pixels na imagem. A abordagem correspondente à base de recurso não é adequada para esta finalidade uma vez que nem todos os pixels na imagem correspondem a uma característica bem reconhecível. Muitos pixels representarão uma superfície acinzentada de uma estrada ou pavimento ou um remendo verde da vegetação. Estes pixels não podem ser automaticamente ligados a um recurso e não será encontrado pela abordagem correspondente à base de recurso.
Pesquisando linha por linha
A imagem densa combinada tem uma abordagem alternativa para obter um ponto correspondente para quase todos os pixels na imagem. Ao invés de procurar a imagem inteira para recursos, irá comparar duas imagens sobrepostas linha por linha. Essencialmente, isto reduz o problema a uma busca muito mais simples e unidimensional. Isso requer um passo de imagem de retificação antes da correspondência começa. As imagens têm de ser deformadas de tal modo que cada fila de pixels de uma imagem corresponda exatamente a uma fileira na outra imagem, isto é, em termos técnicos as linhas das imagens devem ser paralelas à linha epipolar.
No caso de imagens aéreas que são capturadas em linhas aéreas longas, geralmente há uma boa correspondência entre as linhas e apenas uma pequena correção é necessária. Imagens terrestres e oblíquas, no entanto, podem exigir um ajuste significativo para alcançar esta propriedade linha por linha. Do ponto de vista computacional, isto pode ser conseguido com uma simples transformação de perspectiva. Para o olho humano, as imagens resultantes podem aparecer altamente distorcida (Figura 2) .
Agora, o algoritmo pode funcionar linha por linha e pixel por pixel (Figura 3). Para cada pixel, ele irá procurar na fila correspondente o elemento de imagem que é mais provável para representar o mesmo ponto no mundo real. Ele vai fazer isso comparando a cor ou o valor de cinza do pixel e seus vizinhos. Ao mesmo tempo, há uma restrição definida para assegurar certa quantidade de suavidade no resultado. Quando um pixel é encontrado na segunda imagem, que é uma boa combinação para o mesmo pixel de imagem do primeiro, a localização desse pixel é armazenada. Uma vez que dois pixels correspondentes são conhecidos, técnicas fotogramétricas tradicionais podem ser utilizadas para calcular a interseção 3D para o pixel.
A abordagem linha-por-linha para imagens é eficiente, mas, uma vez que cada linha é tratada de forma totalmente independente, há um risco de uma desconexão entre os resultados. Este efeito é chamado de estrias. Para superar esta desvantagem, foi proposta a abordagem correspondente semi-global. Este método não só avalia linha horizontal por linha, mas também atravessa a imagem em 16 direções diferentes. Isso produz 16 resultados correspondentes que são então combinados em uma soma ponderada de alcançar um resultado final que tem muito menos ruído. Além disso, esta abordagem pode adicionar outras imagens, que também têm sobreposição para um resultado ainda melhor.
Observações finais
Existem muitas adaptações e alternativas para a abordagem de combinação apresentado neste artigo. Implementações alternativas podem melhorar a eficiência de memória, velocidade ou confiabilidade. Muitas vezes, os algoritmos não armazenam os pixels correspondentes, mas sim a paralaxe entre eles, pois esta é a memória mais eficiente.
Imagem densa combinada é uma tecnologia essencial para muitas inovações recentes no campo da geoinformação. É usado para gerar nuvens de pontos a partir de imagens aéreas, imagens de aviões não tripulados, imagens esféricas, etc. Pode também ser cada vez mais encontrados em produtos orientados para o consumidor, tais como aplicativos móveis para modelagem rápida de objetos 3D.
Traduzido e Adaptado
Fonte: GIM International