Visão Computacional

Voltar para Glossário de IA

Última atualização: 05 de Junho de 2025

Visão Computacional (Computer Vision) é um campo interdisciplinar da Inteligência Artificial e da ciência da computação que visa permitir que os computadores "vejam", interpretem e compreendam informações visuais do mundo, como imagens digitais e vídeos, de uma forma semelhante à visão humana. O objetivo é automatizar tarefas que o sistema visual humano pode fazer.

Isso envolve o desenvolvimento de algoritmos e modelos que podem adquirir, processar, analisar e entender dados visuais para extrair informações de alto nível ou tomar decisões baseadas nessas informações.

Principais Tarefas da Visão Computacional:

  • Classificação de Imagens (Image Classification): Atribuir um rótulo (ou classe) a uma imagem inteira (ex: identificar se uma imagem contém um gato, um cachorro ou um carro).
  • Detecção de Objetos (Object Detection): Localizar e identificar múltiplos objetos dentro de uma imagem, geralmente desenhando caixas delimitadoras (bounding boxes) ao redor deles e classificando cada objeto.
  • Segmentação de Imagens (Image Segmentation): Particionar uma imagem em múltiplas regiões ou segmentos, onde cada pixel é atribuído a uma classe de objeto ou região.
    • Segmentação Semântica: Classifica cada pixel da imagem em uma categoria (ex: todos os pixels de "carro", "estrada", "céu").
    • Segmentação de Instância: Distingue instâncias individuais de objetos da mesma classe (ex: identifica cada carro separadamente).
  • Reconhecimento Facial (Facial Recognition): Identificar ou verificar a identidade de uma pessoa a partir de uma imagem ou vídeo de seu rosto.
  • Estimativa de Pose (Pose Estimation): Determinar a posição e orientação de objetos ou partes do corpo humano em uma imagem ou vídeo.
  • Rastreamento de Objetos (Object Tracking): Seguir o movimento de um objeto específico ao longo de uma sequência de vídeo.
  • Reconhecimento Óptico de Caracteres (OCR - Optical Character Recognition): Converter imagens de texto (escaneado ou fotografado) em texto editável e pesquisável.
  • Geração de Legendas de Imagens (Image Captioning): Gerar uma descrição textual do conteúdo de uma imagem.
  • Reconstrução 3D: Criar modelos tridimensionais de objetos ou cenas a partir de imagens 2D.

Tecnologias e Abordagens:

O Deep Learning, especialmente as Redes Neurais Convolucionais (CNNs), revolucionou a visão computacional, alcançando desempenho estado-da-arte em muitas tarefas. Outras técnicas incluem processamento de imagens tradicional (filtros, detecção de bordas), machine learning clássico e geometria computacional.

Aplicações da Visão Computacional:

A visão computacional tem inúmeras aplicações em diversos setores:

  • Carros Autônomos: Para perceber o ambiente, detectar pedestres, outros veículos e sinais de trânsito.
  • Medicina: Análise de imagens médicas (raios-X, tomografias) para auxiliar no diagnóstico de doenças.
  • Segurança e Vigilância: Reconhecimento facial, detecção de intrusos, monitoramento de multidões.
  • Manufatura: Controle de qualidade, detecção de defeitos em linhas de produção.
  • Varejo: Análise de comportamento de clientes em lojas, prateleiras inteligentes.
  • Agricultura: Monitoramento de safras, detecção de pragas e doenças em plantas.
  • Realidade Aumentada (AR) e Realidade Virtual (VR): Para interagir e entender o ambiente real ou virtual.
  • Redes Sociais: Marcação automática de fotos, filtros de imagem.

A visão computacional é um campo vibrante e em constante evolução, com o potencial de impactar profundamente como interagimos com o mundo digital e físico.