A objectiva recolhe um leque de raios a partir de cada ponto do objecto e imagina o feixe de raios no plano focal frontal do ocular. As regras convencionais de traçado de raio aplicam-se à formação da imagem. Na ausência de aberração, os raios geométricos formam uma imagem pontual de cada ponto do objeto. Na presença de aberrações, cada ponto de objeto é representado por um ponto indistinto. O ocular é projetado para imaginar os raios a um ponto focal a uma distância conveniente para a visualização da imagem. Neste sistema, o brilho da imagem é determinado pelos tamanhos das aberturas das lentes e pela abertura da pupila do olho. A distância focal e a ampliação resultante do objetivo deve ser escolhida para atingir a resolução desejada do objeto em um tamanho conveniente para a visualização através da ocular. A formação da imagem no microscópio é complicada pela difração e interferência que ocorrem no sistema de imagem e pela exigência de usar uma fonte de luz que é imitada no plano focal.
A moderna teoria da formação da imagem no microscópio foi fundada em 1873 pelo físico alemão Ernst Abbe. O ponto de partida para a teoria Abbe é que os objetos no plano focal do microscópio são iluminados pela luz convergente de um condensador. A luz convergente da fonte pode ser considerada como um conjunto de muitas ondas planas que se propagam num conjunto específico de direcções e se sobrepõem para formar a iluminação incidente. Cada uma destas ondas planas eficazes é difratada pelos detalhes no plano do objeto: quanto menor a estrutura detalhada do objeto, maior o ângulo de difração.
A estrutura do objeto pode ser representada como uma soma de componentes sinusoidais. A rapidez de variação no espaço dos componentes é definida pelo período de cada componente, ou pela distância entre os picos adjacentes na função sinusoidal. A frequência espacial é a recíproca do período. Quanto mais finos os detalhes, maior a freqüência espacial requerida dos componentes que representam o detalhe do objeto. Cada componente de freqüência espacial produz difração em um ângulo específico, dependendo do comprimento de onda da luz. Como exemplo, componentes de frequência espacial com um período de 1 μm teriam uma frequência espacial de 1.000 linhas por milímetro. O ângulo de difracção de tal componente para a luz visível com um comprimento de onda de 550 nanómetros (nm; 1 nanómetro é 10-9 metros) será de 33,6°. A objetiva do microscópio coleta estas ondas difratadas e as direciona para um plano de imagem, onde a interferência entre as ondas difratadas produz uma imagem do objeto.
Porque a abertura da objetiva é limitada, nem todas as ondas difratadas do objeto podem ser transmitidas pela objetiva. Abbe mostrou que quanto maior o número de ondas difratadas atingindo o objetivo, mais fino o detalhe que pode ser reconstruído na imagem. Ele designou o termo abertura numérica (N.A.) como a medida da capacidade do objetivo de coletar luz difratada e, portanto, também do seu poder de resolver detalhes. Nesta base, é óbvio que quanto maior a ampliação do objetivo, maior o N.A. necessário do objetivo. O maior NA teoricamente possível no ar é 1,0, mas as restrições do projeto óptico limitam o NA que pode ser alcançado a cerca de 0,95 para objetivas secas.
Para o exemplo acima de uma amostra com uma freqüência espacial de 1.000 linhas por milímetro, o NA necessário para coletar a luz difratada seria 0,55. Assim, um objetivo de 0,55 NA ou maior deve ser usado para observar e coletar dados úteis de um objeto com detalhes espaçados 1 μm à parte. Se o objetivo tiver um NA inferior, os detalhes do objeto não serão resolvidos. Tentativas de ampliar os detalhes da imagem através do uso de uma ocular de alta potência não produzirão nenhum aumento na resolução. Esta última condição é chamada ampliação vazia.
O comprimento de onda da luz é encurtado quando ela se propaga através de um meio denso. A fim de resolver os menores detalhes possíveis, as objetivas de imersão são capazes de coletar a luz difratada por detalhes mais finos do que as objetivas no ar. O NA é multiplicado pelo índice de refração do meio, e NA de trabalho de 1,4 são possíveis. Nos melhores microscópios ópticos, estruturas com frequência espacial tão pequena quanto 0,4 μm podem ser observadas. Note que as lentes únicas feitas por Leeuwenhoek demonstraram ser capazes de resolver fibrilhas apenas 0,7 μm em espessura.