El objetivo recoge un abanico de rayos de cada punto del objeto e imagina el haz de rayos en el plano focal delantero del ocular. Las reglas convencionales del trazado de rayos se aplican a la formación de la imagen. En ausencia de aberraciones, los rayos geométricos forman una imagen puntual de cada punto del objeto. En presencia de aberraciones, cada punto del objeto está representado por un punto indistinto. El ocular se diseña para que los rayos se representen en un punto focal a una distancia conveniente para la visualización de la imagen. En este sistema, la luminosidad de la imagen viene determinada por el tamaño de las aberturas de los objetivos y por la apertura de la pupila del ojo. La distancia focal y el aumento resultante del objetivo deben elegirse para obtener la resolución deseada del objeto a un tamaño conveniente para su visualización a través del ocular. La formación de la imagen en el microscopio se complica por la difracción y la interferencia que tienen lugar en el sistema de imagen y por el requisito de utilizar una fuente de luz que se visualiza en el plano focal.
La teoría moderna de la formación de imágenes en el microscopio fue fundada en 1873 por el físico alemán Ernst Abbe. El punto de partida de la teoría de Abbe es que los objetos en el plano focal del microscopio son iluminados por la luz convergente de un condensador. La luz convergente procedente de la fuente puede considerarse como una colección de muchas ondas planas que se propagan en un conjunto específico de direcciones y se superponen para formar la iluminación incidente. Cada una de estas ondas planas efectivas es difractada por los detalles del plano del objeto: cuanto menor sea la estructura detallada del objeto, mayor será el ángulo de difracción.
La estructura del objeto puede representarse como una suma de componentes sinusoidales. La rapidez de variación en el espacio de los componentes se define por el período de cada componente, o la distancia entre picos adyacentes en la función sinusoidal. La frecuencia espacial es el recíproco del periodo. Cuanto más finos sean los detalles, mayor será la frecuencia espacial requerida de los componentes que representan el detalle del objeto. Cada componente de frecuencia espacial produce difracción en un ángulo específico que depende de la longitud de onda de la luz. Por ejemplo, los componentes de frecuencia espacial que tienen un período de 1 μm tendrían una frecuencia espacial de 1.000 líneas por milímetro. El ángulo de difracción de dicho componente para la luz visible con una longitud de onda de 550 nanómetros (nm; 1 nanómetro es 10-9 metros) será de 33,6°. El objetivo del microscopio recoge estas ondas difractadas y las dirige a un plano de imagen, donde la interferencia entre las ondas difractadas produce una imagen del objeto.
Debido a que la apertura del objetivo es limitada, no todas las ondas difractadas del objeto pueden ser transmitidas por el objetivo. Abbe demostró que cuanto mayor es el número de ondas difractadas que llegan al objetivo, más fino es el detalle que puede reconstruirse en la imagen. Designó el término apertura numérica (A.N.) como la medida de la capacidad del objetivo para recoger la luz difractada y, por tanto, también de su poder para resolver los detalles. Sobre esta base, es evidente que cuanto mayor sea el aumento del objetivo, mayor será la A.N. requerida del mismo. El mayor A.N. teóricamente posible en el aire es 1,0, pero las restricciones de diseño óptico limitan el A.N. que puede alcanzarse a alrededor de 0,95 para los objetivos secos.
Para el ejemplo anterior de un espécimen con una frecuencia espacial de 1.000 líneas por milímetro, el A.N. necesario para recoger la luz difractada sería de 0,55. Por lo tanto, se debe utilizar un objetivo de 0,55 A.N. o superior para observar y recoger datos útiles de un objeto con detalles separados por 1 μm. Si el objetivo tiene un A.N. inferior, los detalles del objeto no se resolverán. Los intentos de ampliar el detalle de la imagen mediante el uso de un ocular de alta potencia no producirán ningún aumento de la resolución. Esta última condición se denomina aumento vacío.
La longitud de onda de la luz se acorta cuando se propaga a través de un medio denso. Para resolver los detalles más pequeños posibles, los objetivos de inmersión son capaces de recoger la luz difractada por detalles más finos que los objetivos en aire. El A.N. se multiplica por el índice de refracción del medio, y son posibles A.N. de trabajo de 1,4. En los mejores microscopios ópticos se pueden observar estructuras con una frecuencia espacial tan pequeña como 0,4 μm. Obsérvese que las lentes simples fabricadas por Leeuwenhoek han demostrado ser capaces de resolver fibrillas de sólo 0,7 μm de grosor.