Obiektyw zbiera wachlarz promieni z każdego punktu obiektu i obrazuje wiązkę promieni na przedniej płaszczyźnie ogniskowej okularu. Do tworzenia obrazu stosuje się konwencjonalne zasady śledzenia promieni. W przypadku braku aberracji, promienie geometryczne tworzą obraz punktowy każdego punktu obiektu. W obecności aberracji, każdy punkt obiektu jest reprezentowany przez niewyraźny punkt. Okular ma za zadanie zobrazować promienie do ogniska znajdującego się w odległości dogodnej do oglądania obrazu. W tym systemie jasność obrazu jest określana przez rozmiary apertur soczewek oraz przez aperturę źrenicy oka. Ogniskowa i wynikające z niej powiększenie obiektywu powinny być tak dobrane, aby uzyskać pożądaną rozdzielczość obiektu przy wielkości dogodnej do oglądania przez okular. Tworzenie obrazu w mikroskopie jest skomplikowane przez dyfrakcję i interferencję, które mają miejsce w systemie obrazowania oraz przez wymóg stosowania źródła światła, które jest obrazowane w płaszczyźnie ogniskowej.
Nowoczesna teoria powstawania obrazu w mikroskopie została założona w 1873 roku przez niemieckiego fizyka Ernsta Abbego. Punktem wyjścia dla teorii Abbego jest założenie, że obiekty w płaszczyźnie ogniskowej mikroskopu są oświetlane światłem zbieżnym z kondensora. Światło zbieżne pochodzące ze źródła może być traktowane jako zbiór wielu fal płaskich rozchodzących się w określonych kierunkach i nakładających się na siebie, tworząc padające oświetlenie. Każda z tych efektywnych fal płaskich jest rozpraszana przez szczegóły w płaszczyźnie obiektu: im mniejsza szczegółowa struktura obiektu, tym szerszy kąt dyfrakcji.
Struktura obiektu może być reprezentowana jako suma składowych sinusoidalnych. Szybkość zmian w przestrzeni składowych jest określona przez okres każdej składowej, lub odległość między sąsiednimi szczytami w funkcji sinusoidalnej. Częstotliwość przestrzenna jest odwrotnością okresu. Im drobniejsze są szczegóły, tym wyższa jest wymagana częstotliwość przestrzenna składowych reprezentujących szczegóły obiektu. Każda składowa częstotliwości przestrzennej powoduje dyfrakcję pod określonym kątem, zależnym od długości fali światła. Na przykład, składowe o częstotliwości przestrzennej o okresie 1 μm będą miały częstotliwość przestrzenną 1000 linii na milimetr. Kąt dyfrakcji dla takiego składnika dla światła widzialnego o długości fali 550 nanometrów (nm; 1 nanometr to 10-9 metrów) wyniesie 33,6°. Obiektyw mikroskopu zbiera te rozproszone fale i kieruje je na płaszczyznę obrazu, gdzie interferencja między rozproszonymi falami tworzy obraz obiektu.
Ponieważ apertura obiektywu jest ograniczona, nie wszystkie rozproszone fale z obiektu mogą być przekazywane przez obiektyw. Abbe wykazał, że im większa liczba fal dyfrakcyjnych dociera do obiektywu, tym drobniejsze szczegóły można odtworzyć na obrazie. Określił on termin apertura numeryczna (N.A.) jako miarę zdolności obiektywu do zbierania światła rozproszonego, a więc również jego zdolności do rozdzielania szczegółów. Na tej podstawie oczywiste jest, że im większe jest powiększenie obiektywu, tym większa jest wymagana wartość N.A. obiektywu. Największe N.A. teoretycznie możliwe w powietrzu wynosi 1.0, ale ograniczenia konstrukcji optycznej ograniczają N.A., które można osiągnąć do około 0.95 dla suchych celów.
Dla powyższego przykładu próbki o częstotliwości przestrzennej 1000 linii na milimetr, wymagane N.A. do zbierania światła rozproszonego wyniosłoby 0.55. Zatem, aby obserwować i zbierać użyteczne dane z obiektu o szczegółach oddalonych od siebie o 1 μm, należy użyć obiektywu o wartości 0,55 N.A. lub większej. Jeśli obiektyw ma mniejszy współczynnik N.A., szczegóły obiektu nie będą rozróżniane. Próby powiększenia szczegółów obrazu za pomocą okularu o dużej mocy nie przyniosą wzrostu rozdzielczości. Ten ostatni stan nazywany jest pustym powiększeniem.
Długość fali światła ulega skróceniu, gdy rozchodzi się ono przez gęsty ośrodek. W celu uzyskania jak najmniejszych szczegółów, obiektywy zanurzeniowe są w stanie zbierać światło rozproszone przez drobniejsze szczegóły niż obiektywy w powietrzu. Współczynnik N.A. jest mnożony przez współczynnik załamania ośrodka i możliwe są robocze współczynniki N.A. rzędu 1,4. W najlepszych mikroskopach optycznych można obserwować struktury o częstotliwości przestrzennej tak małej jak 0,4 μm. Zauważmy, że pojedyncze soczewki wykonane przez Leeuwenhoeka są w stanie rozróżnić fibryle o grubości zaledwie 0,7 μm.