Az objektív minden egyes tárgypontból egy sugárnyalábot gyűjt össze, és a sugárnyalábot az okulár első fókuszsíkjában képezi le. A képalkotásra a sugárkövetés hagyományos szabályai vonatkoznak. Aberráció hiányában a geometriai sugarak minden egyes tárgypontról pontszerű képet alkotnak. Aberráció jelenlétében minden egyes tárgypontot egy homályos pont ábrázol. Az okulár úgy van kialakítva, hogy a sugarakat a kép megtekintéséhez megfelelő távolságban lévő fókuszpontra képezze le. Ebben a rendszerben a kép fényerejét a lencsék nyílásainak mérete és a szem pupillájának nyílása határozza meg. Az objektív fókusztávolságát és az ebből eredő nagyítást úgy kell megválasztani, hogy a tárgy kívánt felbontását az okuláron keresztül történő megtekintéshez megfelelő méretben érjük el. A képalkotást a mikroszkópban bonyolítja a képalkotó rendszerben lejátszódó diffrakció és interferencia, valamint az a követelmény, hogy a fókuszsíkban leképezett fényforrást kell használni.
A mikroszkópban történő képalkotás modern elméletét Ernst Abbe német fizikus alapozta meg 1873-ban. Az Abbe-elmélet kiindulópontja, hogy a mikroszkóp fókuszsíkjában lévő tárgyakat egy kondenzátorból érkező konvergens fény világítja meg. A forrásból érkező konvergens fényt sok, meghatározott irányokban terjedő síkhullám gyűjteményének tekinthetjük, amelyek egymásra helyezve alkotják a beeső megvilágítást. Ezen effektív síkhullámok mindegyikét a tárgy síkjában lévő részletek megtörik: minél kisebb a tárgy részletstruktúrája, annál nagyobb a diffrakciós szög.
A tárgy struktúrája szinuszos komponensek összegeként ábrázolható. A komponensek térbeli változásának gyorsaságát az egyes komponensek periódusa, vagyis a szinuszfüggvény szomszédos csúcsai közötti távolság határozza meg. A térbeli frekvencia a periódus reciproka. Minél finomabbak a részletek, annál nagyobb a szükséges térbeli frekvencia az objektum részleteit reprezentáló komponenseknél. Minden térbeli frekvenciájú komponens a fény hullámhosszától függő meghatározott szögben okoz diffrakciót. Például az 1 μm periódusú térbeli frekvenciájú komponensek térbeli frekvenciája 1000 vonal/milliméter. Egy ilyen komponens diffrakciós szöge 550 nanométer (nm; 1 nanométer 10-9 méter) hullámhosszúságú látható fény esetén 33,6°. A mikroszkóp objektívje összegyűjti ezeket a diffraktált hullámokat, és egy képsíkra irányítja őket, ahol a diffraktált hullámok interferenciája létrehozza a tárgy képét.
Mivel az objektív apertúrája korlátozott, nem minden, a tárgyból származó diffraktált hullámot tud az objektív továbbítani. Abbe kimutatta, hogy minél több diffraktált hullám éri el az objektívet, annál finomabb részleteket lehet rekonstruálni a képen. A numerikus apertúra (N.A.) kifejezést annak mérésére használta, hogy az objektív mennyire képes összegyűjteni a diffraktált fényt, és ezáltal mennyire képes felbontani a részleteket. Ennek alapján nyilvánvaló, hogy minél nagyobb az objektív nagyítása, annál nagyobb az objektív szükséges N.A. értéke. A levegőben elméletileg lehetséges legnagyobb N.A. 1,0, de az optikai tervezési korlátok a száraz objektíveknél az elérhető N.A.-t 0,95 körüli értékre korlátozzák.
A fenti példában egy 1000 vonal/milliméter térbeli frekvenciájú minta esetében a diffraktált fény összegyűjtéséhez szükséges N.A. 0,55 lenne. Tehát 0,55 N.A. vagy annál nagyobb objektívvel kell megfigyelni és hasznos adatokat gyűjteni egy olyan tárgyról, amelynek részletei 1 μm távolságra vannak egymástól. Ha az objektív kisebb N.A.-val rendelkezik, a tárgy részletei nem lesznek felbonthatók. Ha a kép részleteit nagy teljesítményű okulárral próbáljuk megnövelni, a felbontás nem fog növekedni. Ez utóbbi állapotot üres nagyításnak nevezzük.
A fény hullámhossza lerövidül, amikor sűrű közegben terjed. A lehető legkisebb részletek felbontása érdekében az immersziós objektívek finomabb részletek által megtört fényt képesek összegyűjteni, mint a levegőben lévő objektívek. Az N.A.-t megszorozzuk a közeg törésmutatójával, és 1,4-es N.A.-val lehet dolgozni. A legjobb optikai mikroszkópokban akár 0,4 μm-es térbeli frekvenciájú struktúrák is megfigyelhetők. Megjegyzendő, hogy a Leeuwenhoek által készített egyes lencsékről kimutatták, hogy csak 0,7 μm vastagságú fibrillákat képesek felbontani.