Objektiv shromažďuje vějíř paprsků z každého předmětového bodu a zobrazuje svazek paprsků v přední ohniskové rovině okuláru. Pro tvorbu obrazu platí běžná pravidla pro sledování paprsků. Při absenci aberace tvoří geometrické paprsky bodový obraz každého předmětového bodu. V případě přítomnosti aberace je každý předmětový bod reprezentován nezřetelným bodem. Okulár je navržen tak, aby zobrazoval paprsky do ohniska ve vhodné vzdálenosti pro prohlížení obrazu. V této soustavě je jas obrazu určen velikostí clon objektivů a aperturou oční zornice. Ohnisková vzdálenost a výsledné zvětšení objektivu by měly být zvoleny tak, aby se dosáhlo požadovaného rozlišení předmětu při velikosti vhodné pro pozorování okulárem. Tvorba obrazu v mikroskopu je komplikována difrakcí a interferencí, které probíhají v zobrazovacím systému, a požadavkem na použití zdroje světla, který je zobrazován v ohniskové rovině.
Moderní teorii vzniku obrazu v mikroskopu založil v roce 1873 německý fyzik Ernst Abbe. Výchozím bodem Abbeho teorie je, že objekty v ohniskové rovině mikroskopu jsou osvětlovány sbíhavým světlem z kondenzoru. Sbíhavé světlo ze zdroje lze považovat za soubor mnoha rovinných vln šířících se v určitém souboru směrů, které se překrývají a tvoří dopadající osvětlení. Každá z těchto efektivních rovinných vln je difraktována detaily v rovině předmětu: čím menší je detailní struktura předmětu, tím větší je úhel difrakce.
Strukturu předmětu lze reprezentovat jako součet sinusových složek. Rychlost změny složek v prostoru je definována periodou každé složky nebo vzdáleností mezi sousedními vrcholy v sinusové funkci. Prostorová frekvence je reciproká hodnota periody. Čím jemnější jsou detaily, tím vyšší je požadovaná prostorová frekvence složek, které reprezentují detail objektu. Každá složka prostorové frekvence vytváří difrakci pod určitým úhlem závislým na vlnové délce světla. Například složky prostorové frekvence s periodou 1 μm by měly prostorovou frekvenci 1 000 čar na milimetr. Difrakční úhel takové složky pro viditelné světlo o vlnové délce 550 nanometrů (nm; 1 nanometr je 10-9 metru) bude 33,6°. Objektiv mikroskopu tyto difraktované vlny shromažďuje a směřuje je do obrazové roviny, kde interference mezi difraktovanými vlnami vytváří obraz objektu.
Protože je apertura objektivu omezená, ne všechny difraktované vlny z objektu mohou být objektivem přeneseny. Abbe ukázal, že čím větší počet difraktovaných vln dosáhne objektivu, tím jemnější detaily lze v obraze rekonstruovat. Označil termín numerická apertura (N.A.) jako míru schopnosti objektivu zachytit difraktované světlo, a tím i jeho schopnosti rozlišit detail. Na tomto základě je zřejmé, že čím větší je zvětšení objektivu, tím větší je požadovaná N.A. objektivu. Největší teoreticky možné N.A. ve vzduchu je 1,0, ale omezení optické konstrukce omezují N.A., kterého lze dosáhnout, na přibližně 0,95 u suchých objektivů.
Pro výše uvedený příklad vzorku s prostorovou frekvencí 1 000 čar na milimetr by požadované N.A. pro zachycení difraktovaného světla bylo 0,55. Pro pozorování a sběr užitečných dat z objektu s detaily vzdálenými od sebe 1 μm je tedy nutné použít objektiv s N.A. 0,55 nebo větší. Pokud má objektiv nižší N.A., detaily objektu nebudou rozlišeny. Pokusy o zvětšení detailů obrazu pomocí výkonného okuláru nepřinesou žádné zvýšení rozlišení. Tento druhý stav se nazývá zvětšení naprázdno.
Vlnová délka světla se zkracuje, když se šíří hustým prostředím. Aby bylo možné rozlišit co nejmenší detaily, jsou imerzní objektivy schopny zachytit světlo difraktované jemnějšími detaily než objektivy ve vzduchu. N.A. se násobí indexem lomu média a je možné dosáhnout pracovní N.A. 1,4. V nejlepších optických mikroskopech lze pozorovat struktury s prostorovou frekvencí až 0,4 μm. Všimněte si, že bylo prokázáno, že jednotlivé čočky vyrobené Leeuwenhoekem jsou schopny rozlišit fibrily o tloušťce pouze 0,7 μm.
.