Objektivet samlar in ett antal strålar från varje objektpunkt och avbildar strålknippet vid okularets främre fokalplan. De konventionella reglerna för strålspårning gäller för bildbildningen. I avsaknad av aberration bildar de geometriska strålarna en punktbild av varje objektpunkt. I närvaro av aberrationer representeras varje objektpunkt av en otydlig punkt. Okularet är konstruerat för att avbilda strålarna till en brännpunkt på ett lämpligt avstånd för att betrakta bilden. I detta system bestäms bildens ljusstyrka av storleken på linsernas öppningar och av öppningen av ögats pupill. Objektivets brännvidd och resulterande förstoring bör väljas för att uppnå den önskade upplösningen av objektet vid en storlek som är lämplig för betraktande genom okularet. Bildbildning i mikroskopet kompliceras av diffraktion och interferens som sker i bildsystemet och av kravet att använda en ljuskälla som avbildas i fokalplanet.
Den moderna teorin om bildbildning i mikroskopet grundades 1873 av den tyske fysikern Ernst Abbe. Utgångspunkten för Abbes teori är att föremålen i mikroskopets fokalplan belyses av konvergerande ljus från en kondensor. Det konvergerande ljuset från källan kan betraktas som en samling av många plana vågor som utbreder sig i en bestämd uppsättning riktningar och överlagras för att bilda den infallande belysningen. Var och en av dessa effektiva plana vågor diffrakteras av detaljerna i objektplanet: ju mindre detaljstruktur objektet har, desto större diffraktionsvinkel.
Objektets struktur kan representeras som en summa av sinusformade komponenter. Snabbheten i komponenternas variation i rummet definieras av perioden för varje komponent, eller avståndet mellan intilliggande toppar i den sinusformade funktionen. Den rumsliga frekvensen är den reciproka delen av perioden. Ju finare detaljerna är, desto högre krävs den spatiala frekvensen för de komponenter som representerar objektets detaljer. Varje rumsfrekvenskomponent producerar diffraktion i en specifik vinkel som beror på ljusets våglängd. Som exempel kan nämnas att rumsfrekvenskomponenter med en period på 1 μm skulle ha en rumsfrekvens på 1 000 linjer per millimeter. Diffraktionsvinkeln för en sådan komponent för synligt ljus med en våglängd på 550 nanometer (nm; 1 nanometer är 10-9 meter) är 33,6°. Mikroskopobjektivet samlar in dessa diffrakterade vågor och riktar dem till ett bildplan, där interferensen mellan de diffrakterade vågorna ger en bild av objektet.
Objektivets öppning är begränsad, vilket innebär att alla diffrakterade vågor från objektet inte kan överföras av objektivet. Abbe visade att ju fler diffrakterade vågor som når objektivet, desto finare detaljer kan rekonstrueras i bilden. Han benämnde termen numerisk apertur (N.A.) som ett mått på objektivets förmåga att samla in diffrakterat ljus och därmed också på dess förmåga att upplösa detaljer. På grundval av detta är det uppenbart att ju större objektivets förstoring är, desto större måste objektivets N.A. vara. Den största N.A. som teoretiskt är möjlig i luft är 1,0, men begränsningar i den optiska konstruktionen begränsar den N.A. som kan uppnås till cirka 0,95 för torra objektiv.
För exemplet ovan med ett prov med en spatial frekvens på 1 000 linjer per millimeter skulle den N.A. som krävs för att samla in det diffrakterade ljuset vara 0,55. Således måste ett objektiv med 0,55 N.A. eller mer användas för att observera och samla in användbara data från ett objekt med detaljer med 1 μm mellanrum. Om objektivet har en lägre N.A. kommer objektets detaljer inte att upplösas. Försök att förstora bilddetaljerna med hjälp av ett högkraftigt okular kommer inte att ge någon ökning av upplösningen. Detta senare tillstånd kallas tom förstoring.
Ljusets våglängd förkortas när det fortplantar sig genom ett tätt medium. För att lösa upp minsta möjliga detaljer kan immersionsobjektiv samla in ljus som diffrakteras av finare detaljer än vad objektiv i luft kan göra. N.A. multipliceras med mediets brytningsindex, och det är möjligt att arbeta med N.A. på 1,4. I de bästa optiska mikroskopen kan strukturer med en rumslig frekvens så liten som 0,4 μm observeras. Observera att de enskilda linser som Leeuwenhoek tillverkade har visat sig kunna upplösa fibriller med en tjocklek på endast 0,7 μm.