Objektivet opsamler en vifte af stråler fra hvert objektpunkt og afbilder strålebunken i okularets forreste brændflade. De konventionelle regler for strålesporing gælder for billeddannelsen. I fravær af aberration danner de geometriske stråler et punktbillede af hvert objektpunkt. I tilfælde af aberrationer repræsenteres hvert objektpunkt af et utydeligt punkt. Okularet er konstrueret til at afbilde strålerne til et brændpunkt i en afstand, der er passende til at se billedet. I dette system bestemmes billedets lysstyrke af størrelsen af linsernes blændeåbninger og af øjets pupilåbning. Objektivets brændvidde og den deraf følgende forstørrelse bør vælges således, at den ønskede opløsning af objektet opnås i en størrelse, der er bekvem at se gennem okularet. Billeddannelse i mikroskopet kompliceres af diffraktion og interferens, der finder sted i billeddannelsessystemet, og af kravet om at anvende en lyskilde, der afbildes i brændpunktsplanet.
Den moderne teori om billeddannelse i mikroskopet blev grundlagt i 1873 af den tyske fysiker Ernst Abbe. Udgangspunktet for Abbe-teorien er, at objekter i mikroskopets brændflade belyses af konvergerende lys fra en kondensator. Det konvergerende lys fra kilden kan betragtes som en samling af mange plane bølger, der udbreder sig i et bestemt sæt af retninger og overlejres for at danne den indfaldende belysning. Hver af disse effektive plane bølger diffrakteres af detaljerne i objektplanet: jo mindre objektets detaljerede struktur er, jo større er diffraktionsvinklen.
Objektets struktur kan repræsenteres som en sum af sinusformede komponenter. Hastigheden af komponenternes variation i rummet defineres af perioden for hver komponent eller afstanden mellem tilstødende toppe i den sinusformede funktion. Den rumlige frekvens er den reciprokke af perioden. Jo finere detaljerne er, jo højere er den nødvendige rumfrekvens for de komponenter, der repræsenterer objektdetaljerne. Hver rumfrekvenskomponent giver diffraktion i en bestemt vinkel, som afhænger af lysets bølgelængde. Som eksempel kan nævnes, at rumfrekvenskomponenter med en periode på 1 μm vil have en rumfrekvens på 1 000 linjer pr. millimeter. Diffraktionsvinklen for en sådan komponent for synligt lys med en bølgelængde på 550 nanometer (nm; 1 nanometer er 10-9 meter) vil være 33,6°. Mikroskopobjektivet opsamler disse diffrakterede bølger og leder dem til et billedplan, hvor interferens mellem de diffrakterede bølger giver et billede af objektet.
Da objektivets åbning er begrænset, er det ikke alle de diffrakterede bølger fra objektet, der kan transmitteres af objektivet. Abbe viste, at jo større antal diffrakterede bølger, der når frem til objektivet, jo finere detaljer kan rekonstrueres i billedet. Han betegnede begrebet numerisk apertur (N.A.) som et mål for objektivets evne til at opsamle diffrakteret lys og dermed også for dets evne til at opløse detaljer. På dette grundlag er det indlysende, at jo større objektivets forstørrelse er, jo større skal objektivets N.A. være. Den største N.A., der teoretisk set er mulig i luft, er 1,0, men begrænsninger i den optiske konstruktion begrænser den N.A., der kan opnås, til omkring 0,95 for tørre objektiver.
For ovenstående eksempel med en prøve med en rumfrekvens på 1 000 linjer pr. millimeter vil den N.A., der kræves for at opsamle det diffrakterede lys, være 0,55. Der skal således anvendes et objektiv med en N.A. på 0,55 N.A. eller derover for at observere og indsamle nyttige data fra et objekt med detaljer med en afstand på 1 μm mellemrum. Hvis objektivet har en lavere N.A., vil objektets detaljer ikke blive opløst. Forsøg på at forstørre billeddetaljerne ved hjælp af et kraftigere okular vil ikke give nogen forøgelse af opløsningen. Sidstnævnte tilstand kaldes tom forstørrelse.
Lysets bølgelængde forkortes, når det udbreder sig gennem et tæt medie. For at kunne opløse de mindste mulige detaljer er immersionsobjektiver i stand til at opsamle lys, der er diffrakteret af finere detaljer, end objektiver i luft kan. N.A. multipliceres med mediets brydningsindeks, og arbejds-N.A.’er på 1,4 er mulige. I de bedste optiske mikroskoper kan man observere strukturer med en rumlig frekvens på helt ned til 0,4 μm. Bemærk, at de enkelte linser fremstillet af Leeuwenhoek har vist sig at være i stand til at opløse fibriller med en tykkelse på kun 0,7 μm.