Het objectief verzamelt een waaier van stralen uit elk objectpunt en beeldt de stralenbundel af op het voorste brandvlak van het oculair. De conventionele regels van ray tracing zijn van toepassing op de beeldvorming. Bij afwezigheid van aberratie vormen de geometrische stralen een puntbeeld van elk objectpunt. In aanwezigheid van aberraties wordt elk objectpunt voorgesteld door een onduidelijk punt. Het oculair is ontworpen om de stralen af te beelden naar een brandpunt op een geschikte afstand om het beeld te bekijken. In dit systeem wordt de helderheid van het beeld bepaald door de grootte van de diafragma’s van de lenzen en door de opening van de pupil van het oog. De brandpuntsafstand en de daaruit voortvloeiende vergroting van het objectief moeten zo worden gekozen dat de gewenste resolutie van het object wordt bereikt op een grootte die geschikt is om door het oculair te worden bekeken. De beeldvorming in de microscoop wordt bemoeilijkt door diffractie en interferentie die in het beeldvormingssysteem plaatsvinden en door de eis een lichtbron te gebruiken die in het brandvlak wordt belicht.
De moderne theorie van de beeldvorming in de microscoop werd in 1873 door de Duitse natuurkundige Ernst Abbe opgesteld. Uitgangspunt van de theorie van Abbe is dat voorwerpen in het brandvlak van de microscoop worden belicht door convergent licht van een condensor. Het convergente licht van de bron kan worden beschouwd als een verzameling van vele vlakke golven die zich in een bepaalde reeks richtingen voortplanten en die worden samengevoegd om de invallende verlichting te vormen. Elk van deze effectieve vlakke golven wordt gebroken door de details in het objectvlak: hoe kleiner de detailstructuur van het object, hoe groter de hoek van diffractie.
De structuur van het object kan worden voorgesteld als een som van sinusoïdale componenten. De snelheid van de variatie in de ruimte van de componenten wordt bepaald door de periode van elke component, of de afstand tussen aangrenzende pieken in de sinusoïdale functie. De ruimtelijke frequentie is de reciproke van de periode. Hoe fijner de details, hoe hoger de vereiste ruimtelijke frequentie van de componenten die het objectdetail weergeven. Elke ruimtelijke frequentiecomponent veroorzaakt diffractie onder een specifieke hoek die afhankelijk is van de golflengte van het licht. Ruimtelijke frequentiecomponenten met een periode van 1 μm zouden bijvoorbeeld een ruimtelijke frequentie van 1.000 lijnen per millimeter hebben. De hoek van diffractie voor een dergelijke component voor zichtbaar licht met een golflengte van 550 nanometer (nm; 1 nanometer is 10-9 meter) zal 33,6° bedragen. Het objectief van de microscoop verzamelt deze diffractiegolven en leidt ze naar een beeldvlak, waar interferentie tussen de diffractiegolven een beeld van het object oplevert.
Omdat de opening van het objectief beperkt is, kunnen niet alle diffractiegolven van het object door het objectief worden doorgelaten. Abbe toonde aan dat hoe groter het aantal verstrooide golven is dat het objectief bereikt, hoe fijner het detail is dat in het beeld kan worden gereconstrueerd. Hij noemde de term numerieke apertuur (N.A.) de maatstaf voor het vermogen van het objectief om gebroken licht op te vangen en dus ook voor het vermogen om details op te lossen. Op basis hiervan is het duidelijk dat hoe groter de vergroting van het objectief is, hoe groter de vereiste N.A. van het objectief is. De grootste N.A. die theoretisch mogelijk is in lucht is 1.0, maar de beperkingen van het optische ontwerp beperken de N.A. die kan worden bereikt tot ongeveer 0.95 voor droge objectieven.
Voor het bovenstaande voorbeeld van een specimen met een ruimtelijke frequentie van 1000 lijnen per millimeter, zou de vereiste N.A. om het verstrooide licht op te vangen 0.55 zijn. Er moet dus een objectief met een N.A. van 0,55 of meer worden gebruikt om een voorwerp met details op een afstand van 1 μm waar te nemen en er nuttige gegevens over te verzamelen. Als het objectief een lagere N.A. heeft, zullen de details van het object niet worden opgelost. Pogingen om het beelddetail te vergroten door een oculair met een hoog vermogen te gebruiken, zullen geen toename van de resolutie opleveren. Deze laatste toestand wordt loze vergroting genoemd.
De golflengte van licht wordt verkort wanneer het zich voortplant door een dicht medium. Om de kleinst mogelijke details te kunnen oplossen, zijn immersie-objectieven in staat licht te verzamelen dat door fijnere details wordt gebroken dan objectieven in lucht. De N.A. wordt vermenigvuldigd met de brekingsindex van het medium, en N.A.’s van 1.4 zijn mogelijk. In de beste optische microscopen kunnen structuren met een ruimtelijke frequentie zo klein als 0,4 μm worden waargenomen. Er is aangetoond dat de enkelvoudige lenzen van Leeuwenhoek in staat zijn om fibrillen met een dikte van slechts 0,7 μm op te lossen.