Das Objektiv sammelt von jedem Objektpunkt einen Strahlenfächer und bildet das Strahlenbündel in der vorderen Brennebene des Okulars ab. Für die Bildentstehung gelten die üblichen Regeln der Strahlenverfolgung. Bei Abwesenheit von Abbildungsfehlern bilden die geometrischen Strahlen ein Punktbild jedes Objektpunkts. Bei Vorhandensein von Aberrationen wird jeder Objektpunkt durch einen unscharfen Punkt dargestellt. Das Okular ist so konstruiert, dass die Strahlen in einem Brennpunkt abgebildet werden, der sich in einem für die Betrachtung des Bildes günstigen Abstand befindet. Bei diesem System wird die Helligkeit des Bildes durch die Größe der Linsenöffnungen und durch die Öffnung der Augenpupille bestimmt. Die Brennweite und die daraus resultierende Vergrößerung des Objektivs sollten so gewählt werden, dass die gewünschte Auflösung des Objekts in einer für die Betrachtung durch das Okular geeigneten Größe erreicht wird. Die Bildentstehung im Mikroskop wird durch Beugung und Interferenz erschwert, die im Abbildungssystem auftreten, sowie durch die Notwendigkeit, eine Lichtquelle zu verwenden, die in der Brennebene abgebildet wird.
Die moderne Theorie der Bilderzeugung im Mikroskop wurde 1873 von dem deutschen Physiker Ernst Abbe begründet. Ausgangspunkt der Abbe’schen Theorie ist, dass Objekte in der Brennebene des Mikroskops durch konvergentes Licht aus einem Kondensor beleuchtet werden. Das konvergente Licht aus der Quelle kann als eine Ansammlung von vielen ebenen Wellen betrachtet werden, die sich in eine bestimmte Richtung ausbreiten und sich überlagern, um die auftreffende Beleuchtung zu bilden. Jede dieser effektiven ebenen Wellen wird von den Details in der Objektebene gebeugt: Je kleiner die Detailstruktur des Objekts ist, desto größer ist der Beugungswinkel.
Die Struktur des Objekts kann als Summe sinusförmiger Komponenten dargestellt werden. Die Geschwindigkeit der räumlichen Veränderung der Komponenten wird durch die Periode jeder Komponente oder den Abstand zwischen benachbarten Spitzen in der Sinusfunktion definiert. Die Ortsfrequenz ist der Kehrwert der Periode. Je feiner die Details sind, desto höher ist die erforderliche Ortsfrequenz der Komponenten, die die Objektdetails darstellen. Jede Ortsfrequenzkomponente erzeugt eine Beugung in einem bestimmten Winkel, der von der Wellenlänge des Lichts abhängt. Ein Beispiel: Ortsfrequenzkomponenten mit einer Periode von 1 μm hätten eine Ortsfrequenz von 1.000 Linien pro Millimeter. Der Beugungswinkel einer solchen Komponente für sichtbares Licht mit einer Wellenlänge von 550 Nanometern (nm; 1 Nanometer ist 10-9 Meter) beträgt 33,6°. Das Mikroskopobjektiv sammelt diese gebeugten Wellen und leitet sie auf eine Bildebene, wo die Interferenz zwischen den gebeugten Wellen ein Bild des Objekts erzeugt.
Da die Öffnung des Objektivs begrenzt ist, können nicht alle gebeugten Wellen des Objekts durch das Objektiv übertragen werden. Abbe zeigte, dass je mehr gebeugte Wellen das Objektiv erreichen, desto feinere Details können im Bild rekonstruiert werden. Er bezeichnete den Begriff der numerischen Apertur (N.A.) als Maß für die Fähigkeit des Objektivs, gebeugtes Licht zu sammeln, und damit auch für seine Fähigkeit, Details aufzulösen. Auf dieser Grundlage ist es offensichtlich, dass die erforderliche numerische Apertur des Objektivs umso größer ist, je größer die Vergrößerung des Objektivs ist. Die größte theoretisch mögliche N.A. in Luft ist 1,0, aber optische Konstruktionsbeschränkungen begrenzen die N.A., die bei Trockenobjektiven erreicht werden kann, auf etwa 0,95.
Für das obige Beispiel einer Probe mit einer Ortsfrequenz von 1.000 Linien pro Millimeter wäre die erforderliche N.A., um das gebeugte Licht zu sammeln, 0,55. Es muss also ein Objektiv mit einer N.A. von 0,55 oder mehr verwendet werden, um ein Objekt mit Details im Abstand von 1 μm zu beobachten und nützliche Daten zu sammeln. Wenn das Objektiv eine geringere N.A. hat, können die Details des Objekts nicht aufgelöst werden. Der Versuch, den Bildausschnitt durch Verwendung eines lichtstarken Okulars zu vergrößern, führt zu keiner Erhöhung der Auflösung. Dieser letzte Zustand wird als leere Vergrößerung bezeichnet.
Die Wellenlänge des Lichts wird verkürzt, wenn es sich durch ein dichtes Medium ausbreitet. Um möglichst kleine Details aufzulösen, können Immersionsobjektive Licht sammeln, das von feineren Details gebeugt wird als Objektive in Luft. Der N.A. wird mit dem Brechungsindex des Mediums multipliziert, und es sind Arbeits-N.A.’s von 1,4 möglich. In den besten optischen Mikroskopen können Strukturen mit einer Ortsfrequenz von nur 0,4 μm beobachtet werden. Es sei darauf hingewiesen, dass die von Leeuwenhoek hergestellten Einzellinsen nachweislich in der Lage sind, Fibrillen mit einer Dicke von nur 0,7 μm aufzulösen.