2. Das digitale Bild


"Bild" ist ein wesentlicher Begriff in der Bildverarbeitung. "Bild" ist aber auch ein Begriff aus der Umgangssprache. In diesem Kapitel wird erläutert, welche Eigenschaften von Bildern im Sinne der Bildverarbeitung wichtig sind, und der Begriff "Digitales Bild" wird definiert.


Dimension


In den meisten Fällen werden bei Prüfaufgaben in der Industrie zweidimensionale Bilder (2D-Bilder) verwendet. Es kommt aber auch vor, daß nur eine einzige Bildzeile zur Bildauswertung ausgenutzt oder sogar nur eine einzige Zeile aufgenommen wird. In diesen Fällen kann man von einem "eindimensionalen" Bild (1D-Bild) sprechen. Es kann auch "mehrdimensionale" Bilder (>3D-Bilder) geben. Beispielsweise ist es bei der Erdfernerkundung üblich, eine bestimmte Region gleichzeitig in mehreren verschiedenen Spektralbereichen aufzunehmen. Jedem Bildpunkt können dann mehrere Helligkeitswerte zugeordnet werden. Die zugehörige Bildinformation kann man dann nicht mehr ohne weiteres so darstellen, daß für den menschlichen Betrachter ein sinnvolles "Bild" entsteht. Schon ein Farbbild ist in diesem Sinne mehrdimensional, weil jedem Bildpunkt drei Helligkeitswerte, in der Regel für die Basisfarben Rot, Grün und Blau, zugeordnet sind. In der Bildverarbeitung zerlegt man solche Multispektralbilder dann entsprechend den Farb- oder Spektralkanälen in mehrere, jeweils zweidimensionale Teilbilder, die sog. Farb- oder Spektralauszüge, und wendet die Methoden der "normalen" Bildverarbeitung auf diese Teilbilder an. Die Schwierigeit besteht dann darin, die eventuell vorhandenen Korrelationen zwischen den Teilbildern festzustellen und in die Bildauswertung einzubeziehen. Auch eine Folge von 2D-Bildern in der Zeit, z.B. einen Videofilm, kann man als mehrdimensionales Bild auffassen.

Die Bilder, mit denen sich die industrielle Bildverarbeitung befaßt, können also beliebige Dimension haben, es dominieren jedoch 2D-Bilder. Lediglich die 0D-Bilder finden in der Bildverarbeitung sehr wenig Beachtung.


Diskretisierung



In der digitalen Bildverarbeitung sind Bilder diskretisiert und digitalisiert. Diskretisierung bedeutet, daß die Bildfläche in Regionen eingeteilt ist, die sog. "Pixel". "Pixel" ist eine eigenwillige Abkürzung für den englischen Ausdruck "picture element". Diese Bildpixel kommen durch das Aufnahmeverfahren zustande. Die Bildaufnehmer in konventionellen Kameras bestehen aus einer regelmäßigen Anordnung von diskreten, lichtempfindlichen Bereichen, die einzeln ausgelesen werden können. Die Detektorelemente sind normalerweise rechteckig und in einer Rechteckmatrix angeordnet. Das Signal, das am Ausgang eines einzelnen Detektorelements zur Verfügung steht, repräsentiert das Integral über die Lichtenergie, die in einem technisch vorgegebenen Zeitraum auf dieses Element eingefallen ist. Falls die einfallende Strahlung räumlich nicht gleichmäßig über das Detektorpixel verteilt ist, geht diese Information bei der Bildaufnahme verloren - das Detektorelement mittelt räumlich über die Fläche des Elements. Das Ausgangssignal des Detektorelements repräsentiert also lediglich eine mittlere Bildhelligkeit in der Bildregion, die dieses Element überdeckt. Wenn man die Signale von allen Detektorpixeln betrachtet, kann man die an sich kontinuierliche Helligkeitsverteilung über der Gesamtfläche also lediglich mosaikartig durch Mittelwerte in den jeweiligen Pixeln annähern. Alternativ kann man sich vorstellen, im Mittelpunkt jedes Pixels sei ein dünner Holzstab montiert, dessen Höhe der mittleren Helligkeit in diesem Pixel proportional ist, und über dieses "Nagelbrett" sei ein Gummituch gespannt. Die entstehende Fläche ist dann eine Näherung der tatsächlichen Helligkeitsverteilung. Diese Methode der Approximation einer kontinuierlichen Funktion durch Mittelwerte an diskreten Punkten, den "Stützstellen", wird als "Diskretisierung" bezeichnet. Das ist keine Erfindung der Bildverarbeitung, sondern ein Standardverfahren der numerischen Mathematik: Jede Funktion, die man numerisch auf einem Rechner behandeln will, muß durch Funktionswerte an Stützstellen angenähert werden, damit man sie überhaupt mit einer endlichen Zahl von Werten in einem Rechnerspeicher ablegen kann.

Bei einem digitalen Bild stellen Sie sich am besten vor, daß durch die Diskretisierung der Helligkeitswert eines Pixels dem Schnittpunkt der Diagonalen des Pixels (dem "Mittelpunkt") zugeordnet ist. Das durch die Aufnahme in Mosaiksteinchen zerlegte Bild wird auf diese Weise also in ein Punktraster umgesetzt. Das Bild wird auch so in einem Rechner abgespeichert: Jeder Stützstelle, also jedem "Mittelpunkt" eines Pixels, entspricht eine Speicheradresse, an der der zugehörige Helligkeitswert abgelegt ist. Bei der Darstellung des Bildes auf einem Monitor setzt man das Punktraster umgekehrt wieder in ein Mosaikmuster um, damit ein flächiger Bildeindruck entsteht, den man als Mensch besser interpretieren kann als ein Nagelbrett.

Grundsätzlich ist es möglich, die Diskretisierung der Ebene, die durch die Geometrie des Bildaufnehmers vorgegeben wurde, rechnerisch zu verändern. Beispielsweise kann man je vier in einem Quadrat angeordnete Pixel zu einem Pixel zusammenfassen. Umgekehrt kann man das aus vier Pixeln gebildete Quadrat in sechzehn quadratische Pixel aufteilen und sich überlegen, welche Grauwerte man den zusätzlich "eingeschobenen" Pixeln sinnvollerweise zuordnen kann, z.B. durch Interpolation der Grauwerte ursprünglich nebeneinander liegender Pixel. Solche Verfahren werden tatsächlich eingesetzt und führen dann zu Bildern mit "höherer Auflösung", als es durch die Geometrie des Bildaufnehmers eigentlich möglich ist. Vom Standpunkt der Bildverarbeitung aus muß man sich darüber im Klaren sein, daß dabei bereits ein Bildverarbeitungsschritt durchgeführt wird. Wohlwollend betrachtet, handelt es sich dabei um eine Bildverbesserung. Es wird aber dadurch keine Information gewonnen, die nicht auch schon im ursprünglichen Bild mit der "schlechteren" Auflösung enthalten ist. Die Helligkeitsverteilung, die möglicherweise über einem Pixel vorhanden war und bei der Mittelung über die Pixelfläche verloren gegangen ist, kann auf diese Weise nicht rekonstruiert werden - und auch nicht auf irgendeine andere Weise. Information, die an der Signalquelle verloren geht, ist und bleibt verloren und kann auch mit den besten Algorithmen nicht rekonstruiert werden.


Framegrabber


Ein ähnliches Problem kann auftreten, wenn die Ortsinformation aus dem Bildaufnehmer in ein Analogsignal in der Zeit umgesetzt, dieses Signal übertragen und anschließend in der Zeit diskretisiert wird. In der digitalen Bildverarbeitung ist dies sehr häufig der Fall, weil in Standardkameras die einzelnen Pixel des Bildaufnehmers sequentiell ausgelesen werden und die Helligkeitsinformationen Pixel für Pixel hintereinander in eine Spannung umgesetzt werden, so daß die Lage eines Pixels im Bild als zeitlicher Abstand zu einem "Bildanfangssignal", dem vertikalen Synchronisationsimpuls, im Videosignal codiert ist. In einem "Framegrabber" oder "Digitizer" wird dem einlaufenden, kontinuierlichen Videosignal dann die Information über die Lage eines Bildpixels dadurch entnommen, daß in regelmäßigen Zeitabständen der Spannungswert aus dem Videosignal ausgelesen ("gegrabbt") wird. Wenn der Framegrabber so eingestellt wird, daß er in jeder Zeile des Videosignals tausendmal einen Spannungswert abgreift, obwohl der Bildaufnehmer in jeder Zeile nur 500 Pixel enthält, werden im Rechnerspeicher für jede Zeile 1000 Spannungswerte abgelegt, und bei der Darstellung des "Bildes" entstehen 1000 Pixel pro Zeile, obwohl ursprünglich nur 500 Pixel aufgenommen wurden. Umgekehrt können auf diese Weise aus 1000 Pixeln an der Quelle 500 Pixel im Rechner werden, und es wird Information weggeworfen. Es ist also wichtig, das Signal an der Quelle zu optimieren und den Signalpfad bis zur Abspeicherung der Bildinformation im Rechner an den Bildaufnehmer anzupassen.


Digitalisierung


Der Helligkeitswert, der jedem Pixel zugeordnet werden kann, ist bei den verfügbaren Bildaufnehmern zunächst ein Analogwert, nämlich eine Spannung, ein Strom oder letztlich eine Ladung. (Nur in extremen Ausnahmefällen führt die Quantelung der elektrischen Ladung auch zu einer technisch bedeutsamen Quantelung des Signals.) Weil man Analogwerte in Rechnern schlecht speichern und weiterverarbeiten kann, wird der Helligkeitswert eines Pixels digitalisiert. Der Spannungswert, der die Helligkeit repräsentiert, wird dazu in einem Analog-Digital-Wandler mit einer vorgegebenen kleinen, sehr genau bekannten Spannung verglichen, und es wird bestimmt, wie oft die Vergleichsspannung in die vorliegende Spannung "hineinpaßt". Die vorliegende Spannung wird also in Einheiten der Vergleichsspannung gemessen. Nachkommastellen werden bei diesem Verfahren unterdrückt, so daß das Ergebnis der Messung eine ganze Zahl ist. Bei dieser Digitalisierung geht Information verloren, denn ein ganzes Spannungsintervall wird jeweils auf ein und dieselbe ganze Zahl abgebildet. Die ganze Zahl, die als Ergebnis des Digitalisierungsprozesses den Helligkeitswert des Pixels repräsentiert, bezeichnet man in der Bildverarbeitung als Grauwert. Üblich ist eine Unterteilung des möglichen Spannungsbereichs in 256 Stufen. Man spricht dann von einer "8 bit tiefen" Digitalisierung oder einer "8 bit tiefen Grauwertdarstellung". Wenn der mögliche Spannungsbereich z.B. von 0 V bis 10,24 V reicht, ist bei einer 8 bit-AD-Wandlung das kleinste noch auflösbarre Spannungsintervall gerade 40 mV. Eine Spannung von 20 mV würde also dem AD-Wert 0 zugeordnet, eine Spannung von 41 mV dem AD-Wert 1, eine Spannung von 79 mV ebenfalls dem AD-Wert 1 usw. bis zur Spannung 10,21 V, die dem AD-Wert 255 zugeordnet würde, ebenso wie die Spannungen 10,22 V, 10,23 V usw. Bei einer Digitalisierung des Bildsignals in 256 Stufen kommen also nur die Grauwerte von 0 bis 255 vor. Wenn Sie ein C-Programm schreiben und einen entsprechenden Vektor mit 256 Komponenten vorsehen, denken Sie unbedingt daran, das Element mit der Nummer 256 nicht zu adressieren - es gehört nämlich nicht mehr zum reservierten Speicherbereich!


Digitizer


Auch die Digitalisierung passiert im "Framegrabber", der deshalb gelegentlich auch als "Digitizer" bezeichnet wird, und ist keineswegs trivial. Gute und schlechte Framegrabber unterscheiden sich unter anderem durch die Qualität ihres AD-Wandlers, z.B. in puncto Linearität und Rauschen. Sehr kostengünstige Framegrabber, die beispielsweise zum Digitalisieren von Videobildern für Multimediaanwendungen benutzt werden, sind oft für die industrielle Bildverarbeitung nicht geeignet. Wenn man lediglich ein Videobild in einem kleinen Fenster auf einem Rechnerbildschirm betrachten will, spielt das Rauschen des AD-Wandlers eine untergeordnete Rolle. Durch schlechte Digitalisierung können aber Details, die für die quantitative Bildauswertung wesentlich sind, verloren gehen.

Es ist durchaus üblich, Bildsignale auch tiefer als 8 bit zu digitalisieren. Beispielsweise werden in der medizinischen Bildverarbeitung, in der Drucktechnik und in Scannern 12 bit Digitalisierungstiefe benutzt, also eine Unterteilung des Bildsignals in 4096 Stufen. Der Speicherbedarf steigt dadurch selbstverständlich signifikant an. Die "Auflösung" von 24 bit, die häufig bei digitalen Farbbildern angegeben wird, bezieht sich allerdings nicht auf eine Digitalisierungstiefe von 24 bit (das wären immerhin etwa 16,7 Millionen Stufen), sondern darauf, daß 3 Farbkanäale (RGB) jeweils 8 bit tief digitalisiert sind - und 3x8 ergibt schließlich auch 24. Erst die Zahl der möglichen Kombinationen dieser drei, jeweils mit 256 Helligkeitswerten belegten Farbkänale zu RGB-Farbtripeln und damit zu (jedenfalls rechnerisch) 256³ = 16,8 Millionen verschiedenen darstellbaren Farbnuancen führt zu dem werbewirksamen Attribut "Echtfarbendarstellung", womit gerade diese 16 Millionen Farbnuancen gemeint sind.


Koordinaten

Die sogenannten "digitalen Bilder" sind also in der Fläche diskretisiert und in Bezug auf den Grauwert digitalisiert. Typische Bildformate in Bezug auf die Diskretisierung liegen in der Größenordnung von 800 x 600 Pixeln. Üblich sind z.B. 646 x 485 Pixel, 752 x 582 Pixel, 1024 x 768 Pixel und diverse andere Auflösungen. Für sehr spezielle Anwendungen sind "Megapixelchips" erhältlich, z.B. mit 3000 x 3000 Pixeln. Der Speicherbedarf eines Grauwertbildes mit 800 x 600 Pixeln und 8 bit tiefer Grauwertauflösung beträgt 480 000 byte, also etwa 0,5 Mbyte. Ein Farbbild belegt  gleich den dreifachen Speicherplatz, und eine Verdoppelung der Ortsauflösung in beiden Achsenrichtungen führt zu einer Vervierfachung des Speicherbedarfs. Digitale Bildverarbeitung stellt also hohe Anforderungen an die verwendeten Speichereinheiten und an die Datenübertragung.

Anders als in der Mathematik üblich, wird in der Bildverarbeitung in der diskreten Ebene ein Koordinatensystem benutzt, bei dem der Ursprungspunkt im linken oberen Pixel eines Bildes liegt. Die x-Achse verläuft von links nach rechts, die y-Achse aber von oben nach unten. Das linke obere Pixel hat die Koordinaten (0,0). Diese Konvention geht darauf zurück, daß "schon immer" die Bilder, die mit Kameras aufgenommen wurden, zeilenweise von links nach rechts und von oben nach unten abgetastet wurden. Der erste Grauwert, der von einem Framegrabber bei der Digitalisierung eines Bildsignal geliefert wird, ist also der Grauwert der linken oberen Ecke des Bildes. Dieser Grauwert wird dann auch an erster Stelle in den Datenspeicher geschrieben, die übrigen Grauwerte werden einfach linear und ohne Pause entsprechend der Reihenfolge beim Auslesen im Speicher abgelegt. Die Speicherorganisation bildet also keineswegs die Zeilen- und Spaltenstruktur des Bildes nach, sondern legt die Grauwerte im Prinzip einfach als Kette in den Speicher. Zur Rekonstruktion des Bildes muß man also wissen, aus wie vielen Zeilen ein Bild oder aus wie vielen Pixeln eine Zeile besteht - den Rest kann man dann ausrechnen. Bei Standard-Bildformaten ist unter anderem diese Information im Kopf des Datenfiles abgelegt. Beim Programmieren ist es deshalb sinnvoll, mit dem Auslesen aus dem Speicher am Anfangspunkt der Kette, also mit dem linken oberen Eckpunkt des Bildes zu beginnen und nicht bei dem in der Mathematik üblichen linken unteren Eckpunkt, dessen Lage im Datenwurm man sich erst ausrechnen müßte. Die auf den ersten Blick unkonventionelle Koordinatenkonvention der Bildverarbeitung hat also einen sehr praktischen Hintergrund.



Digitales Bild


Ein "digitales Bild" hat zwar durchaus noch etwas mit dem zu tun, was man sich anschaulich unter einem "Bild" vorstellt. Auf dem Weg vom Bildaufnehmer zum Bildspeicher wird die Helligkeitsverteilung auf der Bildaufnehmerfläche aber diskretisiert, also in ein "Punktmuster" umgesetzt, und außerdem digitalisiert. Was dann übrigbleibt, kann man formal so definieren:

Ein digitales Bild I ist eine Menge von Punkten (x,y) in der Ebene, denen jeweils ein Grauwert g(x,y) zugeordnet ist.

Der Definitionsbereich der Funktion g(x,y) ist beschränkt, z.B. auf die Menge der Punkte (x,y) mit x Î [0 ... 1023], y Î [0 ... 767]. Der Wertebereich der Funktion g(x,y)  ist ebenfalls beschränkt, z.B. auf g Î [0 ... 255].


Das komplexe Strahlungsfeld an der Oberfläche des Bildaufnehmers wird am Ende also lediglich durch einige ganzzahlige Werte in einem linearen Rechnerspeicher repräsentiert. Es ist manchmal hilfreich, sich diese dramatische Reduktion vor Augen zu führen, wenn man vor einem schier unlösbaren Bildverarbeitungsproblem verzweifelt, obwohl man die Merkmale im Bild doch mit bloßem Auge sofort erkennt.



T 1.0  April 2001    FH Darmstadt FBMN Studiengang OBV      Bildverarbeitung I    © Prof. Dr. Heckenkamp 2001