"Bild" ist ein wesentlicher Begriff in der Bildverarbeitung.
"Bild" ist aber auch ein Begriff aus der Umgangssprache. In diesem
Kapitel wird erläutert, welche Eigenschaften von Bildern im Sinne der Bildverarbeitung
wichtig sind, und der Begriff "Digitales Bild" wird definiert.
In den meisten Fällen werden bei Prüfaufgaben in der Industrie zweidimensionale
Bilder (2D-Bilder) verwendet. Es kommt aber auch vor, daß nur eine einzige
Bildzeile zur Bildauswertung ausgenutzt oder sogar nur eine einzige Zeile
aufgenommen wird. In diesen Fällen kann man von einem "eindimensionalen"
Bild (1D-Bild) sprechen. Es kann auch "mehrdimensionale" Bilder (>3D-Bilder)
geben. Beispielsweise ist es bei der Erdfernerkundung üblich, eine bestimmte
Region gleichzeitig in mehreren verschiedenen Spektralbereichen aufzunehmen.
Jedem Bildpunkt können dann mehrere Helligkeitswerte zugeordnet werden. Die
zugehörige Bildinformation kann man dann nicht mehr ohne weiteres so darstellen,
daß für den menschlichen Betrachter ein sinnvolles "Bild" entsteht.
Schon ein Farbbild ist in diesem Sinne mehrdimensional, weil jedem Bildpunkt
drei Helligkeitswerte, in der Regel für die Basisfarben Rot, Grün und Blau,
zugeordnet sind. In der Bildverarbeitung zerlegt man solche Multispektralbilder
dann entsprechend den Farb- oder Spektralkanälen in mehrere, jeweils zweidimensionale
Teilbilder, die sog. Farb- oder Spektralauszüge, und wendet die Methoden der
"normalen" Bildverarbeitung auf diese Teilbilder an. Die Schwierigeit
besteht dann darin, die eventuell vorhandenen Korrelationen zwischen den Teilbildern
festzustellen und in die Bildauswertung einzubeziehen. Auch eine Folge von
2D-Bildern in der Zeit, z.B. einen Videofilm, kann man als mehrdimensionales
Bild auffassen.
Die Bilder, mit denen sich die industrielle Bildverarbeitung befaßt, können
also beliebige Dimension haben, es dominieren jedoch 2D-Bilder. Lediglich
die 0D-Bilder finden in der Bildverarbeitung sehr wenig Beachtung.
In der digitalen Bildverarbeitung sind Bilder diskretisiert und
digitalisiert. Diskretisierung bedeutet, daß die Bildfläche in Regionen eingeteilt
ist, die sog. "Pixel". "Pixel" ist
eine eigenwillige Abkürzung für den englischen Ausdruck "picture element".
Diese Bildpixel kommen durch das Aufnahmeverfahren zustande. Die Bildaufnehmer
in konventionellen Kameras bestehen aus einer regelmäßigen Anordnung von diskreten,
lichtempfindlichen Bereichen, die einzeln ausgelesen werden können. Die Detektorelemente sind normalerweise rechteckig und in einer Rechteckmatrix angeordnet.
Das Signal, das am Ausgang eines einzelnen Detektorelements zur Verfügung
steht, repräsentiert das Integral über die Lichtenergie, die in einem technisch
vorgegebenen Zeitraum auf dieses Element eingefallen ist. Falls die einfallende
Strahlung räumlich nicht gleichmäßig über das Detektorpixel verteilt ist,
geht diese Information bei der Bildaufnahme verloren - das Detektorelement
mittelt räumlich über die Fläche des Elements. Das Ausgangssignal des Detektorelements
repräsentiert also lediglich eine mittlere Bildhelligkeit in der Bildregion,
die dieses Element überdeckt. Wenn man die Signale von allen Detektorpixeln
betrachtet, kann man die an sich kontinuierliche Helligkeitsverteilung über
der Gesamtfläche also lediglich mosaikartig durch Mittelwerte in den jeweiligen
Pixeln annähern. Alternativ kann man sich vorstellen, im Mittelpunkt jedes
Pixels sei ein dünner Holzstab montiert, dessen Höhe der mittleren Helligkeit
in diesem Pixel proportional ist, und über dieses "Nagelbrett" sei
ein Gummituch gespannt. Die entstehende Fläche ist dann eine Näherung der
tatsächlichen Helligkeitsverteilung. Diese Methode der Approximation einer
kontinuierlichen Funktion durch Mittelwerte an diskreten Punkten, den "Stützstellen",
wird als "Diskretisierung" bezeichnet. Das ist keine Erfindung der
Bildverarbeitung, sondern ein Standardverfahren der numerischen Mathematik:
Jede Funktion, die man numerisch auf einem Rechner behandeln will, muß durch
Funktionswerte an Stützstellen angenähert werden, damit man sie überhaupt
mit einer endlichen Zahl von Werten in einem Rechnerspeicher ablegen kann.
Bei einem digitalen Bild stellen Sie sich am besten vor, daß durch die Diskretisierung
der Helligkeitswert eines Pixels dem Schnittpunkt der Diagonalen des Pixels
(dem "Mittelpunkt") zugeordnet ist. Das durch die Aufnahme in Mosaiksteinchen
zerlegte Bild wird auf diese Weise also in ein Punktraster umgesetzt. Das
Bild wird auch so in einem Rechner abgespeichert: Jeder Stützstelle, also
jedem "Mittelpunkt" eines Pixels, entspricht eine Speicheradresse,
an der der zugehörige Helligkeitswert abgelegt ist. Bei der Darstellung des
Bildes auf einem Monitor setzt man das Punktraster umgekehrt wieder in ein
Mosaikmuster um, damit ein flächiger Bildeindruck entsteht, den man als Mensch
besser interpretieren kann als ein Nagelbrett.
Grundsätzlich ist es möglich, die Diskretisierung der Ebene, die durch die
Geometrie des Bildaufnehmers vorgegeben wurde, rechnerisch zu verändern. Beispielsweise
kann man je vier in einem Quadrat angeordnete Pixel zu einem Pixel zusammenfassen.
Umgekehrt kann man das aus vier Pixeln gebildete Quadrat in sechzehn quadratische
Pixel aufteilen und sich überlegen, welche Grauwerte man den zusätzlich "eingeschobenen"
Pixeln sinnvollerweise zuordnen kann, z.B. durch Interpolation der Grauwerte
ursprünglich nebeneinander liegender Pixel. Solche Verfahren werden tatsächlich
eingesetzt und führen dann zu Bildern mit "höherer Auflösung", als
es durch die Geometrie des Bildaufnehmers eigentlich möglich ist. Vom Standpunkt
der Bildverarbeitung aus muß man sich darüber im Klaren sein, daß dabei bereits
ein Bildverarbeitungsschritt durchgeführt wird. Wohlwollend betrachtet, handelt
es sich dabei um eine Bildverbesserung. Es wird aber dadurch keine Information
gewonnen, die nicht auch schon im ursprünglichen Bild mit der "schlechteren"
Auflösung enthalten ist. Die Helligkeitsverteilung, die möglicherweise über
einem Pixel vorhanden war und bei der Mittelung über die Pixelfläche verloren
gegangen ist, kann auf diese Weise nicht rekonstruiert werden - und auch nicht
auf irgendeine andere Weise. Information, die an der Signalquelle verloren
geht, ist und bleibt verloren und kann auch mit den besten Algorithmen nicht
rekonstruiert werden.
Ein ähnliches Problem kann auftreten, wenn die Ortsinformation aus dem Bildaufnehmer in ein Analogsignal in der Zeit umgesetzt, dieses Signal übertragen und anschließend in der Zeit diskretisiert wird. In der digitalen Bildverarbeitung ist dies sehr häufig der Fall, weil in Standardkameras die einzelnen Pixel des Bildaufnehmers sequentiell ausgelesen werden und die Helligkeitsinformationen Pixel für Pixel hintereinander in eine Spannung umgesetzt werden, so daß die Lage eines Pixels im Bild als zeitlicher Abstand zu einem "Bildanfangssignal", dem vertikalen Synchronisationsimpuls, im Videosignal codiert ist. In einem "Framegrabber" oder "Digitizer" wird dem einlaufenden, kontinuierlichen Videosignal dann die Information über die Lage eines Bildpixels dadurch entnommen, daß in regelmäßigen Zeitabständen der Spannungswert aus dem Videosignal ausgelesen ("gegrabbt") wird. Wenn der Framegrabber so eingestellt wird, daß er in jeder Zeile des Videosignals tausendmal einen Spannungswert abgreift, obwohl der Bildaufnehmer in jeder Zeile nur 500 Pixel enthält, werden im Rechnerspeicher für jede Zeile 1000 Spannungswerte abgelegt, und bei der Darstellung des "Bildes" entstehen 1000 Pixel pro Zeile, obwohl ursprünglich nur 500 Pixel aufgenommen wurden. Umgekehrt können auf diese Weise aus 1000 Pixeln an der Quelle 500 Pixel im Rechner werden, und es wird Information weggeworfen. Es ist also wichtig, das Signal an der Quelle zu optimieren und den Signalpfad bis zur Abspeicherung der Bildinformation im Rechner an den Bildaufnehmer anzupassen.
Der Helligkeitswert, der jedem Pixel zugeordnet werden kann, ist bei den verfügbaren
Bildaufnehmern zunächst ein Analogwert, nämlich eine Spannung, ein Strom oder
letztlich eine Ladung. (Nur in extremen Ausnahmefällen führt die Quantelung
der elektrischen Ladung auch zu einer technisch bedeutsamen Quantelung des
Signals.) Weil man Analogwerte in Rechnern schlecht speichern und weiterverarbeiten
kann, wird der Helligkeitswert eines Pixels digitalisiert. Der Spannungswert,
der die Helligkeit repräsentiert, wird dazu in einem Analog-Digital-Wandler
mit einer vorgegebenen kleinen, sehr genau bekannten Spannung verglichen,
und es wird bestimmt, wie oft die Vergleichsspannung in die vorliegende Spannung
"hineinpaßt". Die vorliegende Spannung wird also in Einheiten der
Vergleichsspannung gemessen. Nachkommastellen werden bei diesem Verfahren
unterdrückt, so daß das Ergebnis der Messung eine ganze Zahl ist. Bei dieser
Digitalisierung geht Information verloren, denn ein ganzes Spannungsintervall
wird jeweils auf ein und dieselbe ganze Zahl abgebildet. Die ganze Zahl, die
als Ergebnis des Digitalisierungsprozesses den Helligkeitswert des Pixels
repräsentiert, bezeichnet man in der Bildverarbeitung als Grauwert.
Üblich ist eine Unterteilung des möglichen Spannungsbereichs in 256 Stufen.
Man spricht dann von einer "8 bit tiefen" Digitalisierung oder einer
"8 bit tiefen Grauwertdarstellung". Wenn der mögliche Spannungsbereich
z.B. von 0 V bis 10,24 V reicht, ist bei einer 8 bit-AD-Wandlung das kleinste
noch auflösbarre Spannungsintervall gerade 40 mV. Eine Spannung von 20 mV
würde also dem AD-Wert 0 zugeordnet, eine Spannung von 41 mV dem AD-Wert 1,
eine Spannung von 79 mV ebenfalls dem AD-Wert 1 usw. bis zur Spannung 10,21
V, die dem AD-Wert 255 zugeordnet würde, ebenso wie die Spannungen 10,22 V,
10,23 V usw. Bei einer Digitalisierung des Bildsignals in 256 Stufen kommen
also nur die Grauwerte von 0 bis 255 vor. Wenn Sie ein C-Programm schreiben
und einen entsprechenden Vektor mit 256 Komponenten vorsehen, denken Sie unbedingt
daran, das Element mit der Nummer 256 nicht zu adressieren - es gehört nämlich
nicht mehr zum reservierten Speicherbereich!
Auch die Digitalisierung passiert im "Framegrabber", der deshalb
gelegentlich auch als "Digitizer" bezeichnet wird, und ist keineswegs
trivial. Gute und schlechte Framegrabber unterscheiden sich unter anderem
durch die Qualität ihres AD-Wandlers, z.B. in puncto Linearität und Rauschen.
Sehr kostengünstige Framegrabber, die beispielsweise zum Digitalisieren von
Videobildern für Multimediaanwendungen benutzt werden, sind oft für die industrielle
Bildverarbeitung nicht geeignet. Wenn man lediglich ein Videobild in einem
kleinen Fenster auf einem Rechnerbildschirm betrachten will, spielt das Rauschen
des AD-Wandlers eine untergeordnete Rolle. Durch schlechte Digitalisierung
können aber Details, die für die quantitative Bildauswertung wesentlich sind,
verloren gehen.
Es ist durchaus üblich, Bildsignale auch tiefer als 8 bit zu digitalisieren.
Beispielsweise werden in der medizinischen Bildverarbeitung, in der Drucktechnik
und in Scannern 12 bit Digitalisierungstiefe benutzt, also eine Unterteilung
des Bildsignals in 4096 Stufen. Der Speicherbedarf steigt dadurch selbstverständlich
signifikant an. Die "Auflösung" von 24 bit, die häufig bei digitalen
Farbbildern angegeben wird, bezieht sich allerdings nicht auf eine Digitalisierungstiefe
von 24 bit (das wären immerhin etwa 16,7 Millionen Stufen), sondern darauf,
daß 3 Farbkanäale (RGB) jeweils 8 bit tief digitalisiert sind - und 3x8 ergibt
schließlich auch 24. Erst die Zahl der möglichen Kombinationen dieser drei,
jeweils mit 256 Helligkeitswerten belegten Farbkänale zu RGB-Farbtripeln und
damit zu (jedenfalls rechnerisch) 256³ = 16,8 Millionen verschiedenen darstellbaren
Farbnuancen führt zu dem werbewirksamen Attribut "Echtfarbendarstellung",
womit gerade diese 16 Millionen Farbnuancen gemeint sind.
Die sogenannten "digitalen Bilder" sind also in der Fläche diskretisiert
und in Bezug auf den Grauwert digitalisiert. Typische Bildformate in Bezug
auf die Diskretisierung liegen in der Größenordnung von 800 x 600 Pixeln.
Üblich sind z.B. 646 x 485 Pixel, 752 x 582 Pixel, 1024 x 768 Pixel und diverse
andere Auflösungen. Für sehr spezielle Anwendungen sind "Megapixelchips"
erhältlich, z.B. mit 3000 x 3000 Pixeln. Der Speicherbedarf eines Grauwertbildes
mit 800 x 600 Pixeln und 8 bit tiefer Grauwertauflösung beträgt 480 000 byte,
also etwa 0,5 Mbyte. Ein Farbbild belegt
gleich den dreifachen Speicherplatz, und eine Verdoppelung der Ortsauflösung
in beiden Achsenrichtungen führt zu einer Vervierfachung des Speicherbedarfs.
Digitale Bildverarbeitung stellt also hohe Anforderungen an die verwendeten
Speichereinheiten und an die Datenübertragung.
Anders als in der Mathematik üblich, wird in der Bildverarbeitung in der diskreten
Ebene ein Koordinatensystem benutzt, bei dem der Ursprungspunkt im linken
oberen Pixel eines Bildes liegt. Die x-Achse verläuft von links nach rechts,
die y-Achse aber von oben nach unten. Das linke obere Pixel hat die Koordinaten
(0,0). Diese Konvention geht darauf zurück, daß "schon immer" die
Bilder, die mit Kameras aufgenommen wurden, zeilenweise von links nach rechts
und von oben nach unten abgetastet wurden. Der erste Grauwert, der von einem
Framegrabber bei der Digitalisierung eines Bildsignal geliefert wird, ist
also der Grauwert der linken oberen Ecke des Bildes. Dieser Grauwert wird
dann auch an erster Stelle in den Datenspeicher geschrieben, die übrigen Grauwerte
werden einfach linear und ohne Pause entsprechend der Reihenfolge beim Auslesen
im Speicher abgelegt. Die Speicherorganisation bildet also keineswegs die
Zeilen- und Spaltenstruktur des Bildes nach, sondern legt die Grauwerte im
Prinzip einfach als Kette in den Speicher. Zur Rekonstruktion des Bildes muß
man also wissen, aus wie vielen Zeilen ein Bild oder aus wie vielen Pixeln
eine Zeile besteht - den Rest kann man dann ausrechnen. Bei Standard-Bildformaten
ist unter anderem diese Information im Kopf des Datenfiles abgelegt. Beim
Programmieren ist es deshalb sinnvoll, mit dem Auslesen aus dem Speicher am
Anfangspunkt der Kette, also mit dem linken oberen Eckpunkt des Bildes zu
beginnen und nicht bei dem in der Mathematik üblichen linken unteren Eckpunkt,
dessen Lage im Datenwurm man sich erst ausrechnen müßte. Die auf den ersten
Blick unkonventionelle Koordinatenkonvention der Bildverarbeitung hat also
einen sehr praktischen Hintergrund.
Ein "digitales Bild" hat zwar durchaus noch etwas mit dem zu tun,
was man sich anschaulich unter einem "Bild" vorstellt. Auf dem Weg
vom Bildaufnehmer zum Bildspeicher wird die Helligkeitsverteilung auf der Bildaufnehmerfläche
aber diskretisiert, also in ein "Punktmuster" umgesetzt, und außerdem
digitalisiert. Was dann übrigbleibt, kann man formal so definieren:
Ein digitales Bild I ist eine Menge von Punkten (x,y) in der Ebene, denen jeweils ein Grauwert g(x,y) zugeordnet ist.
Der Definitionsbereich der Funktion g(x,y) ist beschränkt,
z.B. auf die Menge der Punkte (x,y) mit x Î [0 ... 1023], y Î [0 ...
767]. Der Wertebereich der Funktion g(x,y) ist ebenfalls beschränkt, z.B. auf g Î [0 ... 255].
Das komplexe
Strahlungsfeld an der Oberfläche des Bildaufnehmers wird am Ende also lediglich
durch einige ganzzahlige Werte in einem linearen Rechnerspeicher repräsentiert.
Es ist manchmal hilfreich, sich diese dramatische Reduktion vor Augen zu führen,
wenn man vor einem schier unlösbaren Bildverarbeitungsproblem verzweifelt, obwohl
man die Merkmale im Bild doch mit bloßem Auge sofort erkennt.