Digitale Bildübertragung und Bildspeicherung
In diesem Kapitel wird eine Übersicht über die Eigenschaften, Anwendungsbereiche sowie Bildqualitäten wichtiger digitaler Bildübertragungs- und Bildspeicherungsverfahren gegeben. Es werden dabei vor allem etablierte Verfahren und Standards berücksichtigt, die auch für das laufende ATHOC-Projekt [2] in Frage kommen könnten. Die Erkenntnisse aus diesem Vergleich sollen in [2] einfliessen.
Bekannte Übertragungs- und Speicherungsverfahren
Die untersuchten Verfahren sind in Tabelle 1 zusammengefasst:
Verfahren
|
Kompression
|
Schema
|
Auflösung
|
Datenrate
|
Audio
|
M-JPEG
|
var.
|
versch.
|
8 bit
|
versch.
|
stereo bis 48 kHz
|
MPEG 1
|
var. 5-50
|
4:2:0
|
8 bit
|
~1.5 Mbps
|
mono, stereo, joint stereo
|
MPEG 2
|
var.
|
4:2:2
MP@ML
|
8 bit/
10 bit
|
bis 64 Mbps
|
mono, stereo, 5.1-Kanal,
AC3
|
MPEG 4
|
var.
|
u.a. 4:2:2
|
nd
|
nd
|
nd
|
H.261
|
var.
|
4:2:0, 4:1:0
|
8 bit
|
p*64kbps
|
-
|
H.263
|
var.
|
4:2:0, 4:1:0
|
8 bit
|
< 64kbps
|
-
|
DVCPRO/ DVCPRO50
|
5:1/3.3:1
|
4:1:1/
4:2:2
|
8 bit
|
25/
50 Mbps
|
2@16 bit, 44.1/48 kHz/
4@16 bit, 44.1/48 kHz
|
DVCAM
|
5:1
|
4:1:1/4:2:0
|
8 bit
|
25 Mbps
|
2@12/16 bit, 32/48 kHz
|
Digital-S
|
3.3:1
|
4:2:2
|
8 bit
|
50 Mbps
|
2@16 bit, 48 kHz
|
Digital Betacam
|
2.7:1
|
4:2:2
|
10 bit
|
126 Mbps
|
4@16 bit, 48 kHz
|
Betacam SX
|
9:1
|
4:2:2
|
8 bit
|
18 Mbps
|
4@16 bit, 48 kHz
|
D-VHS
|
var.
|
4:2:0/
4:2:2
|
8 bit
|
2 - 28.2 Mbps
|
4@16 bit, 48 kHz
|
Tabelle 1 Verschiedene Bildkompressions- und speicherungsverfahren
Beschreibung der einzelnen Verfahren
M-JPEG
M-JPEG (Motion JPEG) ist kein eigentlicher Standard, vielmehr gibt es verschiedene Verfahren, wie der JPEG-Standard auf Bewegtsequenzen angewandt wird. Es handelt sich hierbei um eine reine Intraframe Codierung, d. h. es gibt keine bildübergreifenden Algorithmen zur Reduzierung der Datenrate (es gibt nur I-Bilder, jedoch keine B- oder P-Bilder, siehe MPEG).
Die Kompression erfolgt durch eine 8x8-DCT mit anschliessender Quantisierung (Quantisierungstabellen sind nicht standardisiert!) und Lauflängenencodierung.
M-JPEG wird vor allem im Bereich nichtlinearer Videoschnitt verwendet und erlaubt prinzipiell Datenraten von wenigen MBit/s bis hin zu der des unkomprimierten Videosignals. Entsprechend ist auch die Bildqualität unterschiedlich: 1 MBit/s entspricht ungefähr VHS-Aufzeichnungen, 25 MBit/s ist beinahe Studioqualität.
MPEG 1
Die drei wichtigsten Teile des MPEG 1 Standards sind für uns System", Video" und Audio".
Der Teil System" definiert, wie ein oder mehrere Audio- und Videodatenströme mit Zeit- und Synchronisationsdaten zu einem einzigen MPEG 1-Strom verbunden werden. Dies ist deshalb wichtig, weil die Daten in dieser gepackten" Form sehr gut übertragen oder gespeichert werden können.
Der Teil Video" beschreibt eine Kodiervorschrift für Videosequenzen. Er wurde definiert für einen kontinuierlichen Auslesedatenstrom von Speichermedien von rund 1.5 MBit/s, allerdings ist die Auslegung sehr allgemein und somit sind auch weit höhere Datenraten möglich.
Es werden verschiedene Techniken angewandt, um diese hohe Kompressionsrate zu erreichen:
Zuerst muss eine angemessene Bandbreite für das zu codierende Signal gewählt werden. Danach verwendet der Algorithmus eine blockbasierte Bewegungskompensation, um die zeitliche Redundanz zu verkleinern. Die Bewegungskompensation kann auf drei Arten geschehen: (a) Vorhersage des momentanen Bildes vom vorhergehenden Bild, (b) von einem zukünftigen Bild oder (c) Interpolation von beiden benachbarten Bildern; man beachte die Übertragungsreihenfolge innerhalb der Group of Pictures [GOP]. Danach wird der Vorhersagefehler (Differenzsignal) mit der DCT komprimiert, indem die räumliche Korrelation entfernt und anschliessend quantisiert wird. Zum Schluss werden die Bewegungsvektoren mit der DCT-Information zusammengeführt und mit einem variablen Lauflängenencoder codiert.
Der Teil Audio" beschreibt das gleiche Verfahren für komprimierte Audiosequenzen (mono oder stereo). Das Eingangssignal wird gefiltert und unterabgetastet. Ein psychoakustisches Modell steuert den nachfolgenden Quantisierer derart, dass das Quantisierungsrauschen stets unter der Hörschwelle liegt. Zum Schluss werden die Daten codiert. Sowohl bei den Video- als auch bei den Audiodaten ist anschliessend eine optionale Fehlerkorrektur vorgesehen.
MPEG 1 wird vor allem für die Speicherung von Videofilmen auf CDs (CD-I) und im Heimcomputerbereich (CD-ROM) verwendet. Die Datenrate (Bild und Ton) liegt nach dem Standard bei 1.5 MBit/s, es gibt aber zahlreiche Anwendungen, die auch grössere Datenströme nach dem MPEG 1 Standard verwenden (z. B. der in Kapitel 11 verwendete Optibase-Codec).
MPEG 2
Die verschiedenen Teile des MPEG 2 Standards sind ähnlich gegliedert wie bei MPEG 1 [3].
Der Teil "System" beschreibt ebenfalls, wie ein oder mehrere Audio- und Videodatenströme (Elentary Streams, ES) sowie Zusatzinformationen zu einem einzigen oder mehreren Ausgangsdatenströmen zusammengefasst werden, um die Daten zu speichern oder zu übertragen. Dabei sind zwei unterschiedliche Formen möglich: Der "Program Stream"(PS) und der "Transport Stream" (TS), jeweils optimiert für unterschiedliche Applikationen.
Der "Program Stream" ist vergleichbar mit dem MPEG 1 Systemmultiplex. Er besteht aus einem oder mehrerern "Packetised Elementary Streams" (PES), die eine gemeinsame Zeitbasis besitzen. Er ist vorallem für robuste Anwendungen geeignet, bei denen wenig Fehler auftreten, z. B. im Softwarebereich. Die Länge der Program Stream Pakete kann unterschiedlich und zum Teil recht gross sein.
Der "Transport Stream" verbindet ebenfalls ein oder mehrere PES, die jedoch unterschiedliche Zeitbasen besitzen. ES mit gleicher Zeitbasis bilden ein Programm. Der TS ist geeignet für Umgebungen, in denen Fehler leicht auftreten (schlechter Übertragungskanal, verlustbehaftete Speicherung). TS Pakete haben immer eine Länge von 188 Bytes.
Der Teil "Video" besteht aus den Kompressionsmöglichkeiten von MPEG 1, die jedoch in Gruppen - sogenannten "Profiles" - angeordnet sind und somit verschiedenen Qualitäts- und Anwendungsstufen erlauben. Ausserdem sind jetzt auch Datenraten von mehr als 1.5 MBit/s vorgesehen.
Der "Audio" Teil ist eine abwärtskompatible Mehrkanalerweiterung zu dem von MPEG 1 [3].
MPEG 4
MPEG 4 soll ein völlig neuer Standard für die Codierung von Audio- und Videodaten werden, der objektbasiert arbeitet. Momentan ist der Standard noch nicht verabschiedet, dies soll aber noch bis Ende 1998 geschehen. Es sind deshalb zwar noch keine Codecs verfügbar, ich gebe an dieser Stelle aber trotzdem einen Überblick über die geplanten Eigenschaften von MPEG 4.
Im Gegensatz zu bisherigen Video- und Audiocodierverfahren, die alle mehr oder weniger Sequenzen von zweidimensionalen Frames codieren und schlussendlich nur ein passives Zusehen oder -hören erlauben, verfolgt MPEG 4 ein neues Ziel mit verbesserten und neuen Mitteln. Es trägt gleichzeitig dem Umstand Rechnung, dass der Benutzer nicht nur passiv sein möchte, sondern aktiv das Geschehen beeinflussen will. Es ist deshalb das Ziel von MPEG 4, universelles und effizientes Codieren verschiedenster Formen von Video- und Audiodaten (genannt audiovisuelle Objekte) anzubieten. Das bedeutet, dass mit MPEG 4 beabsichtigt wird, das Geschehen als Komposition audiovisueller Objekte darzustellen, die einer Beschreibungssprache für ihre örtlichen und zeitlichen Abhängigkeiten folgen. Diese Art der Darstellung soll es ermöglichen, dass der Benutzer mit den verschiedenen audiovisuellen Objekten interaktiv kommuniziert, so wie er es auch von den Abläufen im normalen" Leben gewohnt ist.
Obwohl die Eignung dieses inhaltsbasierten Verfahrens der Szenendarstellung für den Menschen einleuchtet, ist es in Bezug auf die Videodarstellung eine Revolution, die dem Benutzer einen Sprung in des Funktionalitätsmodell ermöglicht. Eine Szene, die aus (mehr oder weniger unabhängigen) audiovisuellen Objekten aufgebaut wird, bietet dem Benutzer die Möglichkeit, mit dem Inhalt zu spielen, indem er einige Objekteigenschaften verändert (z. B. Position, Bewegung, Oberflächenbeschaffenheit oder Form). Er kann sich dabei auf speziell ausgesuchte Szenenteile beschränken oder sogar Objekte aus einer Szene in eine andere hineinkopieren. Die zentralen Konzepte von MPEG 4 sind demnach Inhalt und Interaktivität.
Zusätzlich soll eine weitere Einschränkung der bisherigen Codierverfahren aufgehoben werden und zwar die beschränkte Anzahl von Audio- und Videodatentypen. MPEG 4 soll natürliche und synthetische audiovisuelle Objekte harmonisch miteinander verbinden und dadurch Audio- und Videovarianten von Mono über Stereo bis hin zu mehreren Kanälen/Blickwinkeln in 2 oder 3 Dimensionen unterstützen.
Um all diese Eigenschaften bieten zu können, muss der Aufbau von MPEG 4 sehr flexibel und erweiterbar sein. Es wurden deshalb einerseits Module entworfen, die bisher bekannte Codierfunktionen verbessern, andererseits sind aber völlig neue Fuktionseinheiten definiert worden. Diese sind:
- Content-Based Scalibility: Inhaltsbezogne Skalierbarkeit bezüglich örtlicher und zeitlicher Auflösung, Qualität und Komplexität.
- Content-Based Manipulation and Bitstream Editing: Inhaltsbezogene Manipulationen und direktes Bearbeiten des Datenstroms und Transcodierung.
- Content-Based Multimedia Data Access Tools: Effizienter Datenzugriff und effiziente Datenorganisation.
- Hybrid Natural and Synthetic Data Coding: Leistungsfähige Kombination von natürlichen und künstlichen Szenen.
- Coding of Multiple Concurrent Data Streams: Leistungsfähige Codierung von Szenen Video und Audio) aus verschiedenen Blickwinkeln sowie Stereovideo.
- Improved Coding Efficiency: Verbesserung der Codiereffizienz gegenüber bisher vorhandenen Verfahren (z. B. H.263, MPEG 2).
- Robustness in Error-Prone Environments: Fehlertoleranz gegenüber sämtlichen zu verwendenden unterliegenden drahtgebundenen oder drahtlosen Trägern.
- Improved Temporal Random Access: Innerhalb einer begrenzten Zeit und mit feiner Auflösung soll ein Zufallszugriff möglich sein.
Weitere Informationen über MPEG 4, das Verification Model, die bisher festgelegten Spezifikationen finden sich unter anderem in [4].
H.261
H.261 ist ein Videocodierstandard, der von der ITU-T im Jahr 1990 verabschiedet wurde. Er wurde für Datenraten gefertigt, die ein Mehrfaches von 64 kBit/s ausmachen (entspricht einem oder mehreren ISDN B-Kanälen). H.261 ist der momentan international meistgenutzte Videokompressionsstandard für ISDN-Übertragungen. Der Standard beschreibt die Videoen- und decodierungsverfahren für die Bewegtbilder eines audiovisuellen Dienstes bei Datenraten von
p * 64 kBit/s (wobei p eine ganze Zahl zwischen 1 und 30 sein kann).
Der Quellencoder verarbeitet nur Vollbilder (keine Zwischenzeilenverfahren). Die Bilder werden im Format Y, Cb, Cr (Luminanz und Farbdifferenzsignale) codiert. Dabei besitzen die Farb-informationen sowohl in horizontaler als auch in vertikaler Richtung nur die halbe Auflösung der Helligkeitsinformation. H.261 unterstützt zwei Bildauflösungen, QCIF mit 144 x 176 Pixeln und optional auch SCIF mit 288 x 352 Pixeln.
Zuerst findet eine Prädiktion statt, wobei es zwei Arten zu unterscheiden gilt: zum einen der Modus INTRA, bei dem Blocks von 8 x 8 Pixeln ohne Bezug auf andere Frames verarbeitet werden und zum anderen der Modus INTER, bei dem nur die Differenzen zu einem Referenzframe codiert werden. Es wird ein Vorhersagefehler zwischen einem aktuellen Macroblock (16 x 16 Pixel) und dem entsprechenden aus dem vorhergehenden Frame berechnet. Ob ein Block übertragen wird oder nicht hängt von der Codierungskontrollstrategie ab und ist im Standard nicht definiert. H.261 unterstützt optional Bewegungskompensation im Encoder. Dabei wird im vorhergehenden Frame ein Gebiet gesucht, um den besten Referenzmacroblock herauszufinden. Dann werden sowohl Vorhersagefehler als auch Bewegungsvektoren übertragen.
Der Vorhersagefehler von übertragenen Blöcken oder INTRA codierte Frames werden anschliessend in Blöcke zu 8 x 8 Pixel aufgeteilt und blockweise einer zweidimensionalen FDCT-Einheit (Forward Discrete Cosine Transform) zugeführt. Die DCT Koeffizienten werden je nach geforderter Qualität mehr oder weniger genau quantisiert, danach folgt zusätzlich eine Entropiecodierung (meistens nach Huffmann). Der nachfolgende Multiplexer formt die komprimierten zu einem hierarchisch angeordneten Bitstrom mit vier Layern:
- Picture Layer: entspricht einem Videovollbild (Frame)
- Group of Blocks: entspricht 1/12 eines CIF- oder 1/3 eines QCIF-Bildes
- Macro Blocks: entspricht 16 x 16 Helligkeitspixeln und den zwei zugehörigen 8 x 8 Chrominanzpixeln.
- Blocks: entspricht 8 x 8 pixeln
Zum Schluss wird noch eine Fehlerkorrektur durchgeführt. Es wird ein BCH(511,493)-Code verwendet, bevor der Datenstrom über die ISDN-Leitung geschickt wird. Die Fehlerkorrektur im Decoder ist optional [5], [6], [7], [8], [9].
H.263
H.263 ist ebenfalls von der ITU-T standardisiert worden. Er ist gedacht für Kommunikation bei niedriger Datenrate von weniger als 64 kBit/s. Allerdings ist keine Grenze gesetzt und er funktioniert auch bei höheren Datenraten. Der Standard ist sehr gut geeignet, wenn es darum geht, eine hohe Videokompressionsrate zu erzielen. Er ähnelt dem Standard H.261, allerdings sind einige Verbesserungen und Änderungen vorgenommen worden, um die Fehlerkorrektur und die Leistungsfähigkeit zu verbessern.
- Bei der Bewegungskompensation ist jetzt eine Genauigkeit von einem halben Pixel möglich, wohingegen bei H.261 nur auf ein volles Pixel genau geschätzt wurde.
- Einige Teile der hierarchischen Datenstromstruktur sind jetzt optional. Damit ist es möglich, dass der Codec entweder für eine niedrige Datenrate oder für eine bessere Fehlerkorrektur konfiguriert werden kann.
- Es sind vier zusätzliche Optionen zur Steigerung der Leistungsfähigkeit aufgenommen worden: 1) unbeschränkte Bewegungsvektoren, 2) syntaxbasierte arithmetische Codierung, 3) verbesserte Vorhersage und 4) Vor- und rückwärts-Framevorhersage, vergleichbar mit der von MPEG mit P- und B-Bildern. Wenn diese Optionen in H.263 verwendet werden, dann kann oft dieselbe Qualität erreicht werden wie mit H.261, allerdings mit weniger als der halben Datenmenge.
- H.263 unterstützt fünf verschiedene Auflösungen. Zu QCIF und CIF (H.261) kommen noch SQCIF, 4CIF und 16CIF (4CIF und 16CIF bieten die vier- bzw. sechzehnfache Auflösung von CIF und somit kann der H.263 Codec auch mit Standards für höhre Bitraten konkurrieren, z. B. mit MPEG).
Weitergehende Informationen finden sich in [5], [6], [7], [8], [10]
DV
Das DV Format ist eine komplette Spezifikation für ein digitales Videoformat. Es ist primär für professionelle Anwendungen erstellt, findet aber auch im Heimbereich vermehrt Anwendung. Es wurde 1995 von allen wichtigen Herstellern akzeptiert und mittlerweile gibt es verschiedene Umsetzungen für Heim- und Profigeräte (DVCAM, DVCPRO, DVCPRO50) [11].
Zur Komprimierung des Videosignals wird das RGB-Signal in ein YUV-Signal umgewandelt. Das Luminanzsignal (Y) wird mit 13.5 MHz abgetastet. Daraus ergibt sich eine Luminanzbandbreite von 5.75 MHz, die bei PAL und NTSC identisch ist. Bei PAL-Systemen werden die Farbdifferenzsignale (U, V) mit 6.75 MHz abgetastet (3 MHz Farbbandbreite) und es wird ein 4:2:0-Abtastschema verwendet. Bei NTSC hingegen wird ein 4:1:1 Schema verwendet, wobei die Farbdifferenzsignale mit 3.375 MHz abgetastet werden (1.5 MHz Farbbandbreite). Die Auflösung von allen digitalen Werten beträgt 8 Bit. Das nach DV-Standard digitalisierte Videosignal wird in einem Pufferspeicher von 720 x 480 Pixeln (Vollbild) zwischengespeichert, bevor die Kompression durchgeführt wird. Es wird ermittelt, ob die Bewegung zwischen den beiden Halbbildern im Speicher zu gross ist, um das Vollbild als Ganzes zu komprimieren. In diesem Fall werden die beiden Halbbilder getrennt verarbeitet. Im Normalfall ist die Korrelation jedoch ausreichend gross, um das Bild komplett zu codieren. In jedem Fall wird eine DCT-basierte Kompression verwendet, die zwischen der von JPEG und der von MPEG liegt. Der DV-Standard verwendet ein eigenes Verfahren, das ein Editieren zulässt (es werden nur I-Bilder codiert). Blocks von 8 x 8 Pixeln werden mit der DCT verarbeitet und jeweils 4 solcher DCT-Blocks werden zu einem Macroblock zusammengefügt. Für jeden Macroblock können eigene Quantisierungstabellen (Q-Tabellen) verwendet werden (im Gegensatz zu M-JPEG, wo diese für das gesamte Bild gelten). Somit ist eine dynamische Intraframe-Codierung möglich (wie bei MPEG).
Die Bildqualität ist vergleichbar mit der von Digital Betacam und das Verfahren eignet sich besonders gut für den nonlinearen Videoschnitt und in diesem Zusammenhang natürlich auch für die Zubringer" (ENG), die Profikameras. Eine DV-Version mit kleineren Cassetten aber ansonsten gleichen Spezifikationen (Mini-DV) ist auch fürt den Consumermarkt gedacht.
Digital-S
Das Digital-S Format ist laut JVC dafür gedacht, dass es neben den bestehenden analogen Formaten S-VHS, Betacam und MII parallel bestehen soll und den Benutzern eine Upgrademöglichkeit in die digitale Welt geben soll (meistens im Studio). Somit steht es in direkter Konkurrenz (was die Qualitätskriterien betrifft) zu DVCPRO und Betacam SP. Deshalb bestehen auch viele Möglichkeiten, um Digital-S Geräte mit analogen Geräten zu verbinden [12].
Die Aufzeichnung erfolgt auf Halbzollband bei Aufzeichnungszeiten von maximal 104 Minuten.
Es sind Spuren für Bild- und Kontrollinformationen sowie zwei Stereokanäle vorhanden.
Der Digital-S Codec verwendet digitale 4:2:2 Komponentensignale wobei die Luminanz (Y) mit 13.5 MHz und die Farbdifferenzsignale mit 6.75 MHz abgetastet werden. Die Daten werden mit einem DCT-basierten Algorithmus komprimiert, wobei die Kompressionsrate 3.3:1 beträgt. Es wird ein Intraframe-Verfahren mit verschiedenen Q-Tabellen pro Bild verwendet (vgl. DV).
Digital Betacam
Digital Betacam ist eine Weiterentwicklung des analogen Betacam (Sony). Dieses Format benötigt spezielle Cassetten, kann aber auch die analogen Bänder abspielen. Das Verfahren verwendet eine leichte Intraframe Kompression um den Videostrom nach ITU-R 601 um den Faktor 2 zu verringern.
Es ist dafür gedacht, in Profikameras in Anwendung zu kommen, um z. B. den Fernsehstudios qualitativ hochwertige Reportagen zu ermöglichen. Selbstverständlich braucht es dann auch die passenden Abspielgeräte dazu.
Betacam SX
Betacam SX ist das neue digitale Format von Sony (Halbzollband) für ENG-Anwendungen. Es verwendet die MPEG-2 Komprimierung mit dem 4:2:2 Abtastschema, um ein neues MPEG-2 Format 4:2:2P@ML" (4:2:2 Profile at Main Level) mit 720 Abtastwerten pro Zeile und 512 aktiven Zeilen pro Frame (zum Vergleich: DV hat 480 aktive Zeilen pro Frame) zu definieren. Im Vergleich dazu verwendet das Standard MPEG-2 MP@ML" (Main Profile at Main Level) das 4:2:0 Abtastschema mit 480 Zeilen pro Frame und der Begrenzung der Datenrate auf 15 MBit/s. Obwohl dieser vorgeschlagene 4:2:2P@MP-Standard eine maximale Datenrate von 50 MBit/s liefert, definiert Sony sein Studio Profil" mit einer Datenrate von 18 MBit/s. Somit eignet sich dieses Format speziell für Satellite News Gathering (SNG), da sie zwei Uplinks oder zwei gleichzeitige Zuführungen zu einem einzelnen Satellitentransponder erlaubt. Angeblich soll das
18 MBit/s Format die gleiche Bildqualität erreichen wie andere Verfahren bei 30 MBit/s, die nur Intraframe Kompression verwenden [12].
D-VHS
D-VHS ist ein sogenanntes "Bitstream-Aufnahmeverfahren" von JVC, das dazu geeignet ist, mehrere digitale Satellitenprogramme zeitgleich aufzuzeichnen. D-VHS verwendet Standard-VHS Cassetten mit einem speziellem Band für die digitale Aufzeichnung und ermöglicht einen Datendurchsatz von ca. 7, 14 oder 28 Mbit/s. D-VHS kann herkömmliche VHS Cassetten abspielen, jedoch nicht aufnehmen [13].
Die Köpfe rotieren mit 1800 Umdrehungen pro Minute und damit ergeben sich die drei verschiedenen D-VHS Datenraten bei Gebrauch von einer, zwei oder vier Spuren bzw. der Verdopplung der Bandgeschwindigkeit für jede Steigerung der Bandbreite.
Das Verfahren ist sowohl für den Profibereich als auch den Endkunden gedacht und geeignet.
Ergebnisse
Um aus diesen Formaten eine optimale Lösung für das laufende ATHOC-Projekt [2] herauszufiltern, werden die Eigenschaften, Verwendungszwecke, Kosten, Verfügbarkeiten etc. untereinander abgewogen. Die Datenspeicherungsverfahren kommen von vornherein nicht in Frage, da es um eine Übertragung geht. Es bleiben somit die Verfahren M-JPEG, MPEG X und H.26X.
Zunächst müssen die Rahmenbedingungen genannt werden.
Optimale Datenrate
Im Projekt [2] geht es darum, einen interaktiven Videodienst über ATM anzubieten. Somit könnte man auf den ersten Blick meinen, dass die Datenrate keine zu grosse Rolle spielen dürfte, da ATM ohne weiteres 25 oder 155 MBit/s zurVerfügung stellt.
Allerdings muss dabei unbedingt beachtet werden, dass der kombinierte Audio- Videodatenstrom beim Benutzer in einem herkömmlichen PC decodiert und auf dem Bildschirm angezeigt werden soll. Verschiedene Versuche haben dabei ergeben, dass bei den heute üblichen Softwaredecodern für z. B. MPEG 1 zwischen 1 und 2 MBit/s eine Grenze erreicht wird, bei deren Überschreitung entweder Bild, Ton oder beides nicht mehr komplett verarbeitet werden kann und sehr grosse Störungen auftreten, die durch die Leistungsgrenze der verwendeten Prozessoren gegeben sind (Motorola PPC 150 MHz, Intel Pentium 166 MMX).
Es ergibt sich also das Problem, eine Datenrate zu finden, die mit dem entsprechenden Verfahren einerseits eine genügend gute Bildqualität zur Verfügung stellt, sie gleichzeitig aber klein genug zu halten, um den Prozessor im decodierenden PC nicht zu überfordern.
Kosten
Zum zweiten müssen die Kosten für die Encodierung zur Entscheidung herangezogen werden, die so niedrig wie möglich gehalten werden sollen. Wenn diese zu hoch liegen, ist zwar unter Umständen eine komplexere Signalverarbeitung möglich, aber der Anreiz, solch einen Dienst anzubieten, sinkt dafür entsprechend ab.
Bildqualität
Drittens soll die Bildqualität mindestens der allen bekannten Qualität eines PAL-Fernsehbildes entsprechen oder zumindest nicht bemerkbar von ihr abweichen, weil sonst ein wesentlicher Anreiz dieser Applikation verlorenginge. Die untere Grenze sollte deshalb ungefähr eine Qualität vergleichbar der von VHS im Standardplay-Modus sein.
Weitere Kriterien
Zusätzlich sollten noch Kriterien beachtet werden, wie z. B. die Verfügbarkeit von Codecs oder wie verbreitet entsprechende Software zur Decodierung ist.
Auswahl
Nach der Untersuchung der verschiedenen Standards hinsichtlich der oben genannten Beurteilungskriterien scheiden alle Formate ausser MPEG 1 und H.263 aus.
MPEG 2 würde zwar eine bessere Bildqualität und flexiblere Datenraten bieten, ist bei Datenraten unter 2 MBit/s aber nicht so optimiert wie MPEG 1.
MPEG 4 kann noch nicht berücksichtigt werden, da der Standard noch nicht verabschiedet ist und entsprechendes Equipment noch nicht verfügbar ist.
M-JPEG ist ursprünglich nicht für die Bewegtbildübertragung gedacht, sondern für den nonlinearen, digitalen Videoschnitt. Zwar gibt es auch Verfahren, die mit M-JPEG arbeiten, allerdings ist eine gute Bildqualität nicht unter 8 MBit/s zu erreichen.
H.261 bietet zwar die entsprechend niedrigen Datenraten , jedoch nicht die volle PAL-Auflösung.
Es bleiben also die beiden Standards MPEG 1 und H.263, die sowohl bei Datenraten unterhalb 2 MBit/s arbeiten als auch eine ansprechende Bildqualität bieten. Dementsprechend sind auch die Kosten für die Encodierung in vergleichbaren Rahmen.
Betrachtet man jetzt den Umstand, dass am IKT schon ein kompletter MPEG 1 Codec vorhanden ist und auch bestens in die vorhandene Infrastruktur eingebettet und von der Bedienung her vollständig bekannt ist, ist dieser Standard jedoch eindeutig dem von H.263 vorzuziehen.
|