Zeichenkodierung – Grundlagen und ASCII (Teil 1)
Bei der elektronischen Datenverarbeitung werden Zeichen, also bspw. Buchstaben, die Du hier gerade liest, als Zahlen kodiert. Dabei können Zeichen auf verschiedene Arten kodiert werden (Morsezeichen, Töne, Zahlen, …). Mit der fortschreitenden Entwicklung des Computers entstanden verschiedene Zeichenkodierungen. In diesem Teil geht es um allgemeine Begrifflichkeiten und die Kodierung ASCII.
Zeichensatz
Ein Zeichensatz (character set, kurz charset) ist die Menge aller Schriftzeichen. In dieser Menge können Buchstaben eines Alphabetes, Ziffern, Symbole oder Sonderzeichen enthalten sein.
Zeichenkodierung
Eine Zeichenkodierung beschreibt die konkrete Abbildung von Zeichen auf Byte-Werte.
Codepoint
In einem Zeichensatz werden Zeichen in einer bestimmten Reihenfolge (code space) angeordnet. Zur Verdeutlichung ein Beispiel mit einem Zeichensatz welcher vier Buchstaben enthält.
Zeichensatz | A | B | C | D |
Codepoint | 1 | 2 | 3 | 4 |
Die Position eines Zeichens in einem Zeichensatz ist der sog. Codepoint („Codeposition“). Ein Zeichensatz mit Codepoints wird als ein codierter Zeichensatz (coded character set) bezeichnet.
Schriftart
Für die grafische Darstellung von Zeichen werden Schriftarten verwendet. In der Regel weisen Schriftarten eine konsistente Gestaltung auf (Dicke der Buchstaben, Serifen, …).
Tastatur-Layout
Das Tastatur-Layout kann auch als Tastenbelegung bezeichnet werden. Dabei wird jeder Taste auf der Tastatur ein Codepoint zugeordnet. Beispielsweise wird für die Ausgabe des Buchstabens “z” die beschriftete Taste “z” auf einer deutschen Tastatur geklickt. Wird die Tastenbelegung auf US-amerikanisch geändert, erzeugt dieselbe Taste ein “y”.
Die Zeichenkodierung “ASCII”
Der American Standard Code for Information Interchange kurz ASCII umfasst 128 Zeichen. Davon bestehen 33 aus nicht druckbaren und 95 aus druckbaren Zeichen.
druckbare Zeichen | nicht druckbare Steuerzeichen |
---|---|
|
|
Bei der Kodierung wird jedem Zeichen ein Bitmuster aus 7 Bits zugeordnet. Das 8. Bit eines Bytes wird nicht benutzt oder wird für verschiedene andere Zwecke verwendet. Dadurch ergeben sich 27 = 128 verschiedene Kombinationen. Hier ein kleiner Abriss der Kodierung:
Schriftzeichen | Dezimal | Binär |
---|---|---|
A | 65 | (0)100 0001 |
B | 66 | (0)100 0010 |
C | 67 | (0)100 0011 |
… | … | … |
Eine Übersicht aller Zeichen ist unter ascii-table.com/ascii.php zu finden.