Zeichenkodierung – Grundlagen und ASCII (Teil 1)

2018-01-21 von Mario

Bei der elektronischen Datenverarbeitung werden Zeichen, also bspw. Buchstaben, die Du hier gerade liest, als Zahlen kodiert. Dabei können Zeichen auf verschiedene Arten kodiert werden (Morsezeichen, Töne, Zahlen, …). Mit der fortschreitenden Entwicklung des Computers entstanden verschiedene Zeichenkodierungen. In diesem Teil geht es um allgemeine Begrifflichkeiten und die Kodierung ASCII.

Zeichensatz

Ein Zeichensatz (character set, kurz charset) ist die Menge aller Schriftzeichen. In dieser Menge können Buchstaben eines Alphabetes, Ziffern, Symbole oder Sonderzeichen enthalten sein.

Zeichenkodierung

Eine Zeichenkodierung beschreibt die konkrete Abbildung von Zeichen auf Byte-Werte.

Codepoint

In einem Zeichensatz werden Zeichen in einer bestimmten Reihenfolge (code space) angeordnet. Zur Verdeutlichung ein Beispiel mit einem Zeichensatz welcher vier Buchstaben enthält.

Zeichensatz A B C D
Codepoint 1 2 3 4

Die Position eines Zeichens in einem Zeichensatz ist der sog. Codepoint („Codeposition“). Ein Zeichensatz mit Codepoints wird als ein codierter Zeichensatz (coded character set) bezeichnet.

Schriftart

Für die grafische Darstellung von Zeichen werden Schriftarten verwendet. In der Regel weisen Schriftarten eine konsistente Gestaltung auf (Dicke der Buchstaben, Serifen, …).

Tastatur-Layout

Das Tastatur-Layout kann auch als Tastenbelegung bezeichnet werden. Dabei wird jeder Taste auf der Tastatur ein Codepoint zugeordnet. Beispielsweise wird für die Ausgabe des Buchstabens “z” die beschriftete Taste “z” auf einer deutschen Tastatur geklickt. Wird die Tastenbelegung auf US-amerikanisch geändert, erzeugt dieselbe Taste ein “y”.

 

Die Zeichenkodierung “ASCII”

Der American Standard Code for Information Interchange kurz ASCII umfasst 128 Zeichen. Davon bestehen 33 aus nicht druckbaren und 95 aus druckbaren Zeichen.

druckbare Zeichen nicht druckbare Steuerzeichen
  • lateinische Alphabet in Groß- und Kleinschreibung
  • zehn arabischen Ziffern
  • einige Interpunktionszeichen (Satzzeichen, Wortzeichen)
  • Sonderzeichen
  • Zeilenvorschub
  • Tabulator
  • Trennzeichen

Bei der Kodierung wird jedem Zeichen ein Bitmuster aus 7 Bits zugeordnet. Das 8. Bit eines Bytes wird nicht benutzt oder wird für verschiedene andere Zwecke verwendet. Dadurch ergeben sich  27 = 128 verschiedene Kombinationen. Hier ein kleiner Abriss der Kodierung:

Schriftzeichen Dezimal Binär
A 65 (0)100 0001
B 66 (0)100 0010
C 67 (0)100 0011

 

Eine Übersicht aller Zeichen ist unter ascii-table.com/ascii.php zu finden.

Kategorie: IT Schlagwörter: , , , ,