"Unicode"
Zitat:
Unicode gibt jedem Zeichen seine eigene Nummer — plattformunabhängig, programmunabhängig, sprachunabhängig.
|
"UTF-8"
eine der 9 möglichen Unicode-konforme Kodierungen; umfasst "
alle Unicode-Zeichen".
"UTF-16"
eine andere Kodierung derselben Zeichen, die sich mit dem Basic Multilingual Plane (BMP) besonders gut verträgt.
"alle Unicode-Zeichen"
maximal 1.114.112 Zeichen bzw. sogenannte Codepoints, die in "
Blöcke" organisiert sind. Zur Zeit sind circa 100.000 Codepoints bereits definiert/festgelegt.
"Blöcke"
fassen Codepoints in "Schriftsysteme" zusammen: hauptsächlich
sprachorientierten Schriftsysteme (Arabisches, Griechisches, Kanji, Lateinisches...) aber auch f
unktionsorientierten Schriftsysteme (mathematische Operatoren, Dingbats, geometrische Formen, Währungszeichen...) werden in Blöcke zusammengehalten.
Zwischen "Schriftsystem" und "Zeichensatz" unterscheiden - ein Beispiel:- (Zeichensatz) Das Zeichen mit der Codenummer 174 ist:
- "®" in ISO-8859-1
- "Ž" in ISO-8859-2
- "Ў" in ISO-8859-5
...
.
- (Schriftsystem) Das Zeichen mit der Codenummer 174 ist:
- "®" REGISTERED SIGN egal ob UTF-8, UTF-16 usw... d.h. ist unabhängig von der Kodierung immer gleich. Das Zeichen ist einem einzigen Schriftsystem zugeordnet, nämlich das Schriftsystem bzw. Block mit dem Namen "C1 Controls and Latin-1 Supplement", das alle Codes im Bereich 0080-00FF beinhaltet.
.
- Anmerkung: ein Bereich der Unicode-Nummerierung ist allerdings für "private Zwecke" freigegeben, d.h. in diesem ganz besonderem Bereich darf jeder seine eigenen Zeichen woauchimmer wieauchimmer plazieren.
Allerdings macht diese "freie Einteilung" nur Sinn, wenn eine entsprechende Schriftarten-Datei kreiert und ausgeliefert wird.
Kollisionen sind in diesem Bereich nicht ausgeschlossen: es gibt kein "Patentschutz" bzw. Anspruch auf ein bestimmtes Zeichen in diesem Bereich.
Somit entspricht dieser Bereich von der Idee her das alte ISO-8859 (und ähnliche) Zeichensatz-System.