|
|||
Welche bzw. wieviele Sprachen unterstützt UTF-8
Guten Morgen,
ich habe schon viel über UTF-8 gelesen usw. Allerdings war das alles immer sehr technisch (Bits und Bytes) und ich habe bis dato noch keine Angabe darüber gefunden, wievele Sprachen UTF-8 nun genau unterstützt. Vielleicht wisst ihr ja mehr. Danke schon mal. Gruß, Clark |
Sponsored Links |
|
||||
UTF-8 ist nur eine Zeichenkodierung des UCS, des Zeichensatzes des Unicode-Standards, für den allgemeinen Gebrauch meist einfach als Unicode bezeichnet. Mit UTF-8 werden also Unicode-Zeichen kodiert.
Der Unicode-Zeichensatz selbst unterstützt keine Sprachen, jedoch deren Schriftzeichen. So umfasst der Unicode-Zeichensatz nahezu alle bekannten, sinntragende Zeichen. Auf DecodeUnicode.org kannst du dir insgesamt 98884 Zeichen, beziehungsweise deren Glyphen, anschauen. Der Vorteil von Unicode ist, dass eben alle Zeichen direkt kodiert werden können und nicht durch Zeichenreferenzen oder ähnliches dargestellt werden müssen. Kodierungen wie „ä“, „ß“, etc. sind also nicht mehr nötig.
__________________
Markus Wulftange |
Sponsored Links |
|
||||
Vielleicht findest du Michael Jendryschiks Erklärung zu Zeichenkodierung verständlicher. Das Thema lässt sich aber leider nicht ohne technische Erläuterungen erklären.
__________________
Markus Wulftange |
|
|||
Hm okay, den Sinn verstehe ich jetzt. Wozu sind dann aber UTF-16 und UTF-32 da, wenn UTF-8 selbst Chinesisch kann?
Ich dachte bis dato immer, dass so ein komplexe Sprache wie Chinesisch mindestens UTF-16 benötigen würde... Wirklich nett, dass ihr so genau versucht das zu erklären. Gruß, Clark |
|
||||
UTF-8, UTF-16 und UTF-32 sind alles Unicode-Kodierungen mit unterschiedliche Wortlänge. Bei UTF-16 un UTF-32 sind es 16 beziehungsweise 32 Bit, bei UTF-8 je nach Position des zu kodierenden Zeichens acht, 16, 24 oder 32 Bit.
Der Vorteil von UTF-8 gegenüber den anderen UTF-Kodierungen ist, dass eben nur so viele Bits wie unbedingt nötig verwendet werden. So benötigt beispielsweise das „a“ (U+0061) in UTF-8 nur acht Bit, in UTF-16 jedoch 16 und UTF-32 eben 32 Bit.
__________________
Markus Wulftange Geändert von Gumbo (09.01.2008 um 12:45 Uhr) |
|
||||
Wichtig ist dabei noch, explizit UTF-8 als zu verwendende Kodierung anzugeben. Denn in den meisten Webbrowsern ist ISO 8859-1 als Standardkodierung/-zeichensatz eingestellt. (Siehe auch Sonderzeichen falsch dagestellt.)
Zudem solltest du auf die BOM verzichten, da diese einerseits für UTF-8 nicht notwendig ist und ebenfalls zu Fehlinterpretationen führen kann.
__________________
Markus Wulftange |
Sponsored Links |
|
||||
http://xhtmlforum.de/46614-merkzette...-berblick.html
Etwas könnte Dich verwirren: Im (X)HTML Standard (u.a.) werden die Begriffe "Kodierung" und "Character set" zum Teil unglücklich/unlogisch vermischt bzw.gemixt. Die Angabe Zitat:
Die Angabe Zitat:
Logisch korrekt (aber leider nicht valid) wäre so etwas wie: Zitat:
- "ISO-8859-1" steht für einen Zeichensatz (character set) - "UTF-8" steht für eine bestimmte Form der Kodierung aller Unicode Zeichen Aber: Für Dich wichtig ist zunächst nur wie der Standard definiert ist bzw. wie er funktioniert Und das reicht für's Schreiben/Programmieren von Internetseiten.
__________________
To attain knowledge, add things everyday. To obtain wisdom, remove things everyday. (Lao Tzu) Links : Some needfull links (Delphi, XHTML...) Tools : Arpoon Freeware (Checksum...) |
Sponsored Links |
Themen-Optionen | |
Ansicht | |
|
|