XHTMLforum

XHTMLforum (http://xhtmlforum.de/index.php)
-   Knowledge Base (http://xhtmlforum.de/forumdisplay.php?f=79)
-   -   Merkzettel: Charset, Encoding und Unicode verstehen und anwenden (http://xhtmlforum.de/showthread.php?t=46608)

Loïs Bégué 28.06.2007 11:24

Merkzettel: Charset, Encoding und Unicode verstehen und anwenden
 
Erste Anlaufstellen:

"Tutorial: Character sets & encodings in XHTML, HTML and CSS" !!!!!
W3C I18N Tutorial: Character sets & encodings in XHTML, HTML and CSS
(Überschriften sind im Menü Links)

"Internationalization Best Practices: Character and Encoding in XHTML & HTML Content"
Authoring Techniques for XHTML & HTML Internationalization: Characters and Encodings 1.0 -- (Editors' copy)

"IANA charset registry:"
http://www.iana.org/assignments/character-sets
(alle Charsets inkl. Beschreibung)

"Unicode Character Code Charts By Script"
Code Charts - Scripts


Zur Erinnerung:

In (West-)Europa sollte "ISO8859-15" (neu) gegenüber "ISO8859-1" (alt) den Vorzug gegeben werden.
Unter anderem wegen dem Zeichen.

Gumbo 28.06.2007 12:53

Ich ziehe Unicode allen anderen Zeichensätzen vor, vor allem, weil dieser sämtliche sinntragenden Zeichen enthält.

Loïs Bégué 28.06.2007 15:04

Fast...
 
Zitat:

Zitat von Gumbo (Beitrag 338765)
Ich ziehe Unicode allen anderen Zeichensätzen vor, vor allem, weil dieser sämtliche sinntragenden Zeichen enthält.

Fast: Unicode ist kein Zeichensatz sondern ein Kodierungssystem ;)

Siehe mein Beitrag:
Merkzettel: Unicode Überblick

Gruß,
Loïs

inta 28.06.2007 16:06

Unicode entspricht durchaus einem Zeichensatz (bezeichnet aber auch den Standard), eine zugehörige Kodierung ist z.B. UTF.

Loïs Bégué 28.06.2007 16:51

Zitat:

Zitat von inta (Beitrag 338794)
Unicode entspricht durchaus einem Zeichensatz (bezeichnet aber auch den Standard), eine zugehörige Kodierung ist z.B. UTF.

Unicode entspricht einem Zeichensatz ??? :shock:

Definitiv und unwiderruflich nein!
  1. dieser "Unicode Zeichensatz" würde ALLEN möglichen Zeichen aller Zeiten, Länder und Platformen beinhalten. Was aber klar gegen die "Blöcke" bzw. die Idee und die Definition von "Satz" sprechen würde.
  2. UTF-8 ist eine Kodierung der Unicode Zeichenliste, die wiederum ALLE Zeichen beinhaltet (zumindest in der Theorie, da die Inventarisierung noch nicht ganz abgeschlossen ist).
:thumbsup:

Ich gebe zu, diese Unterschiede sind nicht ganz trivial und die Begriffe werden oft missbräulich verwendet :?

IMHO ist es aber besser die Sache richtig zu stellen und damit zu verhindern, dass Missverständnisse wie diese weiterhin bestehen.

Wie gesagt: siehe den Merkzettel zu Unicode...

Gruß,
Loïs

inta 28.06.2007 17:11

Als Zeichensatz bezeichnet man einen gewissen Vorrat an Zeichen die zur Verfügung stehen um irgendetwas darzustellen.
Oder wie es in der Wikipedia ausgedrückt wird:
Zitat:

In der Computertechnik versteht man unter einem Zeichensatz die Zuordnung der alphanumerischen Zeichen zu einer Zahl.
Demnach ist Unicode sehr wohl ein Zeichensatz, auch wenn er sich technisch von anderen Zeichensätzen unterscheidet. Alle anderen Bezeichnungen führen nur zu noch mehr Verwirrung als eh schon herrscht. Zeichensatz ist an dieser Stelle definitiv nicht falsch.

Es reicht aus zwischen "Zeichensatz" (z.B. Unicode) und "Zeichenkodierung" (z.B. UTF-8 ) zu unterscheiden.

Gumbo 28.06.2007 19:33

Zitat:

Zitat von Loïs Bégué (Beitrag 338789)
Fast: Unicode ist kein Zeichensatz sondern ein Kodierungssystem ;)

Siehe mein Beitrag:
Merkzettel: Unicode Überblick

Gruß,
Loïs

Um genau zu sein ist Unicode nur ein Standard zur Entwicklung eines allgemeingültigen und allumfassenden Zeichensatzes. „Unicode gibt jedem Zeichen seine eigene Nummer“, lautet es auf Unicode.org, was genau der Definition eines Zeichensatzes entspricht: die eindeutige Zuordnung der verfügbaren Zeichens (des Zeichenvorrats) zu einer Nummer. Daher ist es durchaus legitim, Unicode einen Zeichensatz zu nennen.


Von deinem Unicode-Merkzettel halte ich allerdings nicht viel. Ich bin eher der Meinung, dass damit mehr Missverständnisse aufkommen als geklärt werden. So ist UTF-8 beispielsweise eine Kodierung und kann somit auch keine Zeichen enthalten (ein Zeichensatz dagegen schon), sondern nur kodieren. Die Tatsache, dass der Unicode-Zeichensatz in Blöcke unterteilt ist, ist eher eine unnötige Zusatzinformation, die im täglichen Umgang mit Unicode nicht hilfreich ist. Und der Unterschied zwischen Zeichensatz und Schriftsystem – ganz zu schweigen von der mir wichtigeren aber fehlenden Unterscheidung von Zeichensatz und Zeichenkodierung – ist auch eher verwirrend als aufschlussreich.

Als Merkzettel ist es in meinen Augen daher nicht sehr hilfreich. Da empfehle ich lieber Michael Jendryschiks „Zeichenkodierung – Einführung in XHTML, CSS und Webdesign“.

Loïs Bégué 29.06.2007 11:19

Zitat:

Zitat von inta (Beitrag 338809)
Als Zeichensatz bezeichnet man einen gewissen Vorrat an Zeichen die zur Verfügung stehen um irgendetwas darzustellen.
Oder wie es in der Wikipedia ausgedrückt wird:


Demnach ist Unicode sehr wohl ein Zeichensatz, auch wenn er sich technisch von anderen Zeichensätzen unterscheidet. Alle anderen Bezeichnungen führen nur zu noch mehr Verwirrung als eh schon herrscht. Zeichensatz ist an dieser Stelle definitiv nicht falsch.

Es reicht aus zwischen "Zeichensatz" (z.B. Unicode) und "Zeichenkodierung" (z.B. UTF-8 ) zu unterscheiden.

Die Etymologie von "Satz" führt zu "Gruppe" bzw. "(An-)Teil".
"(An-)Teil" bzw. "Satz" werden eher selten angewendet, um das "Ganze" zu beschreiben.

"Unicode" ist per Definition das "Ganze".
"Zeichensatz" ist ein "(An-)Teil".

Mag sein, dass im weitesten Sinne bzw. in der Umgangssprache etwas anderes gilt.... Aber wie unterscheidet man dann zwischen "Ganze" und "(An-)Teil" ?

Loïs Bégué 29.06.2007 11:26

@inta:

Die zitierte Wiki-Definition ist eindeutig FALSCH.

Ein Zeichensatz ist eine AUSWAHL an alphanumerischen Zeichen.

Ein Zeichensystem oder Kodierungsystem (bzw. Zeichenkodierung im weitesten Sinne - leider missverständlich) ist eine Zuordnung Zeichen-Code.

Eine Zeichenkodierung (im engeren Sinne) beschreibt die Speicherungsform des Codes.

Leider steht im Wikipedia nicht immer Sinnvolles...

Gruß,
Loïs

inta 29.06.2007 12:05

Dann gibt es hier eine weiter Quelle dazu:
Zeichensatz :: Definition :: IT-Lexikon

Zitat:

Unicode provides a unique number for every character
Dies stammt von unicode.org und entspricht der Definition eines Zeichensatzes.
Unicode ist ein Standard und damit auf jeden Fall mehr als nur ein Zeichensatz, trotzdem beinhaltet es eben diesen.

Führ doch bitte ein paar Quellen an, durch bloße Behauptungen lasse ich mich nicht überzeugen.


Alle Zeitangaben in WEZ +2. Es ist jetzt 03:01 Uhr.

Powered by vBulletin® Version 3.8.11 (Deutsch)
Copyright ©2000 - 2024, vBulletin Solutions, Inc.

© Dirk H. 2003 - 2023