Tegnsæt

Termen tegnsæt (eng. character set) indenfor datalogi anvendes mere eller mindre i flæng på dansk (og engelsk) om flere distinkte termer:^[1]

tegnrepetoire (eng. character repetoire) - citat: "en mængde af distinkte tegn (incl. skrifttegn)."
tegnkode, tegnkodetabel (eng. character code) - citat: "en tabel som én-til-én-afbilder mellem skrifttegn i et tegnrepetoire - og en mængde af ikke-negative heltal."
tegnkodning (eng. character encoding) - citat: "en metode (algoritme) til at afbilde tegnkoder til oktetter."

Tegnrepetoirer

Bogstaverne er måske de mest benyttede skrifttegn, de kaldes alfabetiske tegn. Hertil kommer cifrene, som kaldes numeriske tegn. Mængden af skrifttegnene bogstaver og tal kaldes for alfanumeriske tegn.

De første tegnrepetoirer havde kun brug for 64 forskellige skrifttegn, hvilket omfatter store bogstaver, tal og andre skrifttegn. Det betød at man kunne nøjes med en tegnkodningsstørrelse på kun 6 bit.

Senere øgede man til 7 bit eller 128 mulige skrifttegn (fx US-ASCII), så både store og små bogstaver blev muligt.

Endelig skulle der også være plads til specielle bogstaver og symboler for enkelte lande, da elektronisk post blev hverdag, og så øgede man til 8 bit eller 256 tegn (fx ISO 8859, ECMA-35, ISO 2022).

8 bit eller 256 tegn er ikke nok, hvis alle verdens sprog skal integreres i et og samme internationale tegnrepetoire.

I Unicode findes tegnkodninger på op til hele 32 bit, mens det vidt udbredte Unicode transformation format-8 (UTF-8) har et varierende antal bits (8,16,24,32) (Unicode 2014). Unicode er en fortløbende og meget lang talrække der på denne måde inkluderer under ét - bl.a. kinesisk, japansk, latinske og kyrilliske alfabeter, koptisk, gotisk, kileskrift, ogam og runealfabet samt endda tegn for nogle kunstsprog såsom fantasisproget Klingon.

Eksempler på tegnrepetoirer:

6-bit Fieldata fra Univac
7-bit American Standard Code for Information Interchange, ((US-)ASCII) - er selv i år 2021 meget anvendt. ASCII var mest anvendt i internettets HTML-sider indtil år 2008 (se illustration).
8-bit EBCDIC IBM's oprindelige tegnsæt
8-bit ISO 8859 en række udvidelser af ASCII.
- fx ISO 8859-1 en udvidelse af ASCII, der omfatter de fleste vesteuropæiske tegn incl. ÆØÅ. Første standard kom i marts 1985 og var pænt udbredt i bl.a. internettets HTML-sider (anvendelse toppede i 2005; se illustration).
Code-page - typisk proprietære tegnkodetabeller - nogle var meget udbredte - selv på (det ikke-proprietære) internet.
Unicode i flere tegnkodninger (og filformater), herunder UTF-8 der er almindelig i et GNU/Linux system (bitantal:8,16,24,32), og UTF-16 (bitantal:16,32) der også er kendt af Microsoft Windows. Det første unicode udkast blev defineret i august 1988 og den første standard blev offentliggjort i oktober 1991. Unicode blev den mest anvendte tegnkodetabel i internettets HTML-sider i 2008 (se illustration). Er i dag (2021) meget anvendt i bl.a. internettets HTML-sider (97,6%^[2]) - og i styresystemer.

Se også

Wikimedia Commons har flere filer relateret til Tegnsæt

Kilder

Eksterne henvisninger

Spire

Denne artikel om datalogi eller et datalogi-relateret emne er en spire som bør udbygges. Du er velkommen til at hjælpe Wikipedia ved at udvide den.

[1] rpela.fi: A tutorial on character code issues, backup

[2] w3techs.com: Historical yearly trends in the usage statistics of character encodings for websites

[1]

[2]