ISO 8859-1
ISO 8859-1 eða óformlega Latin-1 (latneskt stafróf nr. 1; formlega ISO/IEC 8859-1:1998) er staðall fyrir stafakóðun, gerður fyrir m.a. íslensku, sem var fyrst birt árið 1987 og er hluti af ISO/IEC 8859-seríunni. Windows-1252 (líka kallað CP-1252) er stundum notað í staðinn, sem hefur öll sömu prentanlegu táknin og að auki t.d evrumerkið og íslenskar gæsalappir (sem eru líka notaðar í sumum málum eins og þýsku), og betri stuðning við frönsku og finnsku. Því er í flestum tilvikum betra að nota Windows-1252 og skilgreina það beint, ef ekki að fara yfir í Unicode staðalinn, þ.e. t.d. UTF-8, sem hefur alla sömu stafi samhæft við ISO 8859-1 og að auki stafi fyrir öll (lifandi) tungumál, og notkun á UTF-8 hefur ákveðna kosti fram yfir jafnvel þótt eingöngu sé notast við íslensku.
Stafatöflurnar eru báðar hálf úreldar, ráða t.d. ekki við emoji/broskalla (auk annarra sem byggja ekki á Unicode), nema kannski í sértilvikum, en báðar hafa fullan stuðning við mörg vesturevrópsk mál, t.d. norsku, færeysku, ítölsku, spænsku og portúgölsku (ISO 8859-1 er t.d. áberandi meira notuð í Brasilíu en annars staðar); og svahílí og afríkönsku. En ekki grísku, svo t.d. ekki góðar fyrir stærðfræði sem notar þannig stafi.
ISO-8859-1 var (samkvæmt staðlinum, a.m.k.) sjálfgefin kóðun skjala sem afhent voru með HTTP með MIME týpu sem byrjar á text/
, sjálfgefna kóðun gilda tiltekinna lýsandi HTTP-hausa (e. HTTP headers).
Rétt yfir 1% af öllum vefsíðum skilgreina notkun á ISO/IEC 8859-1.[1] Sem gerir það að mest notaða gamaldags/eins-bætis stafasettinu, en vafrar túlka það þó sem notkun á Windows-1252, svo í raun má segja það vinsælast. Sum lönd eða tungumál sýna meiri notkun en heimsmeðaltalið, t.d. er notkunin þó nokkuð mikil í Brasilíu reiknað út frá vefsíðunotkun, en þó langt á eftir UTF-8[2] og í Þýskalandi.[3]
Eini kostur Windows-1252 (og ISO 8859-1) er ákv. einfaldleiki, því 1 bæti per staf, þ.e. 256 mismundandi tákn dugar fyrir íslensku og ýmis mál (þó aldrei öll, engir staðlar til einu sinni fyrir öll vesturevrópsk mál því 256 möguleikar of fáir), en UTF-8 tekur 1 bæti upp í 4 fyrir tákn, og ræður því við yfir milljón tákn/stafi; t.d. 4 fyrir broskalla/emoji, sem eru ekki studdir nema með Unicode/UTF-8. Styður líka t.d. gríska stafi með, s.s. fyrir stærðfræði, kínverska, arabíska o.s.frv. en líka misbreið bandstrik og bil, sem nýtast flestum málum og í íslensku. Eini ókostur UTF-8 er að örfáir, séríslensku stafirnir, og tákn, taka ekki lengur 1 bæti (og því tekur íslenskur texti örlítið meira pláss í minni).
ISO 8859-1 hefur t.d. til viðbótar við ASCII, auk stafa margra tungumála, óskiptanlegt bil (U+00A0 NO-BREAK SPACE (
,  
) e. non-breaking space, líka kallað NBSP, eða required space) og skilyrt/laust bandstrik/skiptistrik (U+00AD SOFT HYPHEN (­
) eða e. syllable hyphen), og t.d. ©, ®, og £ fyrir (bresk) pund, ¢ fyrir sent, sem er áhugavert því ASCII eingöngu, gert fyrir Bandaríkin, hefur sent-merki, aðeins dollaramerkið, $, svo ISO 8859-1 er líka aðeins betra þar því með bæði táknin). Windows-1252 hefur þar að auki evrumerkið, € og ™.
Smáatriði
[breyta | breyta frumkóða]ASCII ræður við ensku en aðeins örfá önnur tungumál, t.d. rótokas.
ISO 8859-1 bætir við 128 mögulegum táknum (og notar því átta bita og ef fyrsti bitinn er 0, er um ASCII hlutmengið að ræða), þar á meðal eru allir séríslensku stafirnir, en ekki séríslenskar gæsalappir, né heldur evrutáknið sem er ein aðalástæðan fyrir að nota frekar Windows-1252.
Hver stafur í ISO 8859-1 er táknaður með 1 bæti, og sama á við um allar stafatöflur í seríunni, og t.d. líka fyrir Windows-1252 sem hefur alla sömu stafi, á sama stað, og nokkra fleiri, en skiptir aðeins út svokölluðum C1 óprentanlegum kóðum (e. C1 control code), fyrir prentalega stafi.
Fyrstu 128 táknin í ISO 8859-1 og í Windows-1252 eru sömu og í ASCII stafatöflunni (þar táknuð með 7 bitum) sem inniheldur ekki séríslenska stafi, né aðra umfram ensku sem notaðir eru í ýmsum löndum. Öll ASCII tákn eru sjálfkrafa UTF-8, og táknuð eins, eða með 0 bita fremst, restin af ISO 8859-1 er táknuð með 2 bætum (þ.e. á annan hátt, þó með sömu code point númer), sem dæmi hver séríslenskur stafur, 3 bæti fyrir hvora séríslanska gæsalöpp, og líka 3 bæti fyrir evrumerkið. Mjög fátt annað en emoji taka 4 bæti (sem eru hvort eð ekki studd í eldri stöðlum) og kínverskir stafir.
Í sögulegu samhengi hafa aðrar stafatöflur verið notaðar fyrir íslensku líka t.d. Mac OS Icelandic encoding, sem nú er úreld, með séríslensku stafina ekki á öðrum stöðum, notað á eldri Mackintosh tölvum, sem þýddi ósamhæfni við IBM PC tölvur. ISO 8859-15 styður líka íslensku og er samhæft varðandi íslenskuna, þ.e. þeir stafir á sama stað, aðrir stafir og evrumerkið ekki, og t.d. vantar séríslenskar gæsalappir. Aðrar ósamhæfðar: Code page 858, 861 og code page 850/DOS Latin 1. Á stórtölvum hefur IBM-861, IBM-871, og IBM-1139 (með evru)[4] verið notað fyrir íslensku, en líka UTF-8.
Tengt efni
[breyta | breyta frumkóða]- ↑ „Historical trends in the usage statistics of character encodings for websites“ [Söguleg þróun í notkunartölfræði stafakóðunar fyrir vefsíður]. W3Techs. Sótt 12 janúar 2025.
- ↑ „Distribution of character encodings among websites that use Brazil“. W3Techs. Sótt 12 janúar 2025.
- ↑ „Distribution of character encodings among websites that use .de“. W3Techs. Sótt 12 janúar 2025.
- ↑ https://www.ibm.com/docs/en/icfsfz/11.3.0?topic=support-code-page-converters