Mojibake
Mojibake (文字化け, hääldatakse /modʑibake/) on nimetus valedele, loetamatutele märkidele, mida kuvatakse, kui arvutitarkvara ei näita teksti õigesti. Arvutite kasutamisel kodeeritakse tekst tähemärkide kodeeringuga. Ülekandmisel asendatakse iga märk selle positsiooniga (või numbriga) kodeeringus. Tähemärgi uuesti kuvamiseks asendatakse positsioon taas tähemärgiga. Kui algset kodeeringut ei ole määratud, võib kasutada teistsugust märki, kui number asendatakse taas näitamiseks märgiga. Unicode võeti kasutusele selle probleemi lahendamiseks: UTF-8 suudab enamikku levinud märke kodeerida 2 baidiga.
Enne Unicode'i kasutuselevõttu kasutati muid tähemärkide kodeeringuid. Näiteks ISO-8859 sisaldab 15 erinevat kodeeringut. Need on samad inglise keeles tavaliselt kasutatavate märkide jaoks. Neil on mitu "erimärkide blokki", mis on iga kodeeringu puhul erinevalt esitatud.
Nii võib veebileht välja näha, kui kasutatakse vale kirjakoodeerimist.
Jaapani Vikipeedia artiklis Mojibake kasutatakse UTF-8 kodeeringut. See ekraanipilt näitab, kuidas see välja näeb, kui see dekodeeritakse, kasutades Windowsi standardset CP1252 kodeeringut.
Sõna päritolu
Mojibake on jaapani sõna. Sõna 文字化け ([moʥibake]) koosneb kahest osast. 文字 (moji) tähendab kirja, märki. 化け (bake), verbist 化ける (bakeru), tähendab ilmuda maskeerituna, võtta kuju, muutuda halvemuse poole. Sõna otseses mõttes tähendab see "tegelase mutatsioon".
Küsimused ja vastused
K: Mis on "mojibake"?
V: Mojibake on termin vigaste ja loetamatute tähtede kohta, mis ilmnevad, kui arvutitarkvara ei suuda teksti õigesti kuvada.
K: Kuidas kodeeritakse teksti arvutite kasutamisel?
V: Teksti kodeerimisel kasutatakse tähemärkide kodeerimist, kus iga tähemärk asendatakse selle koha või numbriga kodeeringus.
K: Mis juhtub, kui teksti edastamisel ei ole algset kodeeringut määratud?
V: Kui algset kodeeringut ei ole määratud, võidakse kasutada teist märki, kui number asendatakse kuvamiseks mõeldud märgiga.
K: Mis on Unicode ja kuidas see probleemi lahendab?
V: Unicode on tähemärkide kodeerimise standard, mis võimaldab esitada enamikku tähemärke kahe baidiga. See lahendab erinevate tähemärkide kodeeringute kasutamise probleemi ja tagab tähemärkide korrektse kuvamise.
K: Millised on mõned näited muudest tähemärkide kodeeringutest, mida kasutati enne Unicode'i?
V: ISO-8859 on näide muust tähemärkide kodeerimisest, mida kasutati enne Unicode'i.
K: Mitu erinevat kodeeringut sisaldab ISO-8859?
V: ISO-8859 sisaldab 15 erinevat kodeeringut.
K: Kas ISO-8859 erimärgid on kõikides kodeeringutes samad?
V: Ei, ISO-8859 erimärgid on iga kodeeringu puhul erinevalt esitatud.