Site map  

Alphabet soup, character sets

Internally computers encode text as sequences of numbers.

US-ASCII

US-ASCII (stuff you might find on a US typewriter) is pretty straightforward;

US-ASCII
NumCh NumCh NumCh NumCh NumCh NumCh
DcHx DcHx DcHx DcHx DcHx DcHx
3220sp 48300 6440@ 8050P 9660` 11270p
3321! 49311 6541A 8151Q 9761a 11371q
3422" 50322 6642B 8252R 9862b 11472r
3523# 51333 6743C 8353S 9963c 11573s
3624$ 52344 6844D 8454T 10064d 11674t
3725% 53355 6945E 8555U 10165e 11775u
3826& 54366 7046F 8656V 10266f 11876v
3927' 55377 7147G 8757W 10367g 11977w
4028( 56388 7248H 8858X 10468h 12078x
4129) 57399 7349I 8959Y 10569i 12179y
422A* 583A: 744AJ 905AZ 1066Aj 1227Az
432B+ 593B; 754BK 915B[ 1076Bk 1237B{
442C, 603C< 764CL 925C\ 1086Cl 1247C|
452D- 613D= 774DM 935D] 1096Dm 1257D}
462E. 623E> 784EN 945E^ 1106En 1267E~
472F/ 633F? 794FO 955F_ 1116Fo
Legend
NumNumber
ChCharacter
DcDecimal
HxHexadecimal
spSpace

So an 'A' is 65, a 'B' 66, etc.

non-ASCII

Encoding non-ASCII can be done in many different ways.
Below just some of the ways this can be done;

Character sets
Num ISO-8859-1 to ISO-8859-16 Windows-1250 to Windows-1258 CP437-775 CP850 to CP874
DecHex 1 2 3 4 5 6 7 8 9101113141516505152535455565758437737775505255576061626365666974
12880C1 Control codesЂÇΑĆÇÇђÇÇÇאÇÇА
12981 Ѓ پ üΒüüüЂüüüבüüБ
13082éΓéééѓéééגééВ
13183 ѓƒƒƒƒƒ ƒâΔāââЃâââדââГ
13284äΕäääёäãäהÂäД
13385àΖģàůЁàààוààЕ
13486åΗååćєåÁåזåЖΆ
13587çΘćççЄçççחççЗ
13688 ˆ ˆˆˆ ˆêΙłêłѕêêêטêêИ·
13789ëΚēëëЅëÊëיëëЙ¬
1388AŠЉŠ Š ٹ èΛŖèŐіèèèךèèК¦
1398BïΜŗïőІïÍÐכïïЛ
1408CŚЊŒ Œ Œ ŒîΝīîîїîÔðלîîМ
1418DŤЌ چ¨ ìΞŹìŹЇıìÞםìНΈ
1428EŽЋŽ ژˇ ÄΟÄÄÄјÄÃÄמÀÄО
1438FŹЏ ڈ¸ ÅΠÅÅĆЈÅÂÅן§ÅПΉ
14490 ђ گ ÉΡÉÉÉљÉÉÉנÉÉРΊ
14591æΣææĹЉæÀæסÈæСΪ
14692ÆΤÆÆĺњÆÈÆעÊÆТΌ
14793ôΥōôôЊôôôףôôУ
14894öΦöööћöõöפËöФ
14995òΧĢòĽЋòòþץÏòХΎ
15096ûΨ¢ûľќûÚûצûûЦΫ
15197ùΩŚùŚЌùùÝקùùЧ©
15298 ˜ ˜˜ک ˜ÿαśÿśўİÌýר¤ÿШΏ
15399ÖβÖÖÖЎÖÕÖשÔÖЩ²
1549Ašљš š ڑ ÜγÜÜÜџÜÜÜתÜÜЪ³
1559B¢δøøŤЏø¢ø¢¢øЫά
1569Cśњœ œ œ œ£ε££ťю££££££Ь£
1579Dťќ zwn¯ ¥ζØØŁЮØÙØ¥ÙØЭέ
1589Ežћž zwj˛ η×××ъŞÛЮή
1599FźџŸ Ÿ ں Ÿƒθ¤ƒčЪşÓƒƒƒƒЯί
160A0NBSP (Non Breaking Space)áιĀááаáááá¦áаϊnsp
161A1¡ĄĦĄЁ ¡Ą¡ĄˇЎ¡΅¡¡، ¡íκĪííАíííí´íбΐ
162A2¢˘˘ĸЂ ¢¢Ē¢¢ą˘ў¢Ά¢¢¢¢¢óλóóóбóóóóóóвό
163A3£Ł£ŖЃ £££Ģ£££ŁŁЈ£££££££úμŻúúБúúúúúúгύ
164A4¤¤¤¤Є¤¤¤Ī¤Ċ¤¤¤¤¤¤¤¤ñνżñĄцññÁñ¨ñдΑ
165A5¥Ľ ĨЅ ¥¥Ĩċ¥ĄҐ¥¥¥¥¥ ¥ÑξźÑąЦÑÑÍѸÑеΒ
166A6¦ŚĤĻІ ¦¦¦Ķ¦ŠŠ¦¦¦¦¦¦¦¦¦ªοªŽдЪӪ³ªжΓ
167A7§§§§Ї §§§§§§§§§§§§§§§§§ºπ¦ºžДğºÚº¯ºзΔ
168A8¨¨¨¨Ј ¨¨¨ĻØšš¨Ё¨¨¨¨¨Ø¨¿ρ©¿Ęе¿¿¿¿Î¿иΕ
169A9©ŠİŠЉ ©©©Đ©©©©©©©©©©©©©σ®®ęЕ®ÒйΖ
170AAªŞŞĒЊ ͺתŠŖªȘŞЄª ª×ھŖª¬ς¬¬¬ф¬¬¬¬¬¬кΗ
171AB«ŤĞĢЋ «««Ŧ««««««««««««½τ½½źФ½½½½½½л½
172AC¬ŹĴŦЌ،¬¬¬Ž¬¬Ź¬¬¬¬¬¬¬¬¬¼υ¼¼Čг¼¼¼¼¼¼мΘ
173ADSHY (Soft Hyphen)SHY¡φŁ¡şГ¡¡¡¡¾¡нΙ
174AE®Ž ŽЎ ®®Ū®®®ź®®®®®®®®®«χ««««««««««о«
175AF¯ŻŻ¯Џ ¯¯ŊÆŸ¯ŻŻЇ¯¯¯¯Æ¯»ψ»»»»»»»»»¤п»
176B0°°°°А °°°°°°°°°°°°°°°°
177B1±ąħąБ ±±±ą±±±±±±±±±±±±
178B2²˛²˛В ²²²ē²Ġ²Č˛І²²²²²²²
179B3³ł³ŗГ ³³³ģ³ġ³łłі³³³³³³³
180B4´´´´Д ΄´´īŽŽ´ґ´΄´´´´´
181B5µľµĩЕ ΅µµĩµµµµµµµµµµµĄÁÁхÁΚ
182B6śĥļЖ ΆķČÂÂХÂΛ
183B7·ˇ·ˇЗ ················ĘÀĚиÀΜ
184B8¸¸¸¸И Έ¸¸ļøžž¸ё¸Έ¸¸¸ø¸Ė©ŞИ©Ν
185B9¹šıšЙ Ή¹¹đ¹¹čą¹Ή¹¹¹¹¹
186BAºşşēК Ί÷ºšŗºșşєºΊº÷؛ŗº
187BB»ťğģЛ؛»»»ŧ»»»»»»»»»»»»
188BC¼źĵŧМ Ό¼¼ž¼ŒŒĽј¼Ό¼¼¼¼¼
189BD½˝½ŊН ½½½½œœ˝Ѕ½½½½½½½Į¢Żй¢Ξ
190BE¾ž žО Ύ¾¾ū¾ŸŸľѕ¾Ύ¾¾¾¾¾Š¥żЙ¥Ο
191BF¿żżŋП؟Ώ ¿ŋæ¿żżї¿Ώ¿¿؟æ¿
192C0ÀŔÀĀР ΐ ÀĀĄÀÀÀŔАÀΐÀְہĄÀ
193C1ÁÁÁÁСءΑ ÁÁĮÁÁÁÁБÁΑÁֱءĮÁ
194C2ÂÂÂÂТآΒ ÂÂĀÂÂÂÂВÂΒÂֲآĀÂ
195C3ÃĂ ÃУأΓ ÃÃĆÃÃĂĂГÃΓÃֳأĆĂ
196C4ÄÄÄÄФؤΔ ÄÄÄÄÄÄÄДÄΔÄִؤÄÄ
197C5ÅĹĊÅХإΕ ÅÅÅÅÅĆĹЕÅΕÅֵإÅÅ
198C6ÆĆĈÆЦئΖ ÆÆĘÆÆÆĆЖÆΖÆֶئĘÆŲãĂкãΠ
199C7ÇÇÇĮЧاΗ ÇĮĒÇÇÇÇЗÇΗÇַاĒÇŪÃăКÃΡ
200C8ÈČÈČШبΘ ÈČČÈÈÈČИÈΘÈָبČÈ
201C9ÉÉÉÉЩةΙ ÉÉÉÉÉÉÉЙÉΙÉֹةÉÉ
202CAÊĘÊĘЪتΚ ÊĘŹÊÊÊĘКÊΚÊ تŹÊ
203CBËËËËЫثΛ ËËĖËËËËЛËΛËֻثĖË
204CCÌĚÌĖЬجΜ ÌĖĢÌÌÌĚМÌΜÌּجĢ̀
205CDÍÍÍÍЭحΝ ÍÍĶÍÍÍÍНÍΝÍֽحĶÍ
206CEÎÎÎÎЮخΞ ÎÎĪÎÎÎÎОÎΞÎ־خĪÎ
207CFÏĎÏĪЯدΟ ÏÏĻÏÏÏĎПÏΟÏֿدĻÏŽ¤¤¤¤Σ
208D0ÐĐ ĐаذΠ ĞЊŴÐĐĐРÐΠĞ׀ذŠĐąðđлºΤ
209D1ÑŃÑŅбرΡ ÑŅŃÑÑŃŃСÑΡÑׁرŃÑčÐĐЛªΥ
210D2ÒŇÒŌвز ÒŌŅÒÒÒŇТÒ ÒׂزŅ̉ęÊĎмÊΦ
211D3ÓÓÓĶгسΣ ÓÓÓÓÓÓÓУÓΣÓ׃سÓÓėËËМËΧ
212D4ÔÔÔÔдشΤ ÔÔŌÔÔÔÔФÔΤÔװشŌÔįÈďнÈΨ
213D5ÕŐĠÕеصΥ ÕÕÕÕÕŐŐХÕΥÕױصÕƠšıŇН Ω
214D6ÖÖÖÖжضΦ ÖÖÖÖÖÖÖЦÖΦÖײضÖÖųÍÍоÍα
215D7××××зطΧ ×Ũ×׌×Ч×Χ×׳×××ūÎÎОÎβ
216D8ØŘĜØиظΨ ØØŲØØŰŘШØΨØ״طŲØžÏěпÏγ
217D9ÙŮÙŲйعΩ ÙŲŁÙÙÙŮЩÙΩÙ ظŁÙ
218DAÚÚÚÚкغΪ ÚÚŚÚÚÚÚЪÚΪÚ عŚÚ
219DBÛŰÛÛл Ϋ ÛÛ ŪÛÛÛŰЫÛΫÛ غŪÛ
220DCÜÜÜÜм ά ÜÜ ÜÜÜÜÜЬÜάÜ ـÜÜ
221DDÝÝŬŨн έ İÝ ŻÝÝĘÝЭÝέİ فŻƯ¦ŢП¦δ
222DEÞŢŜŪо ή ŞÞ ŽŶÞȚŢЮÞήŞ قŽ̃ÌŮяÌε
223DFßßßßп ίßß฿ßßßßßЯßίß كßß฿
224E0àŕàāрـΰאàāąàààŕаàΰàאàąàαωÓÓÓЯÓαααααрζ
225E1ááááсفαבááįááááбáαáבلįáßάßßßрßßßßßßсη
226E2ââââтقβגââāââââвâβâגâāâΓέŌÔÔРÔΓΓΓΓΓтθ
227E3ãă ãуكγדããćããăăгãγãדمćăπήŃÒŃсÒπππππуι
228E4ääääфلδהäääääääдäδäהنääΣϊõõńСõΣΣΣΣΣфκ
229E5åĺċåхمεוåååååćĺеåεåוهååσίÕÕňтÕσσσσσхλ
230E6æćĉæцنζזææęæææćжæζæזوęæµόµµŠТµµµµµµцμ
231E7çççįчهηחçįēççççзçηçחçēçτύńþšу τττττчν
232E8èčèčшوθטèččèèèčиèθèטèčèΦϋĶÞŔУ×ΦΦΦΦΦшξ
233E9ééééщىιיéééééééйéιéיéééΘώķÚÚжÚΘΘΘΘΘщο
234EAêęêęъيκךêęźêêêęкêκêךêźêΩΆĻÛŕЖÛΩΩΩΩΩъπ
235EBëëëëыًλכëëėëëëëлëλëכëėëδΈļÙŰвÙδδδδδыρ
236ECìěìėьٌμלìėģìììěмìμìלىģ́ΉņýýВìьσ
237EDííííэٍνםííķííííнíνíםيķíφΊĒÝÝьÿφφφφφэς
238EEîîîîюَξמîîīîîîîоîξîמîīîεΌŅ¯ţЬ¯εεεεεюτ
239EFïďïīяُοןïïļïïïďпïοïןïļïΎ´´´я΄
240F0ðđ đِπנğðšŵðđđрðπğנًšđΏ­­­­­Ё­
241F1ñńñņёّρסñņńññńńсñρñסٌńñ±±±±˝ы±±±±±±ё±
242F2òňòōђْςעòōņòòòňтòςòעٍņ̣˛Ы Єυ
243F3óóóķѓ σףóóóóóóóуóσóףَóó¾¾ˇз¾єφ
244F4ôôôôє τפôôōôôôôфôτôפôōôΪ˘ЗЇχ
245F5õőġõѕ υץõõõõõőőхõυõץُõơΫ§§§ш§ї§
246F6ööööі φצöööööööцöφöצِöö÷÷÷÷÷Ш÷÷÷÷÷÷Ўψ
247F7÷÷÷÷ї χק÷ũ÷÷ś÷ч÷χ÷ק÷÷÷¸¸э¸ў΅
248F8øřĝøј ψרøøųøøűřшøψøרّųø°°°°°Э°°°°°°°°
249F9ùůùųљ ωשùųłùùùůщùωùשùłù¨¨щ¨¨
250FAúúúúњ ϊתúúśúúúúъúϊúתْśú····˙Щ·······ω
251FBûűûûћ ϋ ûûūûûûűыûϋû ûūû¹¹űч¹ϋ
252FCüüüüќ ό üü üüüüüьüόü üüü³³ŘЧ³ΰ
253FDýýŭũ§ ύlrmıý żýýęýэýύılrmlrmżư²²²²ř§²²²²²²¤ώ
254FEþţŝūў ώrlmşþ žŷþțţюþώşrlmrlmž
255FFÿ˙˙˙џ ÿĸ ÿÿÿ˙яÿ ÿ ے˙ÿnspnspnspnspnspnspnspnspnspnspnspnspnspnsp
Legend
nspNO-BREAK SPACE
zwnZERO WIDTH NON-JOINER
zwjZERO WIDTH JOINER
lrmLEFT-TO-RIGHT MARK
rlmRIGHT-TO-LEFT MARK

Confusing isn't it? Imagine the confusion when you send someone a file without specifying the charset. Or send an email, post on social media or write a webpage without specifying the charset.
The table above lists 39 ways to interpret your text. And there are many more charsets than just these 39. The confusion caused by the absence of a character set is known as alphabet soup, mojibake, character transformation, letter salad, chaotic code, monkey's alphabet, trash, garbage lettering or deformation. This example clearly demonstrates the problem.

The good news news is, that all of this is obsolete. And has been for more than a decade. Just configure all your stuff to use Unicode UTF-8 instead.

Newsclients

Newsclients unsuited for non-ASCII

These programs do not state the characterset in their headers;

More info on newsclients