Kodowanie ASCII. Tabela kodowania ASCII

Przez kodowanie informacji w komputerze odnosi się do procesu przekształcania go w formę, która pozwala organizować wygodniejsze przesyłanie, przechowywanie lub automatyczne przetwarzanie tych danych. W tym celu wykorzystywane są różne tabele. Kodowanie ASCII to pierwszy system opracowany w Stanach Zjednoczonych do pracy z tekstem w języku angielskim, który następnie został rozpowszechniony na całym świecie. Jego opis, cechy, właściwości i dalsze wykorzystanie są poświęcone poniższemu artykułowi.

Wyświetlanie i przechowywanie informacji w komputerze

Symbole na monitorze komputera lub mobilnym gadżecie cyfrowym są tworzone na podstawie zestawów form wektorowych różnych symboli kodowych, co pozwala znaleźć wśród nich symbol, który należy włożyć do potrzebuję miejsca. Jest to sekwencja bitów. Zatem każdy znak musi odpowiadać zestawowi zer i jednostek, które są w określonej, unikalnej kolejności.

Jak to wszystko się zaczęło

Historycznie pierwsze komputery były anglojęzyczne. Aby zakodować w nich informacje o znakach, wystarczyło użyć tylko 7 bitów pamięci, podczas gdy w tym celu przydzielono 1 bajt składający się z 8 bitów. Liczba znaków rozumianych przez komputer w tym przypadku wynosiła tylko 128. Znaki te składały się z alfabetu angielskiego z jego znakami interpunkcyjnymi, liczbami i niektórymi znakami specjalnymi. Siedmiobitowe kodowanie w języku angielskim z odpowiednią tabelą (stroną kodową), opracowane w 1963 r., Zostało nazwane Amerykańskim Standardowym Kodeksem InformacjiWymiana Zazwyczaj używany jest skrót "ASCII Encoding" i używany do jego oznaczenia.

Przejdź do wielojęzyczności

Z biegiem czasu, komputery stały się powszechnie używane w non-krajach anglojęzycznych. W związku z tym konieczne było kodowanie, umożliwiające używanie języków narodowych. Postanowiono nie odkrywać roweru na nowo i bazować na ASCII. Tabela kodowania w nowym wydaniu znacznie się rozszerzyła. Używanie ósmego bitu pozwala przetłumaczyć 256 znaków na język komputera.

OPIS

ASCII tabeli kodowania, które są podzielone na 2 części. Za ogólnie przyjętą normę międzynarodową uważa się tylko jej pierwszą połowę. Obejmuje:
  • . Znaków o numerach seryjnych od 0 do 31 kodowanych sekwencji 00000000 do 00011111. są zarezerwowane dla postaci sterowania, które sterują procesem usuwania tekstu na ekranie lub podawania drukarki, dźwięku i tak dalej S.
  • NN postaci w tabeli 32 do 127 z sekwencji kodowanych 00100000 do 01111111 składa się ze standardowej tabeli. Są to miejsca (N 32), przy czym litery alfabetu (wielkie i małe), cyfry dziesięć cyfr od 0 do 9, znaków interpunkcyjnych, nawiasów różnych kształtów i innych symboli.
  • znaków o numerach seryjnych od 128 do 255 z sekwencji kodowanych 10000000 11111111. Te zawarte litery alfabetu krajowych innych niż łaciński. Jest to alternatywna część tabeli kodowania ASCII używana do konwersji rosyjskich znaków na postać komputerową.
  • Niektóre właściwości

    Specjalne funkcje kodowania ASCII przeciwieństwie do litery «A» - «Z» dolne i górne rejestry tylko jednego bitu. Fakt ten znacznie upraszcza konwersję do rejestru i sprawdza, należące do określonego zakresu. Ponadto, wszystkie znaki ASCII kodowania systemis przedstawił własne numery seryjne w alfabecie, napisany pięciu liczb w systemie binarnym, któremu na małe wart 011 2, a górna - 010 2.
    Wśród cech można przypisać kodowania ASCII i prezentacja 10 cyfr - „0” - „9”. W drugim systemie zaczynają się od 00112, a kończą na 2 wartościach liczb. Tak, 0101 2 desyatychnomu równoważne numer pięć jako symbol „5” jest napisane jak 001101012. W oparciu o powyższe, jest łatwy do konwersji liczb binarnych dziesiętne w ASCII zakodowany ciąg dodanie sekwencji bitowej od lewej do każdego polubaytu 00112.

    „Unicode”

    Wiadomym jest, aby wyświetlić tekst w grupie języków Azji Południowo-Wschodniej potrzebują tysiące znaków. To nie jest numer opisany w jeden bajt informacji, więc nawet rozszerzona wersja ASCII nie mógł sprostać rosnącym potrzebom użytkowników z różnych krajów.

    Tak więc potrzeba stworzenia uniwersalnego kodowania, która rozwija się współpraca z wielu światowych liderów zaangażowanych w konsorcjum IT-przemysł Unicode. Jego system powstał ekspertów kodowania UTF 32. 1 znak przeznaczono 32 bity, zawierający 4 bajty danych. NajważniejszeWadą było gwałtowne zwiększenie ilości pamięci wymaganej aż 4 razy, co pociągnęło za sobą wiele problemów. W tym samym czasie, dla większości krajów z oficjalnymi językami należącymi do grupy indoeuropejskiej, liczba znaków równa 2 32 jest większa niż nadwyżka. W wyniku dalszej pracy specjalistów z konsorcjum Unicode pojawiło się kodowanie UTF-16. Stała się opcją konwertowania informacji symbolicznych, które ułożyły się zarówno w ilość wymaganej pamięci, jak i liczbę zakodowanych znaków. Z tego powodu UTF-16 został zaakceptowany domyślnie, a w nim jeden znak wymaga zarezerwowania 2 bajtów. Nawet ta dość zaawansowana i skuteczna wersja Unicode miała pewne wady, a po przejściu z rozszerzonej wersji ASCII do UTF-16, waga dokumentu została podwojona. W związku z tym zdecydowano o użyciu kodowania o zmiennej długości UTF-8. W tym przypadku każdy symbol tekstu źródłowego jest kodowany w sekwencji o długości od 1 do 6 bajtów.

    Link do amerykańskiego standardowego kodu wymiany informacji

    Wszystkie znaki w alfabecie łacińskim w UTF-8 o zmiennej długości są kodowane w 1 bajcie, tak jak w systemie kodowania ASCII. Cechą UTF-8 jest to, że jeśli tekst jest w języku łacińskim bez użycia innych znaków, nawet programy, które nie rozumieją Unicode, nadal będą pozwalały na jego odczytanie. Innymi słowy, podstawowa część kodowania tekstu ASCII po prostu przechodzi do nowej długości zmiennej UTF. Znaki cyrylicy w UTF-8 zajmują 2 bajty i, na przykład, gruziński - 3 bajty. Utworzenie UTF-16 i 8 rozwiązało główny problem tworzenia pojedynczego obszaru kodu w czcionkach. DziękiOd tego czasu producenci czcionek mogą wypełniać tabelę tylko wektorowymi postaciami znaków tekstowych w oparciu o ich potrzeby.
    Różne systemy operacyjne preferują różne kodowania. Aby móc czytać i edytować teksty wpisane w innym kodowaniu, używane są rosyjskie programy transkodowania tekstu. Niektóre edytory tekstu zawierają wbudowane kodery i umożliwiają czytanie tekstu bez względu na kodowanie.
    Teraz już wiesz, ile znaków w kodowaniu ASCII oraz w jaki sposób i dlaczego został opracowany. Oczywiście, dzisiaj najbardziej rozpowszechniony na świecie otrzymał standardowy Unicode. Nie należy jednak zapominać, że jest on oparty na ASCII, więc wartość jego twórców w dziedzinie IT powinna być odpowiednio doceniona.

    Powiązane publikacje