Jaka jest głębia kodowania dźwięku? Definicja, wzór

Kodowanie dźwięku odnosi się do sposobów przechowywania i przesyłania danych dźwiękowych. Poniższy artykuł opisuje działanie tych kodowań. Zauważ, że jest to dość skomplikowany temat - "Głębokość kodowania dźwięku". Definicja tego pojęcia zostanie również podana w naszym artykule. Pojęcia przedstawione w tym artykule są przeznaczone wyłącznie do ogólnego przeglądu. Rozszerzmy pojęcie głębokości kodowania dźwięku. Niektóre z tych odniesień mogą być przydatne w zrozumieniu działania interfejsu API oraz w artykułowaniu i przetwarzaniu dźwięku w aplikacjach.


Jak znaleźć głębokość kodowania dźwięku

Format audio nie jest równoważny kodowaniu audio. Na przykład popularny format pliku, taki jak WAV, określa format nagłówka pliku audio, ale sam nie jest kodowaniem dźwięku. Pliki WAV często, ale nie zawsze używają liniowego kodowania PCM. Z kolei FLAC jest formatem pliku i kodowaniem, co czasami prowadzi do pewnego zamieszania. W Speech API FLAC głębokość kodowania audio jest jedynym kodowaniem, które wymaga danych dźwiękowych zawierających nagłówek. Wszystkie inne kodowanie oznacza ciche dane audio. Kiedy mówimy o FLAC w Speech API, zawsze odnosimy się do kodeka. Kiedy odnosimy się do formatu pliku FLAC, użyjemy formatu .FLAC.
Nie musisz określać szybkości kodowania i próbkowania dla plików WAV lub FLAC. Jeśli ta opcja zostanie pominięta, interfejs API oparty na chmurze automatycznie określa szybkość kodowania i próbkowania dla plików WAV lub FLAC na podstawie nagłówka pliku.Jeśli podasz wartość kodowania lub częstotliwość próbkowania, która nie jest zgodna z wartością w nagłówku pliku interfejsu API w chmurze, zwróci błąd.


Jaka jest głębia kodowania dźwięku?

Dźwięk składa się z oscylogramów składających się z interpolacji fal o różnych częstotliwościach i amplitudach. Aby reprezentować te formy sygnałów w środowisku cyfrowym, sygnały muszą być odrzucane z częstotliwością, która może reprezentować dźwięki o najwyższej częstotliwości, którą chcesz odtwarzać. Dla nich jest również konieczne zachowanie wystarczającej głębokości bitu, aby reprezentować poprawne oscylogramy amplitudy (objętości i miękkości) w oparciu o próbkę dźwiękową. Zdolność do reprodukcji częstotliwości jest znana jako odpowiedź częstotliwościowa, a zdolność do tworzenia odpowiedniej objętości i miękkości jest znana jako zakres dynamiczny. Wszystkie te terminy są często określane jako dźwięk urządzenia dźwiękowego. Głębokość kodowania dźwięku to sposób, dzięki któremu można przywrócić dźwięk za pomocą tych dwóch podstawowych zasad, a także możliwość wydajnego przechowywania i przesyłania takich danych.

Częstotliwość próbkowania

Dźwięk występuje jako analogowy kształt fali. Cyfrowy segment dźwiękowy przybliża tę falę analogową i samplalizuje swoją amplitudę z dość dużą prędkością, aby symulować własne częstotliwości fal. Cyfrowa częstotliwość próbkowania dźwięku określa liczbę próbek pobranych z wyjścia audio (w drugim). Wysoka częstotliwość próbkowania zwiększa zdolność cyfrowego dźwięku do dokładnego reprezentowania wysokich częstotliwości.

W wyniku twierdzeniaNyquist-Shannon, zwykle musisz spróbować co najmniej dwukrotność częstotliwości fali dźwiękowej, która musi być cyfrowo zarejestrowana. Na przykład, aby reprezentować dźwięk w zakresie ludzkiego słuchu (20-20000 Hz), cyfrowy dźwięk powinien wyświetlać co najmniej 40 000 razy na sekundę (co jest przyczyną, że dźwięk z płyty CD wykorzystuje częstotliwość próbkowania 44100 Hz).

Depth Beat

Głębokość kodowania dźwięku jest efektem zakresu dynamicznego danej próbki dźwięku. Wyższa głębia bitowa umożliwia przedstawienie dokładniejszych amplitud. Jeśli masz dużo głośnych i cichych dźwięków w tym samym sample dźwiękowym, będziesz potrzebował więcej bitów, aby poprawnie przesłać te dźwięki. Większa głębia bitowa zmniejsza również stosunek sygnału do szumu w próbkach audio. Jeśli głębokość kodowania dźwięku wynosi 16 bitów, dźwięk muzyczny płyty CD jest przesyłany przy użyciu tych wartości. Niektóre metody kompresji mogą zrekompensować mniejsze głębie bitów, ale zazwyczaj są one stratne. DVD Audio wykorzystuje 24 bity głębokości, podczas gdy większość telefonów ma 8-bitową głębię kodowania dźwięku.

Nie brzmiący dźwięk

Znaczna część cyfrowego przetwarzania dźwięku wykorzystuje te dwie metody (częstotliwość próbkowania i głębokość bitów) w celu łatwego przechowywania danych dźwiękowych. Jedna z najpopularniejszych cyfrowych technologii dźwięku (spopularyzowana za pomocą CD) znana jest jako modulacja impulsów (lub PCM). Dźwięk jest wybierany w określonych odstępach czasu, a amplituda dyskretnej fali w tym miejscu jest zapisywana jako wartość cyfrowa zza pomocą głębi bitowej próbki. Liniowy PCM (który wskazuje, że odpowiedź amplitudy jest liniowo jednolita w próbkowaniu) jest standardem stosowanym na płytach CD i kodowaniu API LINEAR16 Speech API. Oba kodowania tworzą nieskompresowany strumień bajtów odpowiadający bezpośrednio danym audio, a oba standardy zawierają 16 bitów głębokości. Linear PCM używa częstotliwości 44100 Hz na płytach CD, która nadaje się do repozycjonowania muzyki. Jednak częstotliwość próbkowania 16000 Hz jest bardziej odpowiednia do przeliczania mowy.
Linear PCM (LINEAR16) jest przykładem nieskompresowanego dźwięku, ponieważ dane cyfrowe są przechowywane w podobny sposób. Podczas odczytywania jednokanałowego strumienia bajtów zakodowanego za pomocą Linear PCM można liczyć co 16 bitów (2 bajty), aby uzyskać kolejną wartość amplitudy sygnału. Prawie wszystkie urządzenia mogą najpierw manipulować takimi danymi cyfrowymi - można przycinać pliki audio Linear PCM za pomocą edytora tekstowego, ale nieskompresowany dźwięk nie jest najskuteczniejszym sposobem transportu lub przechowywania dźwięku cyfrowego. Z tego powodu większość audio wykorzystuje metody cyfrowej kompresji.

Krótki dźwięk

Dane audio, podobnie jak wszystkie dane, są często kompresowane w celu ułatwienia przechowywania i transportu. Kompresja w kodowaniu audio może wystąpić bez utraty lub utraty. Bezstratną kompresję można rozpakować, aby przywrócić dane cyfrowe do oryginalnej postaci. Kompresja koniecznie usuwa niektóre informacje podczas procedury dekompresji i jest sparametryzowana w celu wskazania stopnia tolerancji dla technikikompresja w celu usunięcia danych.

Bezstratne

Strumienie cyfrowe są kompresowane bez strat, przy użyciu skomplikowanych rearanżacji przechowywanych danych, co nie pogarsza jakości oryginalnej próbki cyfrowej. W przypadku kompresji nieskompresowanej, przy wyodrębnianiu danych do pierwotnej postaci cyfrowej, informacje nie zostaną utracone. Dlaczego więc metody kompresji bezstratnej mają czasami opcje optymalizacji? Te ustawienia często przetwarzają rozmiar pliku dla czasu dekompresji. Na przykład, FLAC używa parametru poziomu kompresji od 0 (najszybszy) do 8 (najmniejszy rozmiar pliku). Kompresja FLAC na wyższym poziomie nie utraci żadnych informacji w porównaniu do kompresji na niższym poziomie. Zamiast tego algorytm kompresji będzie po prostu musiał poświęcić więcej energii obliczeniowej podczas konstruowania lub dekonstruowania oryginalnego dźwięku cyfrowego. Speech API obsługuje dwa bezstratne kodowania: FLAC i LINEAR16. Technicznie, LINEAR16 nie jest "kompresją bezstratną", ponieważ kompresja nie jest przede wszystkim zaangażowana. Jeśli rozmiar pliku lub transfer danych jest dla Ciebie ważny, wybierz opcję FLAC jako opcję kodowania dźwięku.

Utrata kompresji

Kompresja danych dźwiękowych eliminuje lub zmniejsza niektóre rodzaje informacji podczas konstruowania skompresowanych danych. Interfejs API mowy obsługuje wiele stratnych formatów, chociaż należy ich unikać, ponieważ utrata danych może wpływać na dokładność rozpoznawania.
Popularny kodek MP3 jest przykładem metody stratnego kodowania. Wszystkie metody kompresji MP3 usuwają dźwięk z normalnego ludzkiego pasma audio i regulują poziom kompresji, regulując efektywnośćKodek danych MP3 lub numer bitu na sekundę, aby zapisać datę dźwięku. Na przykład stereofoniczna płyta CD wykorzystująca liniowy PCM z 16 bitami ma efektywną szybkość transmisji bitów. Głębokość wzoru Audio Coding: 441,000 * 2 Kanały * 16 bitów = 1,411,200 bitów na sekundę (bitów /s) = 1411 kbit /s, np, kompresji MP3 usuwa te dane za pomocą szybkości przesyłania danych, takich jak 320 kb /s, 128 kbit /s lub 96 kbit /s, co powoduje niską jakość dźwięku. MP3 obsługuje również zmienną przepływność, która może kompresować dźwięk dalej. Obie metody tracą informacje i mogą wpływać na jakość. Jest to na pewno powiedzieć, że większość ludzi może powiedzieć różnicę między MP3 zakodowanych muzyka 96 kbit /s lub 128 kbit /s.
,

inne formy kompresji

mulaw - 8-bitowej kodowania PCM, gdzie modulowany amplitudą próbki w skali logarytmicznej, a nie liniowo. W rezultacie uLaw zmniejsza efektywny zakres dynamiki skompresowanego dźwięku. Chociaż ulaw wprowadzono w szczególności do optymalizacji kodowanie mowy, w odróżnieniu od innych rodzajów audio, 16-bitowe LINEAR16 (nieskompresowany PCM), jest jeszcze znacznie lepsza w 8-bitowym sprężonego dźwięku ulaw. AMR kodowane i modulowane AMR_WB audyokass wprowadzania zmiennej szybkości bitowe próbki dźwięku.
Mimo że Speech API obsługuje wiele stratnych formatów, powinieneś ich unikać, jeśli masz kontrolę nad oryginalnym dźwiękiem. Chociaż usunięcie tych danych z wykorzystaniem kompresji stratnej może nie zapewniać zauważalny wpływ na dźwięku słyszanego przez ludzkie ucho, utrata danych dla mechanizmu rozpoznawania mowymoże znacznie pogorszyć dokładność.

Powiązane publikacje