3. Digitális audio tömörítés


3.1. Bevezetés

A legtöbb digitális adattípushoz hasonlítva - a digitális video kivételével - a tömörítetlen digitális audiohoz tartozó adatsebesség jelentős (a csatornán kialakuló végső adatátviteli sebesség DAT esetén 7,5 Mbps, CD esetén 4,3218 Mbps). A digitális audio tömörítés révén lehetővé válik a digitális audio hatékonyabb tárolása és átvitele. A különböző audio tömörítési eljárások különböző bonyolultságú kódolókat és dekódolókat, különböző minőségű tömörített audio jelet és különböző mértékű tömörítést biztosítanak. Az ADPCM kódoló egyszerű megoldás, kis tömörítési fokú, közepes minőségű hangot eredményez. Az MPEG/audio szabvány és a MiniDisc rendszer által használt ATRAC tömörítési eljárás bonyolult, nagy tömörítési fokú, kiváló hangminőséget eredményező algoritmusok. Ezeket az eljárásokat általános audio jelekre fejlesztették ki és nem speciálisan beszéd tömörítésére vannak beállítva. A továbbiakban az audio tömörítéshez szükséges pszihoakusztikai jellemzőkkel foglalkozunk, majd az ADPCM kódolás kerül terítékre, végül pedig az MPEG/audio szabványt és a MiniDisc rendszert vizsgáljuk meg részletesen.

3.2. Pszihoakusztika

3.2.1. Fletcher-Manson görbék

Az emberi fül által hallható hang tulajdonképp nem más, mint nyomásváltozás a közvetítő közegben. Erőssége kifejezhető a nyomásváltozás nagyságával. Általában ezt egy referenciértékhez viszonyítva, dB-ben adják meg. Ez a fizikai jellemző a hangnyomás szint:

, ahol p a hangnyomás időbeli változása, p0az f = 1 kHz frekvenciájú, emberi fül által még éppen hallható hangnyomás (p0= 20 mPa). Ezen kívül alkalmazzák még az intenzítás szintet, amelyet szintén dB-ben adnak meg:

, ahol I0 = 1 pw/m2, szintén 1 kHz-es hangra vonatkozik. A fizikai jellemzők azonban közvetlenül nem hordoznak információt az emberi hallás szubjektív jellemzőiről. A pszihofizikai jellemzők a fizikai jellemzők áttételei az érzeti síkra. Ezek a jellemzők a hangerősség és a hangosság. A hangerősség (Ln) mértékegysége a phon. Egy hang hangerőssége annyi phon, ahány dB a vele azonos hangosságérzetet keltő 1 kHz-es szinuszos hang hangnyomásszintje. Így az éppen hallható hangerősség 0 phon. A hangerősség hátránya, hogy több hang együttes megszólalása esetén nem alkalmazható.

A hangosság az egyszerre megszólaló hangokra vonatkozik, jele: N; mértékegysége a son:
 

Ha a megszólaló hangok hangerőssége mind nagyobb, mint 40 phon, akkor egyszerű összegezéssel számítható a hangosság.
A fül érzékenysége a frekvencia függvénye. A legérzékenyebb az 1 kHz körüli frekvenciákra. Az a hangnyomás szint, amit 1 kHz-en épp meghallunk nem biztos, hogy meghallható más frekvencián. Általában két egyforma teljesítményű, de különböző frekvenciájú hangot nem azonos hangerejűnek hallunk. Az 33. ábrán láthatók a Fletcher-Manson görbék különböző hangerő értékekre. A "0 phon" feliratú görbe ábrázolja a minimális értékeket, amit a fül érzékelni képes különböző frekvenciákon. A görbék azt ábrázolják, hogy a fül bizonyos frekvenciákon érzékenyebb, mint másokon.
A Fletcher-Manson görbék hátránya, hogy átlagos érzetjellemzőket írnak le, azaz egy átlagos hallgatót definiálnak.
 

3.2.2. Maszkolási effektus

Maszkolásról akkor beszélünk, ha egy hangot egy másik hang hallhatatlanná tesz. Egyidejű maszkolás akkor lép fel, amikor két hang egyszerre szól, mint pl. amikor egy beszélgetést (a maszkolt jel) elnyom egy vonat dübörgése (a maszkoló). Visszafelé irányuló maszkolásról akkor beszélünk, ha a maszkolt jel előbb befejeződik, mint ahogy a maszkoló elkezdődik; előre irányuló a maszkolás, ha a maszkolt jel azután kezdődik, hogy a maszkoló véget ért.

A maszkolás annál erősebb, minél közelebb áll egymáshoz - idő- és frekvencia tartományban egyaránt - a két jel. Pl. az egyidejű maszkolás erősebb a visszafelé- és az előre irányuló maszkolásnál is, mert a hangok egy időben szólalnak meg. A maszkolási kísérletekben általában maszkolóként keskeny sávszélességű fehér zajt használnak és tiszta szinuszos hang hallásküszöbét vizsgálják különböző időben és frekvenciákon. Az egyidejű- és az időleges maszkolásokra a 34. és a 35. ábrán láthatunk példát.
Az ábrákból fontos következtetéseket vonhatunk le. Először is, az egyidejű maszkolás akkor a leghatásosabb, ha a maszkolt jel frekvenciája megegyezik, vagy nagyobb, mint a maszkolóé. Másodszor, míg az előre irányuló maszkolás jelentős ideig hatásos azután, hogy a maszkoló elhallgatott, a vissza irányuló kevesebb, mint 2-3 ms -ig él a maszkoló megszólalása előtt.

  3.2.3. Kritikus sávok

A kritikus sávok ötlete a fül azon tulajdonságából adódott, hogy a hallható frekvencia tartományt alsávokra osztva analizálja. Az egy kritikus sávon belüli frekvenciák hasonlóak a fül érzékelési tulajdonságaihoz és más kritikus sávoktól elkülönítve dolgozzák fel őket. A kritikus sávokat hallási kísérletekkel határozták meg, és levezethetők a belső fülben található érzékelő cellák elhelyezkedése alapján is. A kritikus sávok felfoghatók úgy, mint a fül által használt frekvencia sáv. Alacsonyabb frekvenciák esetén sokkal keskenyebbek ezek a sávok - tulajdonképp a kritikus sávok 3/4 része 5 kHz alatt található. Ez azt jelenti, hogy az alacsonyabb frekvenciákból több információt kap a fül, mint a magasakból.
A digitális hangtömörítő algoritmusok a tömörítéshez jelentős mértékben hasznosítják a pszihofizikai jellemzőket az idő-frekvencia tartomány átalakítás és a bit kiosztás során.
 
Előző   Kezdőlap  Tartalomjegyzék   Következő