A legtöbb digitális adattípushoz hasonlítva - a digitális video kivételével - a tömörítetlen digitális audiohoz tartozó adatsebesség jelentős (a csatornán kialakuló végső adatátviteli sebesség DAT esetén 7,5 Mbps, CD esetén 4,3218 Mbps). A digitális audio tömörítés révén lehetővé válik a digitális audio hatékonyabb tárolása és átvitele. A különböző audio tömörítési eljárások különböző bonyolultságú kódolókat és dekódolókat, különböző minőségű tömörített audio jelet és különböző mértékű tömörítést biztosítanak. Az ADPCM kódoló egyszerű megoldás, kis tömörítési fokú, közepes minőségű hangot eredményez. Az MPEG/audio szabvány és a MiniDisc rendszer által használt ATRAC tömörítési eljárás bonyolult, nagy tömörítési fokú, kiváló hangminőséget eredményező algoritmusok. Ezeket az eljárásokat általános audio jelekre fejlesztették ki és nem speciálisan beszéd tömörítésére vannak beállítva. A továbbiakban az audio tömörítéshez szükséges pszihoakusztikai jellemzőkkel foglalkozunk, majd az ADPCM kódolás kerül terítékre, végül pedig az MPEG/audio szabványt és a MiniDisc rendszert vizsgáljuk meg részletesen.
Az emberi fül által hallható hang tulajdonképp nem más, mint nyomásváltozás a közvetítő közegben. Erőssége kifejezhető a nyomásváltozás nagyságával. Általában ezt egy referenciértékhez viszonyítva, dB-ben adják meg. Ez a fizikai jellemző a hangnyomás szint:
, ahol p a hangnyomás időbeli változása, p0az f = 1 kHz frekvenciájú, emberi fül által még éppen hallható hangnyomás (p0= 20 mPa). Ezen kívül alkalmazzák még az intenzítás szintet, amelyet szintén dB-ben adnak meg:
, ahol I0 = 1 pw/m2, szintén 1 kHz-es hangra vonatkozik. A fizikai jellemzők azonban közvetlenül nem hordoznak információt az emberi hallás szubjektív jellemzőiről. A pszihofizikai jellemzők a fizikai jellemzők áttételei az érzeti síkra. Ezek a jellemzők a hangerősség és a hangosság. A hangerősség (Ln) mértékegysége a phon. Egy hang hangerőssége annyi phon, ahány dB a vele azonos hangosságérzetet keltő 1 kHz-es szinuszos hang hangnyomásszintje. Így az éppen hallható hangerősség 0 phon. A hangerősség hátránya, hogy több hang együttes megszólalása esetén nem alkalmazható.
Maszkolásról akkor beszélünk, ha egy hangot egy másik hang hallhatatlanná tesz. Egyidejű maszkolás akkor lép fel, amikor két hang egyszerre szól, mint pl. amikor egy beszélgetést (a maszkolt jel) elnyom egy vonat dübörgése (a maszkoló). Visszafelé irányuló maszkolásról akkor beszélünk, ha a maszkolt jel előbb befejeződik, mint ahogy a maszkoló elkezdődik; előre irányuló a maszkolás, ha a maszkolt jel azután kezdődik, hogy a maszkoló véget ért.
A maszkolás annál erősebb, minél közelebb áll egymáshoz - idő- és
frekvencia tartományban egyaránt - a két jel. Pl. az egyidejű maszkolás erősebb
a visszafelé- és az előre irányuló maszkolásnál is, mert a hangok egy időben
szólalnak meg. A maszkolási kísérletekben általában maszkolóként keskeny
sávszélességű fehér zajt használnak és tiszta szinuszos hang hallásküszöbét
vizsgálják különböző időben és frekvenciákon. Az egyidejű- és az időleges
maszkolásokra a 34. és a 35. ábrán láthatunk példát.
Az ábrákból fontos
következtetéseket vonhatunk le. Először is, az egyidejű maszkolás akkor a
leghatásosabb, ha a maszkolt jel frekvenciája megegyezik, vagy nagyobb, mint a
maszkolóé. Másodszor, míg az előre irányuló maszkolás jelentős ideig hatásos
azután, hogy a maszkoló elhallgatott, a vissza irányuló kevesebb, mint 2-3 ms
-ig él a maszkoló megszólalása előtt.