MP3

veszteséges hangtömörítő eljárás
(Mp3 szócikkből átirányítva)
Ez a közzétett változat, ellenőrizve: 2024. január 29.

Az MP3 egy veszteséges tömörítésen alapuló, hangfájlok (főképp zene) tárolására használt fájlformátum, jelenleg az egyik legelterjedtebb. Valójában két különböző, de nagyon hasonló formátum, az MPEG–1 Audio Layer 3 és az MPEG–2 Audio Layer 3 közös neve; illetve létezik egy nem hivatalos MPEG–2.5 Audio Layer 3 is. Ez a három formátum elsősorban a bitráta és a mintavételezési frekvencia megengedett értékeiben tér el egymástól.

MPEG-1 vagy MPEG-2 Audio Layer III
Fájlkiterjesztés.mp3[1]
MIME-típusaudio/mpeg,[2] audio/MPA,[3] audio/mpa-robust[4]
Fejlesztő
  • Fraunhofer Society
  • Karlheinz Brandenburg
  • Heinz Gerhäuser
  • Bernhard Grill
  • Harald Popp
Kiadás dátuma1993. augusztus
StandardISO/IEC 11172-3
ISO/IEC 13818-3[5]

Az MP3 szabványok nem definiálják a tömörítő algoritmust, csak a kitömörítőt és a fájl formátumát, így az MP3-nak a használt tömörítő (kodek) szerint számos különböző változata lehet.

Történeti áttekintés

szerkesztés

Az MPEG–1/2 Layer 2-es kódolás fejlesztése a Fraunhofer Intézet Digitális hangátviteli projektjének (DAB) keretében indult. Ezt a projektet az EU finanszírozta az EUREKA kutatási program keretében, mely leginkább EU–147 néven ismert.

Az EU–147 1987-től 1994-ig tartott. 1991-ben két javaslat került ki: Musicam (azaz a Layer II) illetve az ASPEC (amely az MP3-hoz hasonló). Ezek közül a Musicamet vitték tovább az egyszerűsége és hibarezisztenciájának köszönhetően.

Karlheinz Brandenburg, Jürgen Herre valamint munkacsoportjuk a Musicamből és az ASPEC-ből valamint saját ötleteiből alkotta meg az MP3-at azzal a céllal, hogy elérjék azt a minőséget 128 kbps-on, amit az MP2 tudott 192 kbps-on.

Mindkét algoritmust 1992-ben fejezték be az MPEG–1 részeként, az MPEG első munkafázisában, amelyik a ISO/IEC 11172–3-as szabványt eredményezte, melyet 1993-ban publikáltak. Az MPEG–2 munkálatai 1994-ben fejeződtek be és az ISO/IEC 13818–3-as szabványt eredményezték, mely 1995-ben jelent meg.[6]

A veszteséges tömörítés hatékonysága alapvetően a bitsűrűségtől függ, azaz a bit mélységtől és a mintavételezési sűrűségtől. Gyakran használják a CD-k paramétereinek megfelelő bitsűrűséget (44,1 kHz és 2×16 bit), máskor a DAT paramétereit (48 kHz, 2×16 bit).

Karlheinz Brandenburg a Suzanne Vega által szerzett Tom’s Diner című CD-t használta az MP3-as tömörítési algoritmus modellezésekor. A választás oka az album tisztasága és egyszerűsége volt, ami könnyen hallhatóvá tette a tömörítés által okozott változásokat a visszajátszások során.

A Fraunhofer Intézet hivatalos honlapja által közzétett tömörítési arányok és adatsűrűségek az MPEG-1 Layer 1, 2 és 3-hoz:

  • Layer 1: 384 kbps, 4:1 arány,
  • Layer 2: 192–256 kbps, 6:1­8:1 arány,
  • Layer 3: 112–128 kbps, 10:1­12:1 arány.

Ezek az adatok nem igazán alkalmazhatóak, mivelhogy:

  • a minőség nem csak a formátumtól, de a tömörítő által használt pszichoakusztikai modelltől is függ. A Layer 1-es tömörítők egy nagyon egyszerű modellt használnak, ezért a hű hangzás visszaadásához nagyobb bitsűrűség szükséges;
  • a Layer 1 384 kbps-on jobb, mint a Layer 2 192–256 kbps-on;
  • a Layer 3 112–128 kbps-on rosszabb, mint a Layer 2 192–256 kbps-on.

Reálisabb arányok:

  • Layer 1: 384 kbps – kitűnő,
  • Layer 2: 256–320 kbps – kitűnő; 224–256 kbps – igen jó; 192–224 kbps – jó; nem ajánlott 160 kbps alatt használni,
  • Layer 3: 224–256 kbps – kitűnő; 192–224 kbps – igen jó; 160–192 – jó; nem ajánlott 128 kbps alatt használni.

Az MP3 formátum algoritmusa hibrid-transzformációt alkalmaz, hogy az idő-beosztásos jelet frekvencia-beosztásos jellé alakítsa:

  • 32 sávos többfázisú szűrő;
  • 36 vagy 12 beosztású MDCT, méretének megválasztása független az alsávtól; és
  • redukciós végfeldolgozás

használatával.

Az MP2 és MP3 terjedése az interneten

szerkesztés

1993 októberében MP2 fájlok jelentek meg az interneten, legtöbbször a Xing MPEG Audio Playerrel és egy későbbi unixos programmal, melyet MAPlay-nek neveztek. Kezdetben a Xing Encoder volt az egyetlen program az MP2 fájlok készítésére melyet a CDDA2WAV nevű CD ripper (hang CD-k számítógépre való másolásához) programmal használtak.

1995 első felében MP3 fájlok kezdték elárasztani a hálót olyan programoknak köszönhetően, mint a Winamp és a Napster.

Az MP3 minősége

szerkesztés

Sok hallgató számára a 128 kbps bitsűrűségű tömörítés az elfogadott, mondván elég hűen visszaadja a CD minőségét, ami körülbelül 11:1 tömörítési arányt jelent, habár tesztek mutatják, hogy kis gyakorlással a legtöbb hallgató meg tudja különböztetni az ilyen fájlokat az eredeti CD-ktől. Sok más hallgató számára ez elfogadhatatlanul alacsony minőséget jelent, ami nem túl szerencsés, ha azt nézzük, hogy a legtöbb program ezt a bitsűrűséget kínálja alapbeállításként.

Elterjedt tömörítőprogramok:

  • ISO dist 10 referencia kód: Rossz minőség, rossz MP3 fájlok (minden audioblokk rosszként jelölt)
  • Xing: az előzőn alapul, ahhoz hasonló minőségű
  • Blade: az előzőekkel azonos minőségű
  • FhG: néhányuk jó, mások hibásak
    • ACM Producer Pro: néhány verziójuk bosszantó eredményeket generál
  • Lame
    • – r3mix: több mint 2 éve kifutott
    • – alt-prest: több beállítást tartalmaz, a közepes bitsűrűségűek jó minőségűek

Az MP3 fájl minősége függ a tömörítő programtól és a kódolandó jel bonyolultságától. A jobb tömörítők elfogadható minőséget nyújtanak már 128–160 kbps-nál, mások 320 kbps-nál sem adnak igazán hű hangzást. Ezért nincs értelme 128-as vagy 192-es minőségről beszélni. Egy fontos tulajdonság, amiről az MP3-nál beszélni kell, hogy veszteséges – információt hagy el, hogy tárhelyet nyerjen. Mint a legtöbb mai veszteséges eljárás, az MP3 algoritmus is keményen dolgozik, hogy biztosan olyan hangokat hagyjon el, amik az emberi hallgatók által nem hallhatók, modellezve az emberi fül karakterisztikáját.

Mindenesetre a tapasztalt hallgatók még így is meg tudnak különböztetni egy 192 kbps-os és egy 256 kbps-os fájlt. Ha valakinek az a célja, hogy minőségveszteség nélkül archiváljon hangfájlokat, inkább az olyan veszteségmentes hangtömörítésben érdekelt, mint a FLAC, SHN vagy a LPAC – ezek 50–75%-ára tudnak tömöríteni egy hangfájlt veszteség nélkül.

Bitsűrűség

szerkesztés

A bitsűrűség vagy bitráta, azaz annak mérőszáma, hogy másodpercenként hány bináris számjegy tárolódik a hangból, az MP3 fájlok esetében jellemző érték. Ökölszabályként minél magasabb ez az érték, annál több információ áll rendelkezésre, s így jobb a minősége a visszajátszott fájlnak. Eleinte az egész fájlra egy fix érték volt jellemző (konstans bitráta), az 1990-es évek második felétől elterjedt a dinamikusan változó bitsűrűség (változó bitráta) használata is. Az MPEG–1 által használt értékek: 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 és 320 kbit/s, valamint mintavételezési frekvenciára: 32, 44,1 és 48 kHz, újabban pedig a 96 kHz is a DVD audiók számára[forrás?]. A leggyakrabban alkalmazott érték a 128 kbit/s és a 44,1 kHz. Az újabb MPEG–2 és MPEG–2.5 ennél több értéket is kínál. Amikor digitálisan tárolnak hangot, az eredeti jelből időről időre mintát vesznek. A mintavételezés sűrűségét adja meg a mintavételezési frekvencia értéke, és értelemszerűen minél magasabb, annál jobb a minőség, hisz annál folyamatosabb a digitális jel. A másik érték a bitmélység, ez adja meg azt, hogy a vett minták hányféle értéket (amplitúdó) vehetnek fel, és itt is a magasabb érték a jobb, hasonló okokból. Hogy érthetőbb legyen, gondoljuk el, hogy mindkét értéket 2-re választjuk meg. Azaz másodpercenként 2-szer veszünk mintát, aminek értéke csak 2 féle lehet. Bármilyen zenét digitalizálva így, ehhez hasonló jelformát kapnánk: ___---_-_--___-- Ezt a jelet hallgatva leginkább csak kattogást hallanánk. Ám növelve a bitmélységet és a frekvenciát, lassan reprezentálódna az eredeti felvétel. Azonban nem minden felvétel egyforma, így megeshet, hogy egyes felvételek kevésbé dinamikusak, és itt az alacsony értékekkel is visszaadható lehet a hangzás, míg más, dinamikusabb részeknél nagyobb bitsűrűség szükséges ehhez. Ezért tovább növelhető a tömörítési arány, ha ezek függvényében a bitsűrűség nem konstans, hanem változik, és csak ott magas, ahol ez szükséges. Bitráta=mintavételi gyakoriság*bitmélység*csatornák száma.

Hibák az MP3-ban

szerkesztés

Az algoritmus írásakor néhány hiba csúszott a tervezésbe, de ezek egy jó tömörítővel kiküszöbölhetőek.

  • Nem lehet tömöríteni a pontos lejátszási idejét a zenének
  • Az időbeni felbontás túl alacsony az igen változékony jelekhez
  • A bitsűrűség behatárolt 320 kbps-ig

Az MP3 tömörítése

szerkesztés

Az MPEG–1-es szabvány nem ad pontos meghatározásokat egy MP3 tömörítő számára. Csak az algoritmus és a fájlformátum, mint körvonal adottak. A szabványt implementálóknak maguk kell meghatározni a megfelelő algoritmusokat a hangoknak az eredeti audióból történő elhagyására, amik alapvetően a pszicho-akusztikus kódolással történnek. Ennek eredményeképp igen sokféle tömörítő létezik, mindegyik más-más minőséggel. 2001. szeptember 30-án a legjobbnak tartott tömörítő a LAME volt a magas bitsűrűségű MP3-khoz, míg az alacsony bitsűrűségűekhez a Fraunhofer saját tömörítője.

Az MP3 alternatívái

szerkesztés

Sok veszteséges audiotömörítő létezik, úgymint:

Az MP2, MP3, AAC, és mp3PRO ugyanabba a családba tartoznak és hasonló pszicho-akusztikai modellen alapulnak.

Ezek mellett számos veszteségmentes tömörítő is ismert. Bár ezek nem hasonlóak az MP3-hoz, jó példaként szolgálnak más tömörítési lehetőségek terén. Ezek:

  • SHN;
  • FLAC;
  • Monkey’s Audio.

Az MP3, amely arra készült, hogy az MPEG–1/2-es videókkal együtt használják gyakorlatilag használhatatlan 48 kbps vagy sztereóban 80 kbps alatt.

Habár az olyan tömörítők, mint a WMA vagy a RealAudio azt állították, hogy már 64 kbps-on képesek visszaadni a CD hangzást, a hallgatási tesztek mást bizonyítottak, bár azok minősége jobb, mint az MP3-é hasonló bitsűrűséggel.

A Thomson hasonlókat állított az mp3PRO tömörítőjükről, de az szintén nem bizonyult megalapozottnak. Azonban ez a tömörítő 64 kbps-on eléri azt a minőséget, amit az MP3 112 kbps-on.

A Xiph.org Alapítvány a Vorbisszal egyesek szerint ugyanazt nyújtja, mint az MP3 és a WMA, de anélkül, hogy annak használata után jogdíjat kellene fizetni; mások – és a legtöbb gyakorlati teszt – szerint a Vorbis alacsony bitsűrűségen jelentősen jobb minőségű, és magasabb bitsűrűségen is jobb dinamikával és nagyobb tömörítéssel rendelkezik az előbbieknél.

Jogi helyzet

szerkesztés

Az MP3 eljárás szabadalmi oltalom valamint licenc alá esik, melynek tulajdonosa a Thomson Consumer Electronics. A licencelési forma az, hogy mindenki, aki MP3 fájlokat kezelő programot, hardvert, eljárást készít, vagy MP3 kódolású fájlokat terjeszt (azokból bármilyen formájú bevételt szerezve), azután jogdíjat köteles fizetni. Ez programonként 1–5 amerikai dollár, de évente minimum körülbelül 15 000 USD. 2002-ben a licencfeltételekből kikerült az a kitétel, hogy az ingyenesen terjesztett programok után nem kell jogdíjat fizetni. Ezen változtatás is elősegítette az Ogg Vorbis szabadon és ingyenesen elérhető szabványának elterjedését, mely kiváló minőségű alternatívája a jogdíjas MP3 eljárásnak.

2017 májusában bejelentették, hogy az Erlangen-Nürnbergi Egyetemen nem licenceli tovább az MP3-at. Indoklások szerint az MP3 halálának egyik okát a streaming zenehallgatás széles körű elterjedése jelentette.

Lejátszó szoftverek

szerkesztés

További információk

szerkesztés