LW / CONGRESOS Y EVENTOS: Codificación de audio. MP3 y otros.

El artículo que sigue fue escrito por un Ingeniero en sonido y lo posteamos a los fines de difundir como funcionan las codificaciones de audio.

Desde hace 22 años trabajo en el mundo de la música y seguro soy uno de los primeros en Argentina que aplicó el uso de computadoras en la cadena de producción de audio analógico y digital. Tengo un estudio de masterizacion de audio en el país, uno en Caracas y uno en Houston. He montado estaciones de trabajo durante más de una década. Hablaremos de hechos y soluciones. No todas les van a gustar, pero lo malo de la verdad es la realidad. Tienen un reproductor de MP3 o un celular?... Lindo. Hace 20 años hubiéramos matado por tener algo que hiciera el 5% de lo que hace el reproductor más simple que puedan concebir y aún asi, hemos grabado discos del carajo. Ahora, la realidad es que muchos de nosotros, sobre todo los que no leemos los manuales o no vamos a las fuentes, que vamos de debate en debate acerca de qué formato, modo, manera o técnica, es más o menos rendidora, conveniente, económica, rápida, etc. Vamos a tomar 2 ejemplos, el reproductor MP4 chino barato que parece un Ipod pero no lo es, y el clásico reproductor Java del celular. Tenemos varios problemas que resolver: Cómo hago para meter la mayor cantidad de temas en el aparato? Cómo hago para aumentar la calidad de audio de lo que escucho? Por qué si uso tal formato la batería se me muere en dos minutos? MITO: Mi reproductor es mejor que el tuyo. Tengo una pésima noticia para todos. Tanto los celulares como los reproductores de MP3, los reproductores de CD o DVD son sistemas cerrados basados en un Joint Venture de empresas que le encargaron a ciertos fabricantes el diseño de un microchip que pudiera estandarizar la reproducción de audio. Estas empresas son: Sorensen/Motorola, Sony, Philips y Texas Instruments. El chip de Sorensen es el del Ipod, el de los CD de Philips, el de los DVD de Sony y el de los MP3 es de Texas. Listo, se acabó. No importa que tan caro compren el aparato de su preferencia, el más barato y el más caro tienen el mismo chip con la misma programación interna para reproducir medios digitales. Monopólicos? Más vale. Así es que la calidad no depende del reproductor... Entonces? En los estudios de grabación hay un lema que es como el juramento hipocrático del ingeniero de sonido... ¡Entra caca, sale caca! En materia de reproductores habría que añadir: Y si sale caca, sale horrenda o no tanto de acuerdo a que auriculares le pongas. La única cosa que revela la calidad y sonoridad de un medio digital empieza y muere en los auriculares. Ponele a un MP3 chino, con MP3 de calidad intermedia, un par de auriculares Shure y vas a descubrir dos cosas: Que realmente los auriculares que vinieron con el reproductor sólo pueden servir a los hipoacúsicos y que el códec MP3 es la porquería más grande que puede existir. ¿Por qué? Yo creía que el MP3 era un formato espectacular. Ese es el problema de la masificación. Vamos a ahondar un poco en el asunto. MPEG-1 Audio Layer 3, este es el nombre del MP3. La idea nació a principios de los ochenta gracias a un científico matemático que nos salvó la vida a todos los productores de audio. El "Modelo Psicoacústico". El tipo escribió una serie de fórmulas para reorganizar la estructura en que el audio debía ser procesado de acuerdo a la manera en que era escuchado. Manfred Schroeder, gran tipo, lástima que se murió. Todo lo que se descubrió en las propiedades de procesamiento de audio se lo debemos a él. A partir de una de sus fórmulas, Fraunhoffer IIS desarrolló un dispositivo para codificar (no comprimir) y decodificar (es lo que pasa cuando reproducimos dicho audio). Es un compresor de audio que normaliza las transientes de audio, de modo que lo que suena muy bajito suene con la amplitud de lo que suena más al frente y viceversa, de modo que no haya descompensación sonora a lo largo de la canción. Esto nació por la necesidad de encontrar un medio económico y fiable para guardar la mayor cantidad de datos. Es decir un Backup. Bueno, no sirvió ni en broma para el fin que pensaban, porque el códec se lleva de plano, para empezar, el 50% de la calidad del audio original, pero como nada se pierde y todo se transforma, se dieron cuenta que esas instrucciones de decodificación eran muy simples de operar a través de un chip, asi que le dieron a Texas Instruments los datos y asi nació el primer reproductor de MP3 que fue... la primer placa de audio SoundBlaster de Creative. Si piensan que una canción sin comprimir de 5 minutos puede pesar de 55 a 60 Mb, la idea de comprimir a 5 ó 6 Mb era por lo menos simpática. Estamos hablando de 1991 más o menos, un disco rígido en esa época era de 50 Mb. Posteriormente el chip se aplicó a reproductores portátiles y se produjo una de los misterios más grandes del mundo. Dónde fueron a parar millones de walkman en menos de dos años? El códec MP3 cumplió una función muy copada en su momento, pero ni en broma era una solución ni lo es ahora. El por qué, es sencillo. Es un formato destructivo de codificación. Cómo funciona el MP3? El oído humano soporta una tasa de transferencia de resolución de audio de no más de 22 Khz, es decir, una señal de audio se percibe en una frecuencia que se repite 22000 veces. Si se repite 22001 veces, lo que se reproduce sólo lo escuchará tu perro. Una cosa rara del sonido. Si lograras detonar una bomba nuclear en una frecuencia de más de 22000 Hz, no escucharías la explosión, pero igualmente tus oídos saltarían como un corcho y dejarías las córneas en el piso. El oído humano no retiene ni interpreta una señal más alta, no importa la presión en el aire que le apliques, pero te rompe los oídos igual, porque no los interpreta pero sí los escucha. Y aquí es donde el MP3 huele mal. El MP3 usa una fórmula matemática que elimina de la señal de audio todas las transientes moduladas (variaciones del sonido en altura, amplitud y volumen) que estén por encima de los 22 KHz. "Entonces por qué codifico el MP3 en 44 Khz"? Justamente, se procesa el audio al doble de frecuencia del alcance del oído humano porque la combinación de señales de audio, que componen un sonido en lo audible y lo inaudible, están muy por encima de los 22 Khz, por lo tanto, 44 Khz o 44100 hz es una norma aceptable universalmente. De hecho... tengo otra mala noticia. La resolución de los CDs es de 44100 hz a 16 bits de resolución. Algunos son a 20 Bits de masterización, pero se reproducen a 16 bits. Por lo tanto, y esto no le va a hacer gracia a ninguno, si convertís a MP3 desde un CD y lo hacés a, supongamos, 48.000 hz en 24 ó 32 bits... no estás mejorando la calidad del audio ni por error, al contrario. Le estás aplicando distorsión digital por un lado, y provocás un problema de la edicion de audio digital, un fenómeno llamado "artifacts", que requiere de un proceso bastante complejo llamado "noise dithering" para sacártelo de encima. Si quieren un ejemplo, bájense en MP3 el disco de Charly García, "Yendo de la cama al living", y verán lo espantoso que suena, sin vida, hueco, deformado, irreal y como si sonara a través de un papel celofán. Se acuerdan de los Cd's AAD y ADD ? Bueno, hoy ninguno de esos CD's pasaría el menor stándard de calidad de reproducción. Y es por esto, que lo descubrieron tarde. Quién descubrió el asunto del "dithering" con lo que todos los estudios de grabación respiraron hondo? Manfred Schroeder. Nos salvó el negocio a todos. Asi es que el MP3 elimina del audio todo lo que el oído humano no escucha pero "siente". Manfred Schroeder es el que puso negro sobre blanco la cuestión y lo llamó "Percepción Psicoacústica" del audio. Un ejemplo claro de esto. Se ponen auriculares, oreja izquierda, oreja derecha. Ponen "I don't like the drugs but the drugs like me" de Marilyn Manson. Escuchan música a la izquierda, a la derecha y en el centro de la cabeza... Pero !! No tenemos oreja central!! Esto es "Percepción Psicoacústica". De la misma manera, el oído humano no escucha lo que está por encima de los 22 khz, pero lo siente. Lo que se siente de la música es lo que le da muchisimo del valor de la onda de un tema. Asi que si le arrancás a un tema esto... qué te queda? Entonces vienen los formatos no destructivos. Hay una colección enorme, Flac, Atrac, Ogg, etc. Todos son bastante inútiles en comparación con la señal sin codificar. Aplicar la codificación menos destructiva es muy destructiva por definición. Y el problema se agudiza cuando a eso le entrás a meter loudness, ultra bass y todas esas cosas que se supone que optimizan el audio. Lo único que optimiza el audio es el oido humano y un buen par de auriculares. Ahora, la extensa mayoría de los reproductores tienen 1 Gb de memoria, si metés música sin codificar ( y la mayoría no soporta audio sin codificar, para peor), te vas a encontrar que sólo podés hacer entrar 12 o 15 temas como mucho. No está mal. No comprendo para que uno querría meter 1000 canciones como si los fueran a mandar en misión colonizadora a Urano. Eso sin contar que si escuchás mas de 30 canciones por día con auriculares, en dos años vas a ver que lindo es escuchar zumbidos y pitidos en silencio: habrás adquirido una dolencia incurable y rápidamente degenerativa llamada "Tinnitus". Esto es, como el oído se acostumbra a una determinada dosis de audio promedio, al estar en silencio y no escuchar audio a cierto volumen, el oído necesita funcionar y como no escucha audio, genera su propio ruido en forma de zumbidos. Entonces, que hacemos? Veamos. Tenemos varias alternativas como paliativo.

"MP3", en sus dos versiones legendarias, LAME y Fraunhoffer IIS, tiene ciertos stándares: frecuencia de 8 khz a 48 khz, de 8 a 24 bits de resolución (El LAME sólo hasta 16 Bits y sólo la versión comercial de Fraunhoffer hasta 24 bits) y un ancho de banda de 4kbps a 320 kbps. El stándard con MP3 ha sido históricamente de 44 khz, 16 bits y 128 kbps... Mi recomendacion: 44 khz, 16 bit y 192 kbps o más. Menos de 192 kbps te come más del 70% de todo el audio psicoacústico perteneciente a los bajos del tema, y los bajos del tema son, a ojo de buen cubero... el 70% del tema.

"WINDOWS MEDIA AUDIO". Ni me molesto en discutirlo. Es el más destructivo de todos, porque además de eliminar frecuencias por encima del rango, pretende eliminar el "artifact" a través de un algoritmo de predicción que anda mal, por lo cual es como predecir el clima del mes que viene basado en el clima del mes pasado. Asi que cuando falla en eliminar el artifact... elimina audio!!!. Para los que prefieren tener 12000 temas con calidad razonable y son capaces de sacrificar calidad por cantidad les recomiendo como alternativa usar el códec MP3pro de la empresa RCA que es el códec MP3 codificado como una replicación de espectro de banda, por lo que los archivos terminan pesando la mitad con la misma resolución aparente. Para ponerlo en fácil, se escucha mucho mejor un MP3pro en 96 kbps que un MP3 con el mismo bitrate, porque en el entorno de MP3pro, 96 kbps es lo mismo que 320 kbps. Todo lo que reproduzca MP3 reproduce MP3pro. Y es un poco menos destructivo. Creo que el Nero Encoder tiene ese códec. Ahi no escatimen.

"MP4 o MPEG-4 Part 14" que es como se llama, no es un códec de audio. El Ipod que usa este códec lo usa para video únicamente y no para audio. Para audio utiliza AAC MPEG-2 Part 7, del que ahora vamos a hablar. "AAC", está bueno, quizás de todos los formatos ordinarios de codificación sea el mejor. Contrario al formato MP3, que sólo soporta hasta dos canales, AAC soporta 48, lo que lo hace bárbaro para bajar grabaciones multipistas en baja resolución, pero aquí no nos interesa. Lo que si interesa es que tiene un sistema predictivo que realmente funciona. Pero sigue siendo destructivo. De acuerdo al programa que usen, varían las opciones de calidad/tamaño. 224 kbps, en 19500 Hz, main profile en MPEG 4 está bien para empezar. Es menos destructivo, bajando el tamaño de los archivos, que el MP3, pero no hace mucha diferencia cuando se usan bitrates mas altos. Si tu reproductor soporta este tipo de códec, dale para adelante. El FAAC es la versión gratuita de este códec, pero no es la mejor, la que realmente funciona es el HE-AAC v2, conocida como AACPlus v2 o eAAC+ que usa resolución stéreo paramétrica, y permite mejor calidad con resoluciones aún más bajas que las estandarizadas para el AAC. Vale decir, el HE-AAC es el MP3pro del MP3. Si tu aparato lee AAC, lee cualquier versión de AAC.

"OGG",está bueno, toma lo mejor del MP3 y lo peor de AAC, pero funciona y es gratuito. Como no sé que reproductor lo usa, si es que alguno lo usa, no lo voy a discutir. La parte buena, quizás sea mejor que los antes mencionados en relación con la tasa de compresión de tamaño de archivo. Pero la parte mala... no tiene prácticamente ninguna mejora a nivel de modelado psicoacústico del audio, por eso es gratuito. El PSA model tiene licencias restringidas. Si me dan a elegir, AAC, preferentemente HE-AAC v2. Pero está garantizado que si codificamos, arruinamos la verdad del audio. Algunos habrán notado que de acuerdo a como se codifica un archivo, mayor o menor es el consumo de batería del medio reproductor. Lógico, es un chip que levanta temperatura cuanto más pesado es el proceso que resuelve. Parte mala del asunto: cuanto menor es el tamaño que tiene un archivo, vale decir, cuanto menor es su bitrate en kbits, mayor es el dispendio de energía que el reproductor tiene que hacer, porque multiplicamos exponencialmente los cálculos de decodificación que tiene que hacer el aparato. Qué hago ahora? Bueno, aquí es donde tallan las dos cosas fundamentales al escuchar música. Los mejores auriculares que puedan conseguirse. No escatimen. Además de que probablemente retrasen el Tinnitus a 4 años en vez de 2, a mayor calidad, mayor rango de resolución. Yo uso en el celular (un nokia) o en la Palm un par de auriculares Shure E5c (muy caros). Usualmente, es menester tirar los auriculares originales que vienen con los reproductores y esto es válido también para los Ipod. Entre el Ipod y el MP4 chino (que no reproduce video MP4, sino AMV, que es malísimo) en materia de reproducción de audio MP3 o AAC no hay ninguna diferencia. Vamos al detalle final. Saquen todo lo que sea mejora del sonido. BBS, MBS, ultrabass, superbass, megabass, loudness. Piénsenlo de este modo, si quienes trabajaron en las canciones hubieran querido que las mismas sonaran como si las metieran en la oreja con un palo, lo hubieran hecho en estudio porque les sobran herramientas para hacerlo. De hecho, si en un estudio de grabación alguien llega a pedir que el tema suene como si le hubieran aplicado cualquiera de estos efectos de post proceso, al rato aparece en una zanja con un tiro en el oído. Por qué? Porque nada en el universo suena aumentado de esa manera y por el solo hecho de aumentar los bajos y la percepción de los bajos, se pierde casi toda la integridad del resto de los instrumentos, ni hablar de las sutilezas. Y a eso hay que sumar que la mayoría de los reproductores no reproducen audio sin codificar con pérdida de calidad... Y que lo que más se pierde es la calidad de los bajos... cómo se puede entender que pongamos los bajos al recontra palo para mejorar lo que ya hemos arruinado? El ecualizador, herramienta maravillosa, permite recuperar un poco lo que se perdió en la codificación. Recordar que la ecualizacion perfecta es imposible, porque cada tema es diferente.

Creemos que este tema es importante para comprender la codificación de audio. La pérdida real de calidad que se produce.