el

Sonido, grabación, MP3

Texto leido en el programa para radioaficionados HK el domingo 3 de Agosto 2014.

El sonido son ondas producidas por la mayor o menor presión del aire y se propaga a la distancia por este mismo medio.

La radio son también ondas pero de tipo electromagnético producidas por cambios en los campos eléctrico y magnético y que  se propagan incluso en el vacío.

El sonido tiene frecuencias bajas: 10Hz a 20 KHz. Las frecuencias de radio son mucho mas altas de 100 KHz a 5 y mas GHz.

Como el sonido son variaciones de la presión del aire, a finales del siglo 19, el inventor Norteamericano Tomas Alva Edison observo que una membrana vibraba al paso del sonido y se ideo la forma de trasladar esa vibración a que produjera un surco en un tambor cubierto de cera. El surco gravado era una versión “análoga” a la vibración del sonido. Edison también logro que el surco grabado hiciera vibrar una membrana la cual producía un sonido casi igual al que se usó para grabar.

Esto fue el invento del “gramófono” que sirvió para popularizar la música.

El tambor o cilindro usado en el primitivo gramófono evoluciono a un disco plano hecho de plástico (ebonita, acetato, vinilo, etc.) y los surcos se volvieron concéntricos. Los surcos tienen una ondulación “análoga” al sonido que se grabó.

Después de la segunda guerra mundial los discos evolucionaron a ser una cinta plástica y en vez de grabarse una surco mecánico se optó por impregnar la cinta de una sustancia magnética y el sonido se grababa cambiando la magnetización de la cinta. La magnetización era proporcional a la intensidad del sonido por lo que esto era una grabación análoga del sonido.

A finales del siglo 20 surgió la idea de que en vez de trasladar a un medio físico la intensidades del sonido, se hiciera una medida instantánea de esa intensidad y entonces guardáramos el “valor” de esa intensidad.

Como la intensidad cambia con el tiempo entonces se opta por tomar muestras periódicas del sonido. A esto se llama “muestreo” y en inglés “sampling”.  El análisis matemático del muestreo indican que la frecuencia de muestreo debe ser el doble de la máxima frecuencia que queremos usar. Esto es conocido como teorema de Nyquist-Shannon y es un principio fundamental en las técnicas de digitalización.

Para grabar un sonido de alta calidad debemos incluir frecuencias tan altas como 22 KHz, por lo tanto la frecuencia de muestreo debe ser de 44 KHz.  En los sistemas telefónicos donde solo se usa voz la mayor frecuencia del sonido se limita a 4 KHz y el muestreo es de 8 KHz el cual es más fácil de manejar.

La amplitud de las muestras debe convertirse a un valor numérico. Esto tiene un inconveniente. Una medición debe tomar una serie de valores discretos, esto se llama “cuantificación”. Como la información se toma binaria esta debe tener un rango de una potencia de 2 (2, 4, .., 256, 512, … 1024, 2048, …).

Si usamos 28 tendremos 255 posibles valores, en cambio sí usamos 216 los posibles valores serian 65535.

Para tener un sonido de calidad se ha escogido como un estándar un muestreo de 44 KHz y se codifica binariamente usando 16 bits.

En técnicas digitales 8 “bits” se llaman un “byte” por lo cual 16 bits son 2 bytes.

NOTA: En inglés “bit” se pronuncia –bait- y “byt” como –bit- lo que causa una confuncion en el lenguaje hablado en español.

Un segundo de codificación digital será 44.000 x 2 = 88.000 kilo-bytes y un minuto 88 kByts x 60 = 5.280 Kbytes aproximadamente mayor a 5 Megabytes.

En telefonía el muestreo se hace a 8 KHz y se codifica a 8 bits (1 Bytes) por lo que se obtiene 8 KByts por segundo pero la calidad de sonido es inferior (8 bits = 256 niveles), sin embargo se utiliza un artificio en el cual el nivel se cuantifica en 16 bits (65535 niveles) pero se convierte a 8 bits mediante unas tablas de conversión. Hay 2 tablas comúnmente usada y se llaman “ley A” y “ley Mu”. En EE.UU y Japón  se usa “ley Mu” en el resto del mundo se usa “ley A”.

La representación binaria requiere de solo dos valores, “ceros” y “unos”. Para almacenar el sonido digitalizado se volvió a usar “discos” pero ahora hechos de fibra de vidrio en los que un “0” son lugares claros y el “1” so lugares oscuros y entonces nacieron los “CD”, Compact Disk.

Los primeros CD podían almacenar 600 Mbyte de datos y como necesitamos alrededor de 6 Mbyte entonces un CD puede almacenar alrededor de 100 minutos de grabación.

En tecnología digital los bits pertenecientes a un tema se almacenan en un “archivo” que tiene una forma de ordenamiento llamado “formato”.  En el caso de un CD el formato es conocido como “WAV”.

Gastar 6 Mbyte por un minuto de grabación es un costo muy alto de bits entonces se ha trabajo e investigado mucho en encontrar alguna forma de “comprimir” el archivo en lo mas posible el contenido del sonido. De todas maneras al comprimir el sonido se pierde algo de la fidelidad del sonido.

Entonces ha aparecido una forma o formato de compresión llamado MP3 que comprime un archivo de audio a 1/10 y mas de su tamaño original. Esto significa que un minuto de grabación en WAV que necesita 6 Mbyte puede comprimirse a 0,5 Mbyte por minuto en MP3 y entonces un CD de 600 Mbyte podrá almacenar alrededor de 1200 minutos es decir cerca de 20 horas.

MP3 utiliza unas técnicas derivadas de las matemáticas que se aplican cuando se estudia sobre “análisis de señales”.

Una señal de audio está compuesta por la suma de varias frecuencias. Hay unos procesos matemáticos que permite conocer que frecuencias constituyen una señal análoga dada. El proceso es conocido como “Transformada de Fourier” abreviada en los textos como “FT” e implica una serie de cálculos matemáticos desarrollado por un matemático francés  Joseph Fourier de principio del siglo 19.  Los matemáticos modernos han optimizado las operaciones matemáticas desarrolladas por Fourier en orden de hacer los cálculos más rápidos entonces los nuevos procesos se llaman “rápida transformada de Fourier” abreviada por FFT de su significado en ingles de “Faster” (rápido).

Entonces un audio en formato “WAV” le aplican la FFT que la descomponen en sus diferentes frecuencias que la constituyen y en vez de almacenar (grabar) las diferentes amplitudes de la señal almacenamos información sobre que frecuencias y amplitudes contiene la señal.

En la reproducción del sonido de un formato MP3 el equipo de alguna manera “sintetiza” un sonido emitiendo las diferentes frecuencias que contiene el archivo y esto se va a sonar casi idéntico a lo que se grabó.

El formato MP3, es decir la forma en que los datos son almacenados, es muy difícil de explicar en pocas palabras. Las especificaciones hace parte de  libros voluminosos de “estándar”  internacionales llamadas especificaciones MPEG (Moving Picture Experts Group) de los cuales una parte o subconjunto de estas especificaciones conocidas como “Capa 3” (Layer 3). Entonces MP3 significa MPEG capa 3.

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s