









Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Tecnologia de l'Audiovisual, Profesor: Ignasi Ribas, Carrera: Comunicació Audiovisual, Universidad: UPF
Tipo: Apuntes
1 / 16
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!










Tema 7: La conversión analógico / digital. Tratamiento digital de la información
El binomio analógico y digital ......................................................................................................................... Procesos de conversión analógico / digital ............................................ .................................................. .... 3 Muestreo: el ejemplo del so..................................................................................................................... Cuantificación: el ejemplo del sonido .............................................................................................................. Codificació.............................................................................................................................................. Detección y corrección de errores .................................................................................................................. La digitalización del vídeo ....................................................................................................................... Compresión de la información digital: el caso de la imagen ....................................... ................................. 10 Compresión con pérdida y sin pérdida ............................................ ................................................. 11 Compresión de imágenes fijas (formatos GIF, PNG, JPEG) ..................................... ................................... 12 Compresión de imágenes en moviment................................................................................................... 14 Idea de la compresión MPEG ........................................................................................................... 15 Bibliografía empleada en este apartat................................................................................................. 17
Este tema, de manera excepcional, no coincide tan exactamente como los demás con lo explicado en clase. La mejor referencia es la presentación en PowerPoint y, como es natural, lo que se explica realmente en clase. No obstante, la coincidencia es muy alta y los cambios son más bien de orden o énfasis de presentación.
El binomio analógico y digital
La mayoría de magnitudes observables o medibles en la naturaleza se muestran a nuestros sentidos macroscópicos como si variaran de forma continua a lo largo del tiempo. Codificar esta magnitud de forma analógica equivale a construir otro sistema más manejable, que suministre otra magnitud proporcional a la primera y más fácil de medir y manipular.
Hemos visto ya varios ejemplos bastante diferentes en el ámbito de la tecnología audiovisual: la imagen representada como diversos niveles de nitratos de plata en la fotografía química, el sonido representado como la profundidad o la anchura de los surcos de los discos de vinilo, o como la anchura de la parte fotográfica de sonido óptico en el cine, etc. Pero, como estamos viendo, lo más habitual y práctico desde hace años es usar circuitos eléctricos que den una señal (o voltaje o intensidad) proporcional a la magnitud original, es decir, que den una gráfica idéntica a la que daría el original cuando se mira su evolución a lo largo del tiempo. Es el que hace un micrófono cuando convierte las ondas sonoras en eléctricas o el que hace una cámara analógica de vídeo que proporciona una señal que transporta secuencialmente (línea a línea y de un lado a otro) la información de la intensidad luminosa de la imagen recogida por el objetivo.
Para poder tratar imagen y sonido con ordenadores es necesario un proceso de conversión de esta señal electrónico continuo que las representa analógicamente en un conjunto de números o valores que se representarán a su vez mediante una señal digital.
Apuntes de Tecnología Audiovisual Tema 7 1
Como es obvio, la señal analógica es lo que representa de una manera más natural las variaciones de una magnitud física, pero es muy sensible a las manipulaciones que hay que hacer con la señal codificado: grabación, transmisión, tratamiento, etc. En todos estos procesos electrónicos se añade ruido a la señal que lleva la información. Como este ruido va íntimamente y inextricablemente ligado a la señal, la repetición de procesos uno tras otro, como en copias sucesivas, la incrementa y ∙ limitadamente y provoca a los pocos pasos relaciones señal / ruido intolerables.
La señal digital, en cambio, sólo debe ser capaz de transmitir una larga sucesión de 0 y 1 y por lo tanto basta con que se pueda distinguir claramente entre dos estados cada uno de los cuales se asocia uno de los dos valores. La presencia de ruido mezclado con la señal debe fue enorme para producir errores en la codificación. Y además, la naturaleza numérica de la información digital permite dedicar una parte por detectar y corregir los errores. Esto hace que la señal digital soporte sin pérdidas aparentes de calidad tratamientos muy complejos. Esta diferencia fundamental Fig. 1: El ruido en señales analógicas y digitales. entre las dos codificaciones queda clara en la figura, donde el ruido, las imperfecciones aleatorias que acompañan la señal, se visualizado como un espesor imprevisible de éste.
Aunque las ventajas evidentes de la codificación digital, la propia naturaleza de la percepción humana de los fenómenos físicos obliga a que la entrada y la salida de la información, la conversión en magnitudes físicas, deban ser analógicas. En el caso del sonido, el micrófono genera un señal analógica, mientras que los altavoces son controlados también finalmente por una señal analógico, de magnitudes proporcionales a las características de las ondas sonoras finales. En el caso de la imagen pasa lo mismo, la luz continua que incide en el CCD de la cámara debe convertirse en valores numéricos que más tarde en el monitor activarán valores casi continuos de intensidad luminosa.
La potencia y ∙ limitada de los tratamientos digitales (manipulación o generación de información) se puede extender a toda la zona central de esta cadena. Por lo tanto interesa en lo posible hacer la conversión analógico / digital muy al principio y la digital / analógico muy al final.
Apuntes de Tecnología Audiovisual Tema 7 2
cada muestra. Si fueran más cortas no daría tiempo de hacer esta medición.
Intuitivamentepodemos entender que el número de muestras empleado determinará la precisión de la digitalización. En la figura vemos cómo un número insuficiente de muestras puede hacer perder algunos los detalles más "finos" de la información y como aumentando la frecuencia de muestreo se pueden recuperar. En principio podría pensarse que aumentando la frecuencia de muestreo podríamos mejorar Fig. 4: Una señal muestreada a varias frecuencias. indefinidamente la precisión, pero no es así. Para una señal con un ancho de banda determinado hay una frecuencia de muestreo que resulta suficiente, al menos teóricamente, para restituir con un 100% de precisión la señal analógica original. El teorema de Nyquist Shannon demuestra que esta frecuencia mínima necesaria es el doble de la anchura de banda de la señal muestreada.
Aplicando esto al caso del sonido, si queremos que, una vez digitalizado, la señal pueda reproducir cuidadosamente, por ejemplo, sonidos de una frecuencia de 11 Khz., un tono bastante agudo, habrá que hacer un muestreo al menos el doble, 22 Khz, es decir, habrá que tomar 22.000 muestras cada segundo. Con esto podríamos tener una reproducción correcta de, por ejemplo, la voz humana. Por poder reproducir sonidos más agudos de toda la gama audible, hasta los 22 Khz., habrá duplicar número de muestras por segundo y llegar a 44 Khz. Como norma general por el caso del sonido se acepta una frecuencia de muestreo igual a 2,2 veces la frecuencia máxima. ver también en la web "Ideas y Vínculos": Información: a distancia, para todos, para cada uno / Ordenadores, redes y globalización / De la codificación analógica a la digital
Cuantificación: el ejemplo del sonido
El resultado del muestreo es pues un conjunto numeroso pero discreto y finito de valores numéricos de la señal que estamos digitalizando. El proceso de cuantificación consiste en expresar estos números en código binario, es decir en base 2, para que se puedan tratar por un ordenador. Recordemos que la cantidad de números que se podían representar en este código empleando n cifras era 2 n
. El proceso de cuantificación convierte pues unas cantidades que por su origen analógico podían tomar en principio cualquier valor (entre un mínimo y un máximo), en unas otros que sólo pueden tomar algunos determinados, entre 0 y 2n^ 1. Obviamente pues, los valores serán estrictamente sólo aproximaciones.
Apuntes de Tecnología Audiovisual Tema 7 4
La precisión que se pueda conseguir en esta conversión dependerá por tanto de la cantidad de bits que podamos dedicar a convertir estos valores. Si dedicamos 8 bits a la cuantificación podremos elegir valores entre 0 y 255. Si podemos dedicar 16 bits, en cambio, cada muestra le podremos asignar valores entre 1 y 2^16 1, Es decir entre 1 y 65.536. Como el intervalo cuantificado es lo mismo, la precisión es 256 mayor en este segundo caso.
Para hacernos una idea de la cantidad de memoria necesaria para un proceso de este tipo, si queremos digitalizar un sonido con una calidad similar a un Compact Disc deberemos muestrear a 44 Khz. y utilizar 16 bits (2 bytes) de cuantificación. Esto significa que un solo segundo de audio requerirá 44.000 (44k) muestras, cada una de las cuales utilizará 16 bits, es decir 2 bytes. La memoria necesaria será pues de 88 Kbytes para almacenar un solo segundo de sonido en esta calidad superior y el doble, 176 Kbytes, para tener información estereofónica.
Frecuencia de Profundidad de cuantificación muestreo Kbytes / segundo Estéreo 11 kHz 8 bits 11 Kb / s 22 Kb / s 11 kHz 16 bits 22 Kb / s 44 Kb / s 22 kHz 8 bits 22 Kb / s 44 Kb / s 22 kHz 16 bits 44 Kb / s 88 Kb / s 44 kHz 16 bits 88 Kb / s 176 Kb / s
Ancho de banda del oído humano: de 20 Hz a 16 Khz Fig. 5: Diversas opciones de digitalización del sonido
En la tabla podemos ver los valores más habituales de muestreo y cuantificación en la digitalización del sonido, incluyendo los que acabamos de comentar.
Todo este doble proceso muestreo cuantificación se puede entender bastante bien por analogía con la lectura de los valores de una gráfica sobre papel mil ∙ milímetros. Cuanto más juntas estén las rayitas, tanto las verticales como las horizontales, mejor será el resultado.
El muestreo se podía hacer, en principio, tan preciso como quisiéramos, la cuantificación, en cambio, introducirá siempre errores, aunque pueden llegar a ser muy pequeños usando un número de bits (una palabra) suficientemente grande. El muestreo determina el ancho de banda de la señal digital, la cuantificación determina su resolución.
Por analogía con el caso de las señales analógicas, se pueden entender estos errores de cuantificación como una señal de ruido indeseado que se añade a la señal útil. En este sentido se habla de relación señal / ruido de una señal digital. Se demuestra que si se usan m bits para la cuantificación, con lo que el número de niveles diferentes de cuantificación será de N = 2m, Entonces la relación señal ruido de cuantificación vale
Señal / Ruido = (20 log N + 10,8) dB = (mx 6 + 10,8) dB
Por ejemplo, si usamos 8 bits obtendremos una relación de 58,8 dB, aceptable por ejemplo para muchas aplicaciones de vídeo pero no por otros de sonido profesional. Con 16 bits, en cambio la relación S / N será de 106,8 dB.
Apuntes de Tecnología Audiovisual Tema 7 5
Hay dos tipos de errores digitales, los puntuales o aislados que afectan a un solo o muy pocos bits y que suelen originarse en fenómenos eléctricos, y los errores de ráfaga que afectan a muchos bits y que se originan habitualmente en problemas mecánicos tales como arañazos en una cinta, suciedad o huellas en la superficie del soporte, "Drop outs" o desprendimientos de la emulsión magnética de la cinta, etc. Como los primeros son mucho más fáciles de detectar y corregir los segundos, se hace con los datos digitales un proceso de intercalado destinado a separar datos consecutivas y aislar así posibles errores secuenciales.
En la comunicación humana a través del lenguaje, oral o escrito, hacemos continuamente uso, de manera inconsciente, de procedimientos de detección y corrección de errores: si alguien se equivoca en una letra o en una palabra o incluso en una frase entera, en la mayoría de casos nos damos cuenta, detectamos el error, y muy a menudo también podemos corregirlo a partir del contexto, de la resto de información que está presente. La razón para que podamos hacer esto es que los mensajes ordinarios son muy redundantes y tenemos suficiente información para poder restituir el contenido original.
Siguiendo esta idea, todos los sistemas de detección y corrección de errores están basados en la idea añadir redundancia a los datos originales. Como regla general, cuanto mayor sea esta más fiable será el sistema.
Podemos distinguir dos etapas en cualquiera de estos sistemas, la detección y la corrección o la cancela ∙ ción. La detección consiste en decidir si el bloque binario analizado es correcto o no. La corrección permite sustituir los bits defectuosos por otros idénticos a los originales. Si no hay suficiente redundancia o el sistema no es suficientemente potente para restituir los valores originales se puede hacer una cancelación: obtener una interpolación de los datos perdidos a partir de los valores de las cercanas más fiables. Como es natural todos estos procesos tienen un margen determinado de error, nunca se podrá hacer que la probabilidad de encontrar finalmente un error sea exactamente cero, pero se puede llegar a hacer insignificante.
Alguno de los sistemas de detección de errores son muy fáciles de entender. El repetir varios golpes los datos es trivial pero muy poco rentable. El de paridad sencilla, en cambio, es ya un procedimiento simple y viable. Consiste en añadir un bit cada n (por ejemplo cada 4) para hacer de por lo que los grupos de n + 1 bits (5 bits en el ejemplo) tengan siempre un número par de unos.
Con este sistema un grupo de bits como 1011 1101 1001 0001 0101 1001 se convertiría en 10111 11011 10010 00011 01010 10010, pues hemos añadido un 0 o un 1 para que los grupos de 5 bits siempre contuvieran 0 o 2 o 4 unos. Esto es la información que realmente se transmite. En el momento de leer la cadena de bits recibida, si se detecta un grupo de cinco bits que no cumple esta condición sabemos que ha habido un error, aunque no tendremos suficiente redundancia para corregirlo. Por otra parte la conservación de la paridad no nos da una garantía total de falta de errores pues es posible que dos o cuatro cambios en un bloque se equilibren y enmascaren. En virtud de su construcción, este sistema se llama de paridad pareja y el quinto bit se denomina bit de paridad.
Un sistema tan sencillo como éste se utilizaba en la codificación NICAM (Near Instantaneous Compression of Audio Multiplex) para el audio dual de televisión analógica. Si se detectaba un
Apuntes de Tecnología Audiovisual Tema 7 7
error, la muestra, formada por 10 bits, era sustituida por una interpolación calculada a partir de de la anterior y la posterior.
La mayoría de códigos de corrección de errores operativos son bastante más complejos para detectar con garantías si efectivamente ha habido un error y en qué bit en particular se ha producido. Se basan en técnicas de diseño de circuitos lógicos y de análisis matemático fuerza complejas. El más empleado en la mayor parte de las aplicaciones de audio y vídeo digital es el código Reed Solomon introducido por Irving S. Reed y Gustave Solomon 1960.
Para hacernos una idea de cómo se aplican estos algoritmos compararemos el CD Audio y el CD ROM, dos formatos de disco que tienen exactamente la misma estructura física de hecho el segundo es un derivado del primero pero unas necesidades de fiabilidad muy diferentes. En efecto, un error en un disco de sonido es tolerable y muy probablemente no afectará la audición; en un CD ROM, en cambio, si el error afecta a la parte de datos, como un píxel de una imagen tampoco pasará nada, pero si afecta a una parte de un programa el resultado puede ser imprevisible y nefasto.
Debido a esto se hace un uso distinto de los 3.234 bytes de que constan los sectores en que está organizada la memoria en ambos casos. En el CD Audio, los datos de los sectores se dividen en 2.352 bytes de usuario, que contienen la información sonora y 882 bytes para corrección de errores y control. En estos 882 bytes de redundancia se col ∙ loca un algoritmo CIRCO, Reed Solomon de Interfoliació Cruzada. Esto da al CD Audio una fiabilidad estadística de 1 error en 109 bytes.
En el CD ROM, en cambio, los sectores se dividen en 2048 bytes de usuario y 1186 de corrección de datos. Esto permite implementar algoritmos adicionales, además del CIRC, como la ECC. Con este aumento de la redundancia, la fiabilidad del CD ROM sube hasta niveles extraordinarios de 1 error en 10^25 bytes.
La digitalización del vídeo Resumir mucho. Énfasis en los diversos formatos de digitalización
Hemos visto que para digitalizar sonido en las frecuencias audibles para los humanos, entre 16 o 20 Hz y 16 Khz aproximadamente, se necesitan circuitos capaces de leer miles de muestras por segundo y cuantificarlas con 8 o 16 bits de profundidad. El problema técnico de digitalizar una señal de vídeo, el ancho de banda es 1.000 veces mayor que el sonido, del orden de unos cuantos Megahertz, es mucho más complicado. Por eso tardó varios años más en resolverse y de hecho aún hoy algunos procesos de digitalización y posterior compresión de gran calidad no se pueden hacer en tiempo real en sistemas sencillos.
De 1972 1982 empezaron a utilizarse aparatos digitales auxiliares dentro de las cadenas de producción de video (TBC, sincronizadores, generadores de efectos especiales, bases de imágenes en disco duro etc.). Es la época en que poco a poco la idea de digital se fue introduciendo en el ámbito del vídeo profesional.
Apuntes de Tecnología Audiovisual Tema 7 8
En el formato 4: 1: 1 se muestrea la luminancia a 13,5 Mhz. y las crominancia a la cuarta parte, es decir 3'375 Mhz. con la consecuente pérdida de calidad a cambio de un mayor ahorro de almacenamiento.
En el formato 4: 2: 0 se muestrea la luminancia a 13,5 Mhz. y las crominancia a 6,75 Mhz. pero sólo en una línea de cada dos. Esto da una cantidad de información igual que el anterior pero una mejor posibilidad de restitución de colores. Este es el formato utilizado como punto de partida para muchas aplicaciones de difusión de vídeo digital.
Para aplicaciones de televisión de calidad mejorada, como la EDTV (Enhanced Digital TV) de proporciones 16/9, se aumenta la frecuencia de muestreo de Y hasta 18 Mhz., lo que da un número de muestras activas de
El número de bits por píxel destinados a la cuantificación de los tres señales en la norma básica 4: 2: 2, fue inicialmente de 8 bits. Esto da una relación señal / ruido de 54 dBs., Inferior a los 60 dBs. habituales en las cámaras. Por otro lado, permite disponer de 256 valores diferentes, de los cuales 220 se podían emplear para distinguir varios niveles de luminosidad. Esto puede dar un efecto de discontinuidad perceptible en un degradado de grises.
Estas consideraciones llevaron a elevar a 10 el número de bits por píxel en la norma 4: 2: 2. Con ello se pueden distinguir 2^10 = 1024 niveles, de los que se utilizan efectivamente 880 para asignar valores a la señal de vídeo analógico que varía entre 0 y 0,7 mV.
Compresión de la información digital: el caso de la imagen
Como hemos visto, para almacenar digitalmente el sonido y sobre todo la imagen, se necesita una gran cantidad de memoria. Esto es ya un inconveniente, pues hace crecer y encarece tanto los dispositivos permanentes como los volátiles. Pero el inconveniente más importante aparece cuando se quiere reproducir alguna de estas informaciones en tiempo real: son los casos del sonido y el de la imagen en movimiento, que deben producirse de forma continua para obtener una sensación convincente. Esto afecta a la cantidad de información que debe procesar el ordenador por unidad de tiempo y que en el caso analizado antes de 25 imágenes por segundo de resolución 640x480 y millones de colores implicaría procesar del orden de 22 Megabytes por segundo.
Para reducir la cantidad de información a procesar se utilizan técnicas con dos finalidades principales. Primero, convertirla en otras formas equivalentes pero que ocupen menos memoria y segundo no transmitir de nuevo una información que se puede reconstruir a partir de una otra que ya ha sido transmitida con anterioridad. Por lo tanto una de las operaciones básicas de los algoritmos de compresión es la búsqueda de redundancias.
Se produce redundancia cuando una misma información es transmitida más de una vez. Por ejemplo, hay redundancia entre píxeles cuando varios píxeles adyacentes son iguales y se produce redundancia entre líneas cuando varias líneas adyacentes son iguales: son ejemplos de redundancia espacial. Hay redundancia temporal entre fotogramas cuando dos imágenes consecutivas contienen zonas iguales. También se habla de redundancia estadística, un concepto puramente matemático basado en la posibilidad de organizar los datos de forma que las más frecuentes y por lo tanto más numerosas utilicen el mínimo de cantidad de información para codificarlas.
Apuntes de Tecnología Audiovisual Tema 7 10
Compresión con pérdida y sin pérdida
Hay dos tipos de compresión conceptualmente diferentes. Por un lado la compresión sin pérdida, que no es más que una manera diferente y más económica de codificar la misma información. Como es natural, cada imagen o elemento de información tiene un límite que no puede rebasar. Esta, naturalmente, es la opción única en algunas aplicaciones de tipo científico, médico etc. en las que es imprescindible el máximo rigor en la transmisión de información. También es la base de los conocidos programas "en Zip padores" que permiten reducir las dimensiones de los archivos para enviarlos por correo electrónico, por ejemplo. Y a menudo es también el primer paso en un proceso de compresión que utilice varias técnicas en cadena.
Por otro, la compresión con pérdida basada en el principio de que no hay que mostrar más información que la que el usuario puede apreciar. Naturalmente, entre una u otra técnica de compresión con pérdida es, en cualquier caso, una decisión subjetiva y en este sentido se habla de redundancia subjetiva.
Recordemos que ya hemos visto un caso que podría considerarse precedente de la compresión con pérdida: la compresión y descompresión ópticas que mediante las lentes anamórficas permite al CinemaScope y derivados proyectar imágenes panorámicas sin aumentar la anchura del fotograma. También en ese caso la calidad era inferior a la que daría un sistema con fotogramas más anchas, pero era perfectamente aceptable en la situación de recepción del momento.
Las dos partes de los algoritmos de co mpressión / de s c ompressión, llamados codecs, tienen requerimientos claramente diferenciados. La descompresión se produce con el usuario pendiente del resultado. Esto hace que la velocidad de descompresión sea un término a considerar. El proceso de compresión, en cambio, no hay que hacerlo siempre en tiempo real. Se pueden utilizar, además, ordenadores más potentes y especializados, lo que permite obtener resultados de mejor calidad con una mayor compresión.
Los algoritmos que utilizan sistemas diferentes para codificar y para descodificar denominan asimétricos, mientras que los que utilizan el mismo se llaman simétricos.
En principio, el proceso de descompresión puede implementarse por software en ordenadores de propósito general o emplear hardware especialmente diseñado para efectuar las operaciones propias del algoritmo en cuestión. Naturalmente, cuanto más sofisticado sea el hardware dedicado más calidad de reproducción se podrá tener.
La implementación de la descompresión por software (es decir, utilizando sólo los recursos del procesador central) aparecida a mediados de los años 1990, significó poder tener por primera vez vídeo en el ordenador personal. Las tecnologías QuickTime de Apple y Video For Windows de Microsoft permitieron introducir video en movimiento en las aplicaciones interactivas en CD ROM y unos años después en internet a cambio de utilizar sólo una parte de
Apuntes de Tecnología Audiovisual Tema 7 11
Las técnicas interpolatives consisten en la transmisión de un subconjunto del total de píxeles de la imagen y la posterior restitución de los píxeles suprimidos mediante determinados algoritmos de interpolación. Una muy utilizada es el submuestreo de color ( color subsampling ) consistente al aplicar técnicas interpolatives a las componentes de crominancia de la imagen manteniendo íntegra la luminancia. Por ejemplo, los valores del señal R Y en un cuadradito de 4x4 = 16 píxeles sólo se envía una. Cuando se recupera la imagen se deducen los valores no transmitidos por interpolación a partir de los valores de la señal de color que hay en las proximidades de los píxeles correspondientes. Debido a la menor capacidad de el ojo humano para percibir cambios de color respecto los cambios en la intensidad de la luz, que ya se hacía sirvió en televisión analógica, se consigue un resultado suficientemente bueno habiendo reducido a una decimosexta parte la cantidad de información a cada uno de los dos señales de crominancia. Fig. 7: Submuestreo de color.
Las técnicas predictivas consisten en almacenar información de un determinado elemento (píxel, línea, fotograma o muestra de sonido) y emplearlo para prever, almacenando las diferencias, el siguiente elemento. Por lo tanto el proceso de decodificación va reconstruyendo cada elemento a partir de las diferencias con los anteriores, lo que puede hacer que los errores se vayan acumulando. Por evitar esto, estas técnicas incluyen periódicas puestas a punto de la información, por ejemplo cada línea o cada fotograma.
Entre las técnicas predictivas es importante la compresión DPCM (Diferential Pulse Code Modulated , empleada muy en audio. Se basa en la asunción de que las muestras contiguas (píxeles o muestras de sonido) son similares y por tanto sus diferencias son más pequeñas que su valor absoluto con lo que se podrán utilizar menos bits para su codificación con el consecuente ahorro de memoria. Está claro que esta técnica funcionará mal con trozos de imagen de alto contraste o sonidos con cambios bruscos de intensidad en que la hipótesis básica de cambios pequeños no se cumple.
Para evitar esto existen las técnicas ADPCM (Adaptative Diferential Pulse Code Modulated que permiten cambiar el número de bits dedicados a codificar las diferencias en función de las características de la información a codificar en cada momento. Así, si tiene que producirse un cambio de blanco a negro, en los píxeles anteriores se irá ampliando ya la medida de las diferencias y se irá reduciendo nuevamente poco después. Naturalmente, habrá que garantizar que el sistema de descompresión sepa en cada momento el tamaño de la diferencia que debe usar. Esto significa añadir información adicional y exigir al sistema una mayor capacidad de cálculo y proceso de datos.
Las técnicas de transformada se basan en transformaciones que convierten la información en una forma equivalente pero que permite una mayor compresión. Toda transformada tiene una inversa que hace reversible el proceso. Una técnica de transformada será efectiva si consigue buenos resultados con cálculos fáciles de implementar y que funcionan rápidamente. Hay muchas técnicas de transformada empleadas en compresión de imágenes, pero la más utilizada es la transformada discreta del coseno (DCT) , que consiste en expresar un señal en función de las frecuencias que lo componen en vez de describir sus elementos (pixels, muestras) uno tras otro a lo largo del tiempo. Como la mayor parte de una imagen la forman frecuencias bajas (las altas significan cambios bruscos de intensidad, es decir, detalles hasta que el ojo apenas aprecia) se puede reducir bastante la información en este espacio frecuencial.
Las técnicas de codificación estadística o de codificación entrópica, aprovechan la distribución estadística de los valores en la imagen o en el conjunto de datos resultante de una compresión anterior para reducir el número de bits necesarios.
Apuntes de Tecnología Audiovisual Tema 7 13
En general, codifican los valores más frecuentes con un número menor de bits y los más raros con un número mayor. Con ello el número total de bits necesarios se reduce. La técnica estadística más utilizada es la codificación de Huffman.
Los diversos formatos de imagen fija utilizan varias de estas técnicas. Por ejemplo, el más utilizado hoy en día por imágenes de tipo fotográfico , el formato JPEG (Joint Photographic Experts Group) , un conjunto estándar de algoritmos definidos por un grupo de la ISO (International Standard Organization), implementa una tras otra varias de estas técnicas intraframe: transformada discreta del coseno, codificación run length, codificación estadística de Huffman, etc. Normalmente, los programas que lo incorporan nos permiten elegir el nivel de compresión que queremos : a mayor calidad, archivo más grande. Internamente, el algoritmo JPEG implementa sus diversas técnicas de la manera adecuada para obtener el resultado deseado.
Compresión de imágenes en movimiento
Aunque es posible utilizar normas como éstas para lograr tener vídeo en movimiento (De hecho existe una versión, el Moving JPEG o MJPEG , que vuelca 25 o 30 imágenes por segundo de este formato), la redundancia temporal entre fotogramas consecutivos permite nuevas técnicas de compresión para la imagen en movimiento , conocidas usualmente como compresión interframe o compresión delta o técnicas de compensación o estimación de movimiento ( motion compensación ).
Todas estas técnicas subjetivas se basan en el hecho de que las personas tienen una mayor tolerancia visual con la imagen en movimiento que con la fija, pues el sistema visual efectúa espontáneamente promedios que propician una visión coherente y aceptable de las secuencias de imágenes, incluso en las condiciones más desfavorables.
El principio de la compensación de movimiento es detectar las partes relativamente estacionarias entre fotogramas adyacentes para eliminar estas redundancias en la información codificada. Se trata de crear el nuevo fotograma con el máximo posible de información de la anterior. El primer problema que se presenta con una imagen de vídeo real es definir qué partes son realmente estacionarias teniendo en cuenta que el "ruido" analógico, incluso el proveniente de procesos de digitalización, puede modificar imperceptiblemente un color y dar un valor digital diferente.
Para minimizar este efecto se divide la imagen en bloques y se analiza su evolución a lo largo del tiempo: la técnica " block matching "o comparación de bloques busca en el fotograma siguiente, alrededor de la posición original, ¿cuál es el bloque que se parece más al original. Una vez decidido esto no será necesario volver a transmitir, bastará con las coordenadas del desplazamiento obtenidas restando la segunda y la primera posición. Naturalmente en este proceso el algoritmo debe tener una cierta tolerancia en la decisión de si se trata o no del mismo bloque. Esto será origen de errores de compresión ("artefactos" de la imagen) que distinguirán la calidad de un compresor de la de otro.
Apuntes de Tecnología Audiovisual Tema 7 14
de imagen en movimiento ( Cinepak , RealVideo , Sorenson , DivX , MPEG , etc.) integrados de veces de formas diferentes sobre productos diferentes. Utilizar uno u otro depende básicamente de la calidad y la utilización deseadas. El conjunto de estándares actual más habitual para la difusión de vídeo digital es el definido por MPEG (Moving Pictures Experts Group) , creado por un grupo de la ISO (International Standard Organization). Su característica principal es irse definiendo por niveles, compatibles pero dirigidos a aplicaciones diferentes.
La primera de estas normas, MPEG 1 fue diseñada para la difusión de vídeo de calidad equiparable al VHS en CD ROMs convencionales. Como los primeros CD ROM multimedia daban una velocidad de transferencia de 150 Kb / s (1,5 Megabits por segundo), para tener 25 imágenes por segundo cada imagen debía ocupar sólo 6 Kb. y tenía que volcarse en sólo 40 mil ∙ milésimas. A pesar de estas limitaciones restituía imágenes de 352 píxeles y 240 líneas a 30 imágenes por segundo o 352 píxeles y 288 líneas a 25 imágenes por segundo.
La norma MPEG 2 es uno de los estándares de la difusión de imagen en movimiento tanto en la televisión digital por satélite ∙ satélite, cable o terrestre (TDT) como en los sistemas editoriales basados en el DVD, que sustituyó el CD ROM y tiene mucha más capacidad. La resolución principal de sus imágenes es de 720x576 pero incluye otros 3 niveles desde los 352x288 de baja resolución hasta los 1440x1152 de la alta resolución en formato 4: 3 (HDTV 4: 3) o los 1920x1152 de la alta resolución en formato 16: 9 (HDTV 16: 9).
Los discos Blu ray soportan al menos los codecs MPEG 2, H.264 / AVC y SMPTE VC 1. Estos dos últimos, derivados de diversas maneras de la norma básica MPEG y más sofisticados, son los que permiten llegar a resoluciones de 1080 líneas.
Apuntes de Tecnología Audiovisual Tema 7 16