Google
 

viernes, 9 de noviembre de 2007

codificación de voz

Qué es la codificación de la voz


Codificar la voz consiste en transformar las ondas sonoras que la representan a otro tipo de representación que, aunque menos natural, sí resulta más adecuada para determinadas tareas. Veamos un posible ejemplo de codificación de voz : supongamos que disponemos de un ordenador que tiene conectado un micrófono, las ondas sonoras se pueden traducir a valores numéricos (que el ordenador puede almacenar) sin más que ir midiendo periódicamente el resultado de la excitación del micrófono. Posteriormente, los valores almacenados podrían utilizarse para excitar un altavoz, y así reproducir la voz.

La codificación también estudia, una vez que se ha transformado la señal de voz a otra representación, cuál es la mejor forma de tratar esa nueva representación para que el tratamiento de la información obtenida sea el óptimo.

En el siguiente apartado se estudia la historia de la investigación sobre codificación de voz.

Historia de los codificadores de voz


Hace unos cincuenta años que empezó la investigación en el campo de la codificación de la voz. El pionero fue Homer Dudley, que trabajaba en los laboratorios de la Bell Telephone. La motivación a esta investigación surgió por la necesidad de transmitir voz por los cables de telegrafía de pequeño ancho de banda. La idea del vocoder (VOIce CODER, codificador de voz) de Dudley era analizar la voz para extraer una serie de características y que el emisor enviase esas características, cuando éstas le llegasen al receptor reconstruiríria la voz original.Este codificador recibió gran atención durante la Segunda Guerra Mundial, debido a su potencial en cuanto a eficiencia y posibilidad de encriptación se refiere.

Las primeras implementaciones del vocoder eran analógicas, sin embargo, con el nacimiento de los sistemas digitales y de las posibilidades que éstos ofrecen, pronto se pasó a las implementaciones digitales. Durante la década de los 40 hubo una gran actividad en la Codificación por Modulación de Impulsos (PCM). Este tipo de codificación no sigue la filosofía del vocoder de Dudley (y de los vocoders en general), sino que simplemente muestrea la voz. A partir del PCM se desarrollaron el DPCM y el ADPCM, que fueron propuestos como estandar por la CCITT (International Consultative Committee for Telephone and Telegraph).

Gracias a la flexibilidad de los sistemas digitales, se pudo experimentar con formas más sofisticadas de representación de la voz. Fant, a finales de los 50, trabajó en el modelo de producción de voz lineal.

El surgimiento de la tecnología VLSI, tecnología de muy baja escala de integración, durante los 60 y 70 permitió nuevas soluciones al problema de la codificación de la voz. Así, por ejemplo, Flanagan y Golden propusieron una solución basada en la Transformada de Fourier.

Durante los 80 y 90, la investigación ha ido encaminada a conseguir codificadores que utilicen un ancho de banda cada vez menor mientras que la calidad de la voz sea cada vez mejor. Con esto se permite utilizar con más eficiencia y eficacia los canales de transmisión, se facilita la encriptación y se aprovechan mejor los sistemas de almacenamiento.

Una de las principales aplicaciones de la codificación de voz es la telefonía móvil. En telefonía móvil, en Estados Unidos se utiliza un estandar de 8 Kbps (VSELP) y otro similar, a 6.7 Kbps, en Japón. En Europa, dentro del sistema GSM, se usa un codificador a 13 Kbps.

Muestreo y cuantificación


La señal de la voz es contínua en el tiempo y en amplitud. Para que pueda ser procesada por hardware(y software) digital es necesario convertirla a una señal que sea discreta tanto en el tiempo como en amplitud.

Muestreo



El muestreo consiste en el proceso de conversión de señales contínuas a señales discretas en el tiempo. Este proceso se realizada midiendo la señal en momentos periódicos del tiempo.

Si el bit-rate es lo suficientemente alto, la señal muestreada contendrá la misma información que la señal original. Respecto a esto, el criterio de Nyquist asegura que para que la señal muestreada contenga la misma información que la contínua, la separación mínima entre dos instantes de muestreo debe ser 1/(2 W) , siendo W el ancho de banda de la señal. Dicho de otra forma, que la frecuencia de muestreo debe ser mayor o igual que 2 W.

Cuantificación
La cuantificación es la conversión de una señal discreta en el tiempo evaluada de forma contínua a una señal discreta en el tiempo discrétamente evaluada. El valor de cada muestra de la señal se representa como un valor elegido de entre un conjunto finito de posibles valores.

Se conoce como error de cuantificación (o ruido), a la diferencia entre la señal de entrada (sin cuantificar) y la señal de salida (ya cuantificada), interesa que el ruido sea lo más bajo posible. Para conseguir esto, se pueden usar distintas técnicas de cuantificación:

Cuantificación uniforme


En los cuantificadores uniformes (o lineales) la distancia entre los niveles de reconstrucción es siempre la misma, como se observa en la siguiente figura:

No hacen ninguna suposición acerca de la naturaleza de la señal a cuantificar, de ahí que no proporcionen los mejores resultados. Sin embargo, tienen como ventaja que son los más fáciles y menos costosos de implementar.

Cuantificación logarítmica


Las señales de voz pueden tener un rango dinámico superior a los 60 dB, por lo que para conseguir una alta calidad de voz se deben usar un elevado número de niveles de reconstrucción. Sin embargo, interesa que la resolución del cuantificador sea mayor en las partes de la señal de menor amplitud que en las de mayor amplitud. Por tanto, en la cuantificación lineal se desperdician niveles de reconstrucción y, consecuentemente, ancho de banda. Esto se puede mejorar incrementando la distancia entre los niveles de reconstrucción conforme aumenta la amplitud de la señal.

Un método sencillo para conseguir esto es haciendo pasar la señal por un compresor logarítmico antes de la cuantificación. Esta señal comprimida puede ser cuantificada uniformemente. A la salida del sistema, la señal pasa por un expansor, que realiza la función inversa al compresor. A esta técnica se le llama compresión. Su principal ventaja es que es muy fácil de implementar y funciona razonáblemente bien con señales distintas a la de la voz.

Para llevar a cabo la compresión existen dos funciones muy utilizadas: Ley-A (utilizada principalmente en Europa) y ley-µ(utilizada en EEUU).


Cuantificación no uniforme


El problema de la cuantificación uniforme es que conforme aumenta la amplitud de la señal, también aumenta el error. Este problema lo resuelve el cuantificador logarítmico de forma parcial. Sin embargo, si conocemos la función de la distribución de probabilidad, podemos ajustar los niveles de recontrucción a la distribución de forma que se minimice el error cuadrático medio. Esto significa que la mayoría de los niveles de reconstrucción se den en la vecindad de las entradas más frecuentes y, consecuentemente, se minimice el error (ruido).

Cuantificación vectorial


En los métodos anteriores, cada muestra se cuantificaba independientemente a las muestras vecinas. Sin embargo, la teoría demuestra que ésta no es la mejor forma de cuantificar los datos de entrada. Resulta más eficiente cuantificar los datos en bloques de N muestras. El proceso es sencillamente una extensión de los anteriores métodos escalares descritos anteriormente. En este tipo de cuantificación, el bloque de N muestras se trata como un vector N-dimensional.

Clasificación de los codificadores de voz
Los codificadores de voz se clasifican en tres grandes grupos, a saber:

codificadores de la forma de onda
vocoders
codificadores híbridos
En el primer grupo, codificadores de forma de onda, se engloban aquellos codificadores que intentan reproducir la forma de la onda de la señal de entrada sin tener en cuenta la naturaleza de la misma. Estos, en función de en qué dominio operen, se dividen en:

codificadores en el dominio del tiempo
codificadores en el dominio de la frecuencia
Este tipo de codificadores proporcionan una alta calidad de voz a bit rates medios, del orden de 32 kb/s. Sin embargo, no son útiles cuando se quiere codificar a bajos bit rates.

En el grupo de vocoders están aquellos codificadores que sí tienen en cuenta la naturaleza de la señal a codificar, en este caso la voz, y aprovechan las características de la misma para ganar en eficiencia. Permiten trabajar con muy bajos bit rates, pero la señal de voz que producen suena demasiado sintética.

En el tercer grupo, los codificadores híbridos, encontramos aquellos que combinando técnicas de los vocoders y de los codificadores de la forma de la onda aúnan las ventajas de ambos, permitiendo una alta calidad de voz a bajos bit rates.

Introducción a los codificadores de la forma de onda


Los codificadores de la forma de onda intentan reproducir la forma de la onda de la señal de entrada. Generalmente se diseñan para ser independientes a la señal, de tal forma que pueden ser usados para codificar una gran variedad de señales. Presentan una degradación aceptable en presencia de ruido y errores de transmisión. Sin embargo, para que sean efectivos, sólo se deben usar a bit-rates medios. La codificación se puede llevar a cabo tanto en el dominio del tiempo como de la frecuencia.

Los codificadores de forma de onda dividen en dos grupos:

en el dominio del tiempo

en el dominio de la frecuencia

Codificadores en el dominio del tiempo


Dentro de este grupo tenemos los siguientes codificadores:
PCM
DPCM
ADPCM



--------------------------------------------------------------------------------

Modulación por codificación de impulsos (PCM)
La modulación por codificación de impulsos es la codificación de forma de onda más sencilla. Básicamente, consiste en el proceso de cuantificación. Cada muestra que entra al codificador se cuantifica en un determinado nivel de entre un conjunto finito de niveles de reconstrucción. Cada uno de estos niveles se hace corresponder con una secuencia de dígitos binarios, y ésto es lo que se envía al receptor. Se pueden usar distintos criterios para llevar a cabo la cuantificación, siendo el más usado el de la cuantificación logarítmica.


DPCM
ADPCM

--------------------------------------------------------------------------------

Modulación por codificación de impulsos diferencial (DPCM)
Puesto que PCM no tiene en cuenta la forma de la onda de la señal a codificar, funciona muy bien con señales que no sean las de la voz, sin embargo, cuando se codifica voz hay una gran correlación entre las muestras adyacentes.

Esta correlación puede aprovecharse para reducir el bit-rate. Una forma sencilla de hacerlo sería transmitir solamente las diferencias entre las muestras. Esta señal de diferencia tiene un rango dinámico mucho menor que el de la voz original, por lo que podrá ser cuantificada con un número menor de niveles de reconstrucción. En la figura siguiente se muestra el funcionamiento de DPCM,donde la muestra anterior se usa para predecir el valor de la muestra actual:

miércoles, 7 de noviembre de 2007

Acceso múltiple por división de código

La multiplexación por división de código o CDMA es un término genérico que define una interfaz de aire inalámbrica basada en la tecnología de espectro extendido (spread spectrum). Para telefonía celular, CDMA es una técnica de acceso múltiple especificada por la TIA como IS-95.

En marzo de 1992, la TIA estableció el subcomité TR 45.5 con la finalidad de desarrollar un estándar de telefonía celular digital con espectro extendido. En julio de 1993, la TIA aprobó el estándar CDMA IS-95. Los sistemas IS-95 dividen el espectro en portadoras de 1.25 MHz.

Uno de los aspectos únicos de CDMA es que a pesar de que existe un número fijo de llamadas telefónicas que pueden manipularse por parte de un proveedor de servicios de telefonía (carrier), este no es un número fijo. La capacidad del sistema dependerá de muchos factores. Cada dispositivo que utiliza CDMA está programado con un pseudocódigo, el cual se usa para extender una señal de baja potencia sobre un espectro de frecuencias amplio. La estación base utiliza el mismo código en forma invertida (los ceros son unos y los unos son ceros) para desextender y reconstruir la señal original. Los otros códigos permanecen extendidos, distinguibles del ruido de fondo. Hoy en día existen muchas variantes, pero el CDMA original se conoce como cdmaOne bajo una marca registrada de Qualcomm. A CDMA se le caracteriza por su alta capacidad y celdas de radio pequeño, que emplea espectro extendido y un esquema de codificación especial y, lo mejor de todo es muy eficiente en potencia.

Información sobre paquetes [editar]Las redes basadas en CDMA están construidas con protocolos basados en IP (Internet protocol; protocolo de Internet). En otro tipo de redes, añadir equipo que soporte paquetes de datos y requiera también equipo terminal que lo soporte. El estándar cdmaOne ya incorpora en sus terminales los protocolos TCP/IP(Protocolo de control de transmision/Protocolo de Internet) y PPP(Protocolo punto a punto).


Seguridad y privacidad [editar]La técnica de espectro extendido se utiliza bastante en aplicaciones militares, donde la seguridad de las conversaciones y protección de los datos son cuestiones importantísimas. En un ambiente de negocios también son vitales los aspectos de seguridad y privacidad. Diseñado con alrededor de 4.4 trillones de códigos, CDMA virtualmente elimina la clonación de dispositivos y es muy difícil capturar y descifrar una señal.


Control del nivel de potencia [editar]El control de la potencia es otro beneficio de los sistemas de CDMA. Empleando técnicas de procesado de señales, corrección de errores, etc., CDMA supera el problema de la potencia con una serie de ciclos de retroalimentación. Con un control automático de la ganancia en los terminales y una supervisión constante del nivel de señal a ruido y tasas de error en la radio base, los picos en el nivel de potencia se regulan con un complejo de circuitos electrónicos que ajusta la potencia a una razón de 800 veces por segundo. Esto repercute en el ajuste dinámico del tamaño de las celdas.

En una celda congestionada, la potencia de los terminales se elevaría creando una interferencia mutua. En el margen, las transmisiones de alta potencia inundarían las celdas vecinas donde éstas podrían ser tomadas por la radio base adyacente. En una celda de poca densidad, la potencia es tan baja que la celda se reduce efectivamente, transmitiendo sin interferencia hacia las celdas vecinas y mejorando el desempeño de las mismas. Este tipo de ajuste dinámico en el tamaño de las celdas es imposible en TDMA, pues en esta las celdas adyacentes utilizan diferentes frecuencias. Se ha comprobado en diversos estudios que CDMA es cientos de veces más eficiente en potencia que TDMA.


Bajo consumo de potencia y baterías más duraderas en las terminales [editar]Debido al sistema de retroalimentación de CDMA que mantiene la potencia al más bajo nivel permisible, los terminales consumen menos potencia y son más pequeños, además de que las baterías de CDMA duran más tiempo que las de TDMA.[cita requerida]


Amplia cobertura con pocas celdas [editar]La señal de espectro extendido de CDMA provee gran cobertura en la industria inalámbrica, por lo que permite a los carriers la instalación de menos celdas para cubrir una área más extensa. Pocas celdas significan para los carriers mucho ahorro en infraestructura de radio-bases. Dependiendo de la carga del sistema y de la interferencia , la reducción de celdas es 50 por ciento menor en CDMA que en sistemas como GSM (sistema global para comunicaciones móviles), basado en TDMA. Es preciso notar que la reducción de celdas solo es valida para operadores que empezaron desde un principio con CDMA. Operadores que utilizan sistemas analógicos o basados en otras tecnologías deberán redistribuir las celdas CDMA en las celdas ya existentes.


Pocas llamadas caídas [editar]La transferencia de celdas (handoff) de CDMA, método para transferir llamadas entre celdas, reduce inteligentemente el riesgo de interrumpirlas durante una transferencia. El proceso conocido como transferencia suave o transparente (soft handoff) entre celdas conduce a pocas llamadas caídas, ya que dos o tres celdas siempre monitorean la llamada. La transferencia entre celdas es transparente a los usuarios debido a que como, estos utilizan el mismo espectro, es más fácil moverse de una celda a otra sin que el suscriptor lo advierta.


Ancho de banda en demanda [editar]El canal de 1,25 MHz de CDMA provee un recurso común a las terminales en un sistema de acuerdo con sus propias necesidades, como voz, fax datos u otras aplicaciones. En un tiempo dado, la porción de este ancho de banda que no utilice un terminal estará disponible para otro usuario. Debido a que CDMA utiliza una porción grande de espectro repartida entre varios usuarios, provee flexibilidad en el ancho de banda para permitir servicios en demanda. Bajo TDMA, donde los canales son fijos y pequeños, esto no es posible. En forma general está comprobado que CDMA es de tres a seis veces más eficiente en ancho de banda que TDMA

Acceso múltiple por división de tiempo

El Acceso múltiple por división de tiempo (Time Division Multiple Access o TDMA, del inglés) es una tecnología que distribuye las unidades de información en ranuras ("slots") alternas de tiempo, proveyendo acceso múltiple a un reducido número de frecuencias. TDMA es una tecnología inalámbrica de segunda generación que brinda servicios de alta calidad de voz y datos.

TDMA divide un único canal de frecuencia de radio en varias ranuras de tiempo (seis en D-AMPS y PCS, ocho en GSM). A cada persona que hace una llamada se le asigna una ranura de tiempo específica para la transmisión, lo que hace posible que varios usuarios utilicen un mismo canal simultáneamente sin interferir entre sí.

Existen varios estándares digitales basados en TDMA, tal como TDMA D-AMPS (Digital-Advanced Mobile Phone System), TDMA D-AMPS-1900, PCS-1900 (Personal Communication Services), GSM (Global System for Mobile Communication), DCS-1800 (Digital Communications System) y PDC (Personal Digital Cellular).


Características
Se utiliza con modulaciones digitales.
Tecnología simple y muy probada e implementada.
Adecuada para la conmutación de paquetes.
Requiere una sincronización estricta entre emisor y receptor.
Requiere el Time Advance.

¿Que le parece este Blog?

Esta Interesado en un Negocio desde Internet ? LE INVITO A VER EL VIDEO

Si le gusto la presentacion le invito a Inscribirse Gratuitamente en este enlace. ENLACE AQUI