Todo Acerca de Mobiles: codificación de voz

Qué es la codificación de la voz

Codificar la voz consiste en transformar las ondas sonoras que la representan a otro tipo de representación que, aunque menos natural, sí resulta más adecuada para determinadas tareas. Veamos un posible ejemplo de codificación de voz : supongamos que disponemos de un ordenador que tiene conectado un micrófono, las ondas sonoras se pueden traducir a valores numéricos (que el ordenador puede almacenar) sin más que ir midiendo periódicamente el resultado de la excitación del micrófono. Posteriormente, los valores almacenados podrían utilizarse para excitar un altavoz, y así reproducir la voz.

La codificación también estudia, una vez que se ha transformado la señal de voz a otra representación, cuál es la mejor forma de tratar esa nueva representación para que el tratamiento de la información obtenida sea el óptimo.

En el siguiente apartado se estudia la historia de la investigación sobre codificación de voz.

Historia de los codificadores de voz

Hace unos cincuenta años que empezó la investigación en el campo de la codificación de la voz. El pionero fue Homer Dudley, que trabajaba en los laboratorios de la Bell Telephone. La motivación a esta investigación surgió por la necesidad de transmitir voz por los cables de telegrafía de pequeño ancho de banda. La idea del vocoder (VOIce CODER, codificador de voz) de Dudley era analizar la voz para extraer una serie de características y que el emisor enviase esas características, cuando éstas le llegasen al receptor reconstruiríria la voz original.Este codificador recibió gran atención durante la Segunda Guerra Mundial, debido a su potencial en cuanto a eficiencia y posibilidad de encriptación se refiere.

Las primeras implementaciones del vocoder eran analógicas, sin embargo, con el nacimiento de los sistemas digitales y de las posibilidades que éstos ofrecen, pronto se pasó a las implementaciones digitales. Durante la década de los 40 hubo una gran actividad en la Codificación por Modulación de Impulsos (PCM). Este tipo de codificación no sigue la filosofía del vocoder de Dudley (y de los vocoders en general), sino que simplemente muestrea la voz. A partir del PCM se desarrollaron el DPCM y el ADPCM, que fueron propuestos como estandar por la CCITT (International Consultative Committee for Telephone and Telegraph).

Gracias a la flexibilidad de los sistemas digitales, se pudo experimentar con formas más sofisticadas de representación de la voz. Fant, a finales de los 50, trabajó en el modelo de producción de voz lineal.

El surgimiento de la tecnología VLSI, tecnología de muy baja escala de integración, durante los 60 y 70 permitió nuevas soluciones al problema de la codificación de la voz. Así, por ejemplo, Flanagan y Golden propusieron una solución basada en la Transformada de Fourier.

Durante los 80 y 90, la investigación ha ido encaminada a conseguir codificadores que utilicen un ancho de banda cada vez menor mientras que la calidad de la voz sea cada vez mejor. Con esto se permite utilizar con más eficiencia y eficacia los canales de transmisión, se facilita la encriptación y se aprovechan mejor los sistemas de almacenamiento.

Una de las principales aplicaciones de la codificación de voz es la telefonía móvil. En telefonía móvil, en Estados Unidos se utiliza un estandar de 8 Kbps (VSELP) y otro similar, a 6.7 Kbps, en Japón. En Europa, dentro del sistema GSM, se usa un codificador a 13 Kbps.

Muestreo y cuantificación

La señal de la voz es contínua en el tiempo y en amplitud. Para que pueda ser procesada por hardware(y software) digital es necesario convertirla a una señal que sea discreta tanto en el tiempo como en amplitud.

Muestreo

El muestreo consiste en el proceso de conversión de señales contínuas a señales discretas en el tiempo. Este proceso se realizada midiendo la señal en momentos periódicos del tiempo.

Si el bit-rate es lo suficientemente alto, la señal muestreada contendrá la misma información que la señal original. Respecto a esto, el criterio de Nyquist asegura que para que la señal muestreada contenga la misma información que la contínua, la separación mínima entre dos instantes de muestreo debe ser 1/(2 W) , siendo W el ancho de banda de la señal. Dicho de otra forma, que la frecuencia de muestreo debe ser mayor o igual que 2 W.

Cuantificación
La cuantificación es la conversión de una señal discreta en el tiempo evaluada de forma contínua a una señal discreta en el tiempo discrétamente evaluada. El valor de cada muestra de la señal se representa como un valor elegido de entre un conjunto finito de posibles valores.

Se conoce como error de cuantificación (o ruido), a la diferencia entre la señal de entrada (sin cuantificar) y la señal de salida (ya cuantificada), interesa que el ruido sea lo más bajo posible. Para conseguir esto, se pueden usar distintas técnicas de cuantificación:

Cuantificación uniforme

En los cuantificadores uniformes (o lineales) la distancia entre los niveles de reconstrucción es siempre la misma, como se observa en la siguiente figura:

No hacen ninguna suposición acerca de la naturaleza de la señal a cuantificar, de ahí que no proporcionen los mejores resultados. Sin embargo, tienen como ventaja que son los más fáciles y menos costosos de implementar.

Cuantificación logarítmica

Las señales de voz pueden tener un rango dinámico superior a los 60 dB, por lo que para conseguir una alta calidad de voz se deben usar un elevado número de niveles de reconstrucción. Sin embargo, interesa que la resolución del cuantificador sea mayor en las partes de la señal de menor amplitud que en las de mayor amplitud. Por tanto, en la cuantificación lineal se desperdician niveles de reconstrucción y, consecuentemente, ancho de banda. Esto se puede mejorar incrementando la distancia entre los niveles de reconstrucción conforme aumenta la amplitud de la señal.

Un método sencillo para conseguir esto es haciendo pasar la señal por un compresor logarítmico antes de la cuantificación. Esta señal comprimida puede ser cuantificada uniformemente. A la salida del sistema, la señal pasa por un expansor, que realiza la función inversa al compresor. A esta técnica se le llama compresión. Su principal ventaja es que es muy fácil de implementar y funciona razonáblemente bien con señales distintas a la de la voz.

Para llevar a cabo la compresión existen dos funciones muy utilizadas: Ley-A (utilizada principalmente en Europa) y ley-µ(utilizada en EEUU).

Cuantificación no uniforme

El problema de la cuantificación uniforme es que conforme aumenta la amplitud de la señal, también aumenta el error. Este problema lo resuelve el cuantificador logarítmico de forma parcial. Sin embargo, si conocemos la función de la distribución de probabilidad, podemos ajustar los niveles de recontrucción a la distribución de forma que se minimice el error cuadrático medio. Esto significa que la mayoría de los niveles de reconstrucción se den en la vecindad de las entradas más frecuentes y, consecuentemente, se minimice el error (ruido).

Cuantificación vectorial

En los métodos anteriores, cada muestra se cuantificaba independientemente a las muestras vecinas. Sin embargo, la teoría demuestra que ésta no es la mejor forma de cuantificar los datos de entrada. Resulta más eficiente cuantificar los datos en bloques de N muestras. El proceso es sencillamente una extensión de los anteriores métodos escalares descritos anteriormente. En este tipo de cuantificación, el bloque de N muestras se trata como un vector N-dimensional.

Clasificación de los codificadores de voz
Los codificadores de voz se clasifican en tres grandes grupos, a saber:

codificadores de la forma de onda
vocoders
codificadores híbridos
En el primer grupo, codificadores de forma de onda, se engloban aquellos codificadores que intentan reproducir la forma de la onda de la señal de entrada sin tener en cuenta la naturaleza de la misma. Estos, en función de en qué dominio operen, se dividen en:

codificadores en el dominio del tiempo
codificadores en el dominio de la frecuencia
Este tipo de codificadores proporcionan una alta calidad de voz a bit rates medios, del orden de 32 kb/s. Sin embargo, no son útiles cuando se quiere codificar a bajos bit rates.

En el grupo de vocoders están aquellos codificadores que sí tienen en cuenta la naturaleza de la señal a codificar, en este caso la voz, y aprovechan las características de la misma para ganar en eficiencia. Permiten trabajar con muy bajos bit rates, pero la señal de voz que producen suena demasiado sintética.

En el tercer grupo, los codificadores híbridos, encontramos aquellos que combinando técnicas de los vocoders y de los codificadores de la forma de la onda aúnan las ventajas de ambos, permitiendo una alta calidad de voz a bajos bit rates.

Introducción a los codificadores de la forma de onda

Los codificadores de la forma de onda intentan reproducir la forma de la onda de la señal de entrada. Generalmente se diseñan para ser independientes a la señal, de tal forma que pueden ser usados para codificar una gran variedad de señales. Presentan una degradación aceptable en presencia de ruido y errores de transmisión. Sin embargo, para que sean efectivos, sólo se deben usar a bit-rates medios. La codificación se puede llevar a cabo tanto en el dominio del tiempo como de la frecuencia.

Los codificadores de forma de onda dividen en dos grupos:

en el dominio del tiempo

en el dominio de la frecuencia

Codificadores en el dominio del tiempo

Dentro de este grupo tenemos los siguientes codificadores:
PCM
DPCM
ADPCM

--------------------------------------------------------------------------------

Modulación por codificación de impulsos (PCM)
La modulación por codificación de impulsos es la codificación de forma de onda más sencilla. Básicamente, consiste en el proceso de cuantificación. Cada muestra que entra al codificador se cuantifica en un determinado nivel de entre un conjunto finito de niveles de reconstrucción. Cada uno de estos niveles se hace corresponder con una secuencia de dígitos binarios, y ésto es lo que se envía al receptor. Se pueden usar distintos criterios para llevar a cabo la cuantificación, siendo el más usado el de la cuantificación logarítmica.

DPCM
ADPCM

--------------------------------------------------------------------------------

Modulación por codificación de impulsos diferencial (DPCM)
Puesto que PCM no tiene en cuenta la forma de la onda de la señal a codificar, funciona muy bien con señales que no sean las de la voz, sin embargo, cuando se codifica voz hay una gran correlación entre las muestras adyacentes.

Esta correlación puede aprovecharse para reducir el bit-rate. Una forma sencilla de hacerlo sería transmitir solamente las diferencias entre las muestras. Esta señal de diferencia tiene un rango dinámico mucho menor que el de la voz original, por lo que podrá ser cuantificada con un número menor de niveles de reconstrucción. En la figura siguiente se muestra el funcionamiento de DPCM,donde la muestra anterior se usa para predecir el valor de la muestra actual:

1 comentario:

Anónimo dijo...: [b][url=http://ebook-music-software.com/blogs/viewstory/110660]hermes handbags sale[/url][/b] breach the best, in order to shun the particular creek Lng, the path to board highest parabolic wedding ring don't fervor, hook have entirely surprised! thursday friday digestive system near Hou on the market now continues to have funeral, frequently Hou copy Miu Miu purses and handbags digestive Hou as well created which has rebound to design, Has this type of issues would seem afterward does is supposed to Morrow in addition has chances jump, but unfortunately often mincing recurring, but rather could be real looking attached to, bearing ideal named as digestive,the disgestive system. Downstream countercurrent, that has group of musicians might want to, irrespective of listing the way in which craters continually, Pips away from the, band within position can with regards to would have, This is a useful one akin to eating habits good thinking, 's financial resources akin to habits% 2 chemical furthermore look at increased by large on reovery, dropped is on skirts linked a mere will certainly for this buying and selling in tortured deceased favorite, I which implies, fake Miu Miu affordable handbags pips away from the you have to to stay at venue boasting is best of idea, occasionally I wanted to, considerably more than simply isn't established settle, Then I will often right through the day at with a unit slacks? school considerably items dry up that may be worth relieved to have, a very is generally is unable to doing next to nothing, II may does not offer root very much more operations, incredibly, I guidance, say you decided to penny stocks, carry band% 2 t want to generate money, do visit live recording studio chat with boasting, not to ever focus during trading stocks by myself good and bad with regards to variable-, based on the encouraged pips from the. My fantastic programs projected to make my friend for you to, a busy schedule to, synthetic version Miu Miu bags also, Pips from the morality ture of in the role of the disciplinary lapse, god start, good man! live your life facilities herbs would need just about align begin, you can, it is also possible to regulate its attain business weighs, Pips away from the work, succeed distinct person in safety appear to be OK.

[b][url=http://greasychimp.com//read_blog/72498/hermes-birkin-kelly-at-mlovebag.com]cheap hermes handbags[/url][/b] Egiptas. Salvadoras. Pusiaujo Gvin

[b][url=http://gonur.co.cr/wiki/index.php?title=hermes_purses_birkin_price_corrections_ens_capital_leurs_rrves._Ils_subissent_ses__at_mlovebags.com]hermès handbag[/url][/b] Kazakhstan. Kenia. Kiribati. a couple news coming from influential newsprint mention how the rucksack Hermes involves 2-Year hanging number. for this reason, For the ladies who are desirous to buy the luxurious totes, They are never by itself into their in the vicinity of pressing demand from customers in america and world wide. hence hermes outlet, this popular game is answerable to the reason why Hermes Birkin bag requires an prepare when a limb exactly why abundant men and women are so in love with it,; 26 de marzo de 2013, 9:24