Tecnologia
Typography
  • Smaller Small Medium Big Bigger
  • Default Helvetica Segoe Georgia Times

El reconocimiento de voz no es nada nuevo. Los electrónicos de consumo, autos y centros de llamadas automatizadas han estado 'escuchando' comandos desde hace años. Google ha estado transcribiendo mensajes de voz desde 2009, y Microsoft incluyó una tecnología similar en Windows Vista tres años antes de eso. Entonces, ¿cuál es la novedad de la nueva asistente personal virtual de Apple llamada Siri?

Ella te comprende.

En otras palabras, Siri no es sólo tecnología de reconocimiento de voz, sino comprensión de voz; y eso está cambiando la forma en que los usuarios interactúan con sus dispositivos móviles. Ahora, muchos predicen que Siri podría proporcionar un importante impulso a una tecnología perpetuamente inminente, de la misma manera en que los controles táctiles de Apple volcaron esa tecnología al uso popular. Eso podría despejar el camino para una amplia gama de aplicaciones innovadoras. La industria de reconocimiento de voz registró un valor de 2,700 millones de dólares este año, según Opus Research. Esta firma prevé un auge post-Siri en 2012.

¿Qué hace a Siri tan diferente?

La exactitud, de acuerdo con Tim Bajarin, presidente de estrategia de la firma Creative Strategies. "Lo que realmente ha introducido Siri es la próxima interfaz hombre-máquina, y está teniendo un impacto significativo en el mercado de la comprensión y precisión del lenguaje", dice Bajarin.

Siri no es perfecto, por supuesto. La tecnología todavía tiene dificultades para entender algunos acentos, y Apple ha luchado por solucionar problemas técnicos tempranos. Sin embargo, para ser una pieza de software, lo hace bastante bien. La clave para ello, de acuerdo con los creadores originales del programa (el laboratorio de investigación SRI International con sede en Menlo Park, California) es el procesamiento del lenguaje natural. En esencia, toma señales de voz, las traduce directamente en el texto que los usuarios ven en sus pantallas y acota esos términos contra uno de sus comandos pre-programados, tales como realizar una llamada o escribir un mensaje de texto.

Esa tecnología tiene potencial fuera de las tablets y los teléfonos inteligentes. Nuance, el creador del software de reconocimiento de voz Dragon, ha estado trabajando en el cuidado de la salud desde hace una década. El último programa de Nuance se ejecuta en el escritorio de un médico, grabando voz mediante un micrófono de solapa.

El programa actualiza los registros electrónicos de salud del paciente a medida que las citas se realizan. "Un segundo, el paciente podría estar hablando sobre la historia médica de su madre, y al siguiente, están hablando sobre su padre. Y la aplicación entiende eso", dice Joe Petro, vicepresidente senior de Investigación y Desarrollo en la división de Cuidado de la Salud de Nuance Comunication.

¿Cómo? Al igual que Siri, la aplicación de Nuance -que está siendo utilizada por 450,000 médicos de todo Estados Unidos- extrae significado de las palabras que reconoce, buscando referencias en una base de datos de información médica para luego compararlos con los antecedentes del paciente.

A continuación, utiliza la inferencia estadística para establecer una conexión entre las piezas de información que descubre, e incluso realiza sugerencias sobre el tratamiento. Petro dice que la tecnología es precisa en más del 90% y mejora con el tiempo. Ciertamente ha funcionado para el balance de la empresa, tanto es así que Nuance decidió elevar sus proyecciones de ingresos para el cuarto trimestre en 10 millones de dólares.

Los investigadores tienen esperanzas aún mayores para el futuro. Skip Rizzo, director asociado del Instituto de Tecnologías Creativas de la Universidad Southern California, está trabajando en una tecnología de simulación interactiva diseñada para ayudar a los veteranos militares a buscar asesoría para el trastorno de estrés post-traumático.

Llamado SimCoach, el programa eventualmente intentará leer la emoción detrás de las palabras habladas. "Es un reto muy, muy grande. Porque lo que estamos haciendo es capturar los patrones vocales, entonces debes analizarlos como lo haría un cerebro", dice Rizzo. Mientras que los humanos pueden ser capaces de saber cuando algo está mal con un amigo o un miembro de la familia, debido a que su forma de hablar es más lenta o con menos énfasis, una computadora puede tener dificultades para detectar estas señales, dice Rizzo.

Algunas investigaciones podrían traer resultados más pronto. La primavera pasada, el compañero de investigación de Rizzo, el profesor del MIT Alex Pentland, experimentó con una tecnología de inferencia de voz similar a la del centro de llamadas de Bank of America, analizando cómo la comunicación de los empleados afectaba el éxito del negocio.

Pentland hizo que algunos empleados usaran pequeñas tarjetas de identificación electrónicas alrededor de sus cuellos durante seis semanas, las cuales rastreaban su ubicación física y así como su lenguaje corporal y voz. Los datos mostraron con quién interactuaba una persona, lo cerca que estaba de ella y el tono de su conversación. "Hemos encontrado que las personas más productivas fueron las personas que no sólo hablaban con mucha gente, sino que hablaban con compañeros de trabajo que de igual forma hablaban con mucha gente", dice Pentland. Simplemente al cambiar el horario de comida del empleado para que coincida mejor con el de otro, el centro de llamadas podría ahorrar 15 millones de dólares al año, dice Pentland.

La atención que los consumidores están poniendo en Siri probablemente beneficiará este tipo de investigación. e impulsara aún más su adopción. "El reconocimiento de voz es realmente el Santo Grial de la tecnología", dice Rizzo. "Estamos 90% allí, pero el 10% restante es mucho más difícil de manejar. Y cuando el punto de inflexión se alcance, será un mercado gigante". Parece que Siri bien podría ser el punto de inflexión.

Fuente: CNNexpansión / Por: Sierra Jiminez

Publicado por: TuDecides.com.mx
Edición: Adrián Soltero
Contacto: dir@tudecides.com.mx

Nota: Por lo general todos los artículos cuentan con fuente y autor del mismo. Si por alguna razón no se encuentra, lo hemos omitido por error o fue escrito por la redacción de TuDecides.com.mx.

 

Suscríbase para recibir novedades, regalos y artículos

Su email jamás será compartido con nadie. Odiamos el spam.

Te puede interesar...

Save
Cookies user preferences
We use cookies to ensure you to get the best experience on our website. If you decline the use of cookies, this website may not function as expected.
Accept all
Decline all
Marketing
Set of techniques which have for object the commercial strategy and in particular the market study.
DoubleClick/Google Marketing
Accept
Decline
$family
Accept
Decline
$constructor
Accept
Decline
each
Accept
Decline
clone
Accept
Decline
clean
Accept
Decline
invoke
Accept
Decline
associate
Accept
Decline
link
Accept
Decline
contains
Accept
Decline
append
Accept
Decline
getLast
Accept
Decline
getRandom
Accept
Decline
include
Accept
Decline
combine
Accept
Decline
erase
Accept
Decline
empty
Accept
Decline
flatten
Accept
Decline
pick
Accept
Decline
hexToRgb
Accept
Decline
rgbToHex
Accept
Decline
min
Accept
Decline
max
Accept
Decline
average
Accept
Decline
sum
Accept
Decline
unique
Accept
Decline
shuffle
Accept
Decline
rgbToHsb
Accept
Decline
hsbToRgb
Accept
Decline
Básicas
Accept
Decline
Analytics
Tools used to analyze the data to measure the effectiveness of a website and to understand how it works.
Google Analytics
Accept
Decline
Analíticas
Accept
Decline
Functional
Tools used to give you more features when navigating on the website, this can include social sharing.
AddThis
Accept
Decline
$family
$hidden
Accept
Decline
overloadSetter
Accept
Decline
overloadGetter
Accept
Decline
extend
Accept
Decline
implement
Accept
Decline
hide
Accept
Decline
protect
Accept
Decline
attempt
Accept
Decline
pass
Accept
Decline
delay
Accept
Decline
periodical
Accept
Decline
$constructor
alias
Accept
Decline
mirror
Accept
Decline
pop
Accept
Decline
push
Accept
Decline
reverse
Accept
Decline
shift
Accept
Decline
sort
Accept
Decline
splice
Accept
Decline
unshift
Accept
Decline
concat
Accept
Decline
join
Accept
Decline
slice
Accept
Decline
indexOf
Accept
Decline
lastIndexOf
Accept
Decline
filter
Accept
Decline
forEach
Accept
Decline
every
Accept
Decline
map
Accept
Decline
some
Accept
Decline
reduce
Accept
Decline
reduceRight
Accept
Decline
forEachMethod
Accept
Decline
each
clone
clean
invoke
associate
link
contains
append
getLast
getRandom
include
combine
erase
empty
flatten
pick
hexToRgb
rgbToHex
min
max
average
sum
unique
shuffle
rgbToHsb
hsbToRgb