Seleccionar página
Leer actualización
  • Google eliminó el video de Sundar hablando sobre sí mismo (que fue el mejor ejemplo de todas las demostraciones), por lo que se reescribieron algunas partes de este artículo que hacían referencia a él mientras estaba incrustado.

Ya es bastante difícil para nosotros hacer un seguimiento de quién está hablando en una fiesta ruidosa o llena de gente, imagine lo difícil que es seguirlo para los sistemas automatizados. El reconocimiento de voz con una calidad razonable es realmente solo algo que se ha dominado en la última década o dos, agregue sonidos contradictorios cuando las personas hablan entre sí, y un problema ya complicado se vuelve mucho más difícil.

Afortunadamente (o desafortunadamente) para nosotros, los investigadores de Google han estado trabajando para aislar fuentes de audio como el habla en videos, y los resultados que mostraron ayer son algo increíbles y a la vez aterradores.

ANDROIDPOLICE VÍDEO DEL DÍA

Separar el audio, como el habla, de las voces o sonidos ambientales es algo en lo que las personas son buenas, pero con lo que los sistemas automatizados tienen dificultades. En las circunstancias adecuadas, podemos sintonizar mentalmente las cosas fácilmente para enfocarnos en un solo altavoz, pero un micrófono que capta el sonido de múltiples fuentes no puede hacer lo mismo. Al menos, no por sí mismo.

Los investigadores de Google han creado un sistema impulsado por aprendizaje automático que puede seleccionar sonidos específicos como el habla en un video. Y no solo me refiero a aislar las palabras habladas de fuentes de audio de fondo como el ruido ambiental (aunque también puede hacer eso), sino a separar por completo el habla de dos personas que hablan simultáneamente. Y según los resultados, puede hacer un mejor trabajo que nosotros.

El método que usaron los investigadores para entrenar la red también es bastante ingenioso. Después de todo, la parte más difícil del aprendizaje automático es descubrir la mejor manera de "enseñarle" para obtener los resultados que desea. En este caso, construyeron "fiestas de cócteles falsas", compuestas de fuentes de audio y video "limpias" empalmadas manualmente, superpuestas con un ruido de fondo igualmente limpio. Luego, esos datos se alimentan a la red, entrenándolos con movimientos faciales del video y espectrogramas de la pista de audio fusionada. Luego, puede determinar qué frecuencias en qué momentos es más probable que correspondan a un altavoz determinado y esos datos luego se extraen en una nueva pista de audio aislada, el resultado final.

Por supuesto, el concepto parece bastante fácil cuando los dos hablantes tienen voces drásticamente diferentes, como los dos ejemplos anteriores. Si está aislando el audio en función de la frecuencia, cuanto mayor sea la diferencia de tono entre las voces de los oradores, mejores serán los resultados. Pero, ¿qué pasa cuando unes dos videos del mismo hablante y tratas de aislarlos?

Desafortunadamente, Google (e inexplicablemente) eliminó el video de Sundar empalmado, que era el mejor ejemplo de un uso de frecuencia similar, por lo que tendrá que confiar en mi evaluación. En el video, se podían escuchar algunas irregularidades ya que los dos Sundar superpuestos usaban frecuencias similares al mismo tiempo, pero los resultados fueron bastante sorprendentes. Francamente, he recibido llamadas telefónicas sin ruido de fondo que sonaban peor.

Las implicaciones de privacidad de algo como esto son honestamente bastante serias. Si se puede mejorar el rendimiento, un sistema como este podría incluso detectar una sola voz entre una multitud en la calle. Incluso en la privacidad aparentemente pública de un grupo ruidoso, un observador externo podría seleccionar individualmente lo que usted diga. En este momento, no parece que esté a la altura de esa tarea, pero dada una gran variedad de micrófonos y cámaras, ¿quién sabe? Puede que no esté muy lejos.

Puede profundizar en los detalles completos en el blog de investigación de Google o leer el artículo completo sobre el tema.

ACTUALIZACIÓN: 2018/04/12 3:23 p. m. PDT POR

Google eliminó el video de Sundar hablando sobre sí mismo (que fue el mejor ejemplo de todas las demostraciones), por lo que se reescribieron algunas partes de este artículo que hacían referencia a él mientras estaba incrustado.

Fuente: Google

Video: