Software já é capaz de imitar qualquer voz“Startup canadense cria software capaz de imitar virtualmente qualquer voz”.

Essa era a notícia que li na televisão do elevador essa manhã, quando chegava no escritório. A primeira coisa que fiz quando sentei foi pesquisar mais sobre essa startup e sua tecnologia inovadora. Os resultados foram realmente surpreendentes.

O nome da empresa é Lyrebird e lhe garanto que uma simples busca com esse nome já é o suficiente para te deixar animado e assustado ao mesmo tempo.

A primeira coisa a se ouvir é esse áudio da “conversa” entre Obama, Trump e Hilary Clinton sobre a startup e sua tecnologia. A primeira coisa que fica claro é que essas vozes ainda não passam no Teste de Turing, ficando óbvio que se trata de computadores. Entretanto, a similaridade com as vozes reais, incluindo sotaque, entonação e timbre de voz é surpreendente.

E o que é surpreendente se torna assustador quando você descobre que essa proximidade é possível com a máquina ouvindo apenas a 1 minuto da voz original. Isso mesmo, UM MINUTO. Se você quiser se divertir mais um pouco com os áudios da Lyrebird, ouça várias “imitações” de Trump e Obama no Soundcloud da empresa.

DeepMind do Google e Project VoCo da Adobe

Mas o mais interessante é que não para por aí. Google e Adobe também estão trabalhando com tecnologias muito parecidas. O DeepMind do Google faz quase tudo: identifica imagens semelhantes, joga (e ganha) o milenar jogo Go com campeões mundiais, aprende maneiras mais simples de navegação e agora reproduz vozes muito semelhantes às dos humanos com a tecnologia WaveNet.

E não estou falando da voz do Google Translate, que é pré-gravada. Estou falando da criação de vozes. Tão fiéis que em 500 testes cegos, numa nota de 1 (não realista) a 5 (muito realista), a WaveNet teve uma nota de 4,21 em inglês e 4,08 em mandarim. Se quiser conferir alguns exemplos, essa matéria possui alguns ótimos.

Já a Adobe está trabalhando no Project VoCo, basicamente um Photoshop de voz. Com o programa – ainda em beta e não aberto ao público – é possível alterar o que foi dito e, com 20 minutos de audição da voz a ser modificada, o VoCo consegue reproduzir com extrema fidelidade as entonações do dono da voz original. É realmente incrível. Veja a demonstração no Adobe MAX 2016 e veja um pouco do potencial dessa tecnologia.

Mas apesar de todo o furor que esse tipo de tecnologia causa em nós, ela levanta um questionamento extremamente importante: é possível que em breve todos os sistemas de segurança por identificação de voz se tornem inúteis.

O universo de fraude entrará em uma nova era. Hoje, duvidamos de textos, imagens e até vídeos. Em pouco tempo, nossa voz será commodity. As últimas barreiras a serem vencidas – e devo admitir que acredito que serão – são as de nossos fingerprints e leitura de retina.

Imitar qualquer voz

Como toda tecnologia, a responsabilidade não está na máquina, mas sim em quem a está operando.

Será possível ligar para um banco e se passar por outra pessoa para mexer na sua conta; ou então, deixaremos as suas reais aplicações para o cinema, música e outras áreas onde isso revolucionará o mercado, e nos contentaremos em pedir uma pizza como se fôssemos o Silvio Santos. [Webinsider]

. . . .

https://webinsider.com.br/2017/04/15/robo-baxter-passo-adiante-na-interacao-com-os-humanos/

https://webinsider.com.br/2017/02/10/realidade-virtual-e-aumentada-na-venda-de-automoveis/

Leia também:

http://webinsider.com.br/2016/08/30/precisamos-falar-sobre-robos-na-escola/

http://webinsider.com.br/2017/01/17/formacao-profissional-em-marketing-digital/

Respostas

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

+