“Startup canadense cria software capaz de imitar virtualmente qualquer voz”.
Essa era a notícia que li na televisão do elevador essa manhã, quando chegava no escritório. A primeira coisa que fiz quando sentei foi pesquisar mais sobre essa startup e sua tecnologia inovadora. Os resultados foram realmente surpreendentes.
O nome da empresa é Lyrebird e lhe garanto que uma simples busca com esse nome já é o suficiente para te deixar animado e assustado ao mesmo tempo.
A primeira coisa a se ouvir é esse áudio da “conversa” entre Obama, Trump e Hilary Clinton sobre a startup e sua tecnologia. A primeira coisa que fica claro é que essas vozes ainda não passam no Teste de Turing, ficando óbvio que se trata de computadores. Entretanto, a similaridade com as vozes reais, incluindo sotaque, entonação e timbre de voz é surpreendente.
E o que é surpreendente se torna assustador quando você descobre que essa proximidade é possível com a máquina ouvindo apenas a 1 minuto da voz original. Isso mesmo, UM MINUTO. Se você quiser se divertir mais um pouco com os áudios da Lyrebird, ouça várias “imitações” de Trump e Obama no Soundcloud da empresa.
DeepMind do Google e Project VoCo da Adobe
Mas o mais interessante é que não para por aí. Google e Adobe também estão trabalhando com tecnologias muito parecidas. O DeepMind do Google faz quase tudo: identifica imagens semelhantes, joga (e ganha) o milenar jogo Go com campeões mundiais, aprende maneiras mais simples de navegação e agora reproduz vozes muito semelhantes às dos humanos com a tecnologia WaveNet.
E não estou falando da voz do Google Translate, que é pré-gravada. Estou falando da criação de vozes. Tão fiéis que em 500 testes cegos, numa nota de 1 (não realista) a 5 (muito realista), a WaveNet teve uma nota de 4,21 em inglês e 4,08 em mandarim. Se quiser conferir alguns exemplos, essa matéria possui alguns ótimos.
Já a Adobe está trabalhando no Project VoCo, basicamente um Photoshop de voz. Com o programa – ainda em beta e não aberto ao público – é possível alterar o que foi dito e, com 20 minutos de audição da voz a ser modificada, o VoCo consegue reproduzir com extrema fidelidade as entonações do dono da voz original. É realmente incrível. Veja a demonstração no Adobe MAX 2016 e veja um pouco do potencial dessa tecnologia.
Mas apesar de todo o furor que esse tipo de tecnologia causa em nós, ela levanta um questionamento extremamente importante: é possível que em breve todos os sistemas de segurança por identificação de voz se tornem inúteis.
O universo de fraude entrará em uma nova era. Hoje, duvidamos de textos, imagens e até vídeos. Em pouco tempo, nossa voz será commodity. As últimas barreiras a serem vencidas – e devo admitir que acredito que serão – são as de nossos fingerprints e leitura de retina.
Imitar qualquer voz
Como toda tecnologia, a responsabilidade não está na máquina, mas sim em quem a está operando.
Será possível ligar para um banco e se passar por outra pessoa para mexer na sua conta; ou então, deixaremos as suas reais aplicações para o cinema, música e outras áreas onde isso revolucionará o mercado, e nos contentaremos em pedir uma pizza como se fôssemos o Silvio Santos. [Webinsider]
. . . .
http://br74.teste.website/~webins22/2017/04/15/robo-baxter-passo-adiante-na-interacao-com-os-humanos/
http://br74.teste.website/~webins22/2017/02/10/realidade-virtual-e-aumentada-na-venda-de-automoveis/
Leia também:
- Afinal, o que é realidade?
- Agentes inteligentes encurtam o caminho no ensino
- A solução dos problemas da sociedade é uma questão política
- Mais textos de Edmardo Galli
http://br74.teste.website/~webins22/2016/08/30/precisamos-falar-sobre-robos-na-escola/
http://br74.teste.website/~webins22/2017/01/17/formacao-profissional-em-marketing-digital/
Uma resposta
Muito bom mesmo, pena que tento todos os dias o dia enterro e não consigo baixar se cadastrar oque eu faço