Os avanços no áudio de alta resolução… sem consenso

Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on telegram
Share on pocket

É simplesmente impressionante: eu ouço hoje em dia programas contendo áudio de alta resolução, e fico de queixo caído com a qualidade e a nitidez alcançada. Estes programas estão por aí disseminados na forma de downloads, DVDs e Blu-Rays. No entanto, a discussão sobre a superioridade e o desprezo de formatos continua.

Fato este que me leva à brilhante conclusão: no mundo do áudio, a despeito de qualquer mudança ou avanço, nunca se chega a algum consenso, e as disputas de opinião, a maioria totalmente subjetivas, não esclarecem nenhum aspecto técnico relevante, que pudesse indicar a alegada superioridade de um padrão sobre os outros.

Uma grande parte da culpa desta situação, acredito eu, é a própria tecnologia, que confunde todo mundo, até mesmo os mais experimentados. Nas discussões fala-se muito em precisão, quando se deveria estar falando em exatidão, que é a representação de valores verdadeiros!

Porque, se existe alguma coisa que pode até ser precisa, mas raramente é exata, é a captura do sinal analógico de áudio pelos microfones. Na prática, isto significa que o que a maioria das pessoas considera como “uma boa gravação” é a captura do som ambiente com a menor quantidade de erros possível. E não seria por outro motivo que os pesquisadores de áudio do passado distante se detiveram em arrays de microfones do tipo minimalista, isto é, um ou dois microfones no máximo, como Blumlein o fez e propôs para a gravação estereofônica.

Em tese, pelo menos, quando uma gravação não é boa, não será a mídia (discos, arquivos) que irá fazer qualquer diferença durante a reprodução.

Então, afinal, o que se espera de uma boa mídia de transporte? Que ela não limite a reprodução do que vem da fonte. E neste particular, as limitações mais drásticas são as da mídia analógica, por conta das inúmeras etapas de transdução de energia.

Em mídia digital, duas situações precisam (e devem) ser contempladas: a da gravação propriamente dita e a da sua reprodução, e nenhuma das duas são excludentes, ou pior: não têm necessariamente correlação entre si. Por exemplo: a gravação é feita em PCM, mas é depois transferida para DSD. Se os dois meios estão em disputa, qual deles seria responsável por um mau resultado na reprodução?

 Frequência de amostragem e resolução em bits

Toda a fonte das principais disputas e discussões sobre métodos de gravação digital vem dos algoritmos usados nos diversos processos.

Teóricos do áudio digital ainda hoje reclamam do exagero no aumento da amostragem do áudio digital, e isto é na maioria das vezes feito com o auxílio ao teorema da amostragem, proposto por Nyquist-Shannon. Por este princípio, a gravação de áudio em 44.1 kHz (usada no CD-A) é matematicamente capaz de representar digitalmente o espectro musical dentro da faixa até 22 kHz. Se isto é verdade, então qualquer método que usasse frequências como 48 kHz e acima não só não estariam ajudando a amostragem da onda senoidal musical com informações úteis, como consumiriam um espaço de memória desnecessário. E isto seria o mesmo que dizer que o consumidor final estaria sendo enganado ou iludido com números fantasiosos, não é não?

Na questão dos bits, o mesmo assunto não é tão radicalmente contestado. Porque, em se tratando de gravação o número de bits aumenta as chances de se melhorar a relação sinal/ruído, o que é sempre interessante. Para a reprodução diz-se que o número de bits não é relevante, mas tal afirmação invalidaria a busca por processadores mais modernos neste particular, o que eu pessoalmente acho uma imprudência.

Antes de prosseguir, vamos raciocinar:

A gravação no formato PCM (na verdade LPCM ou Linear Pulse Code Modulation) é feita através da amostragem da onda musical senoidal. Esta onda, na sua forma analógica, é sempre contínua. A amostragem da mesma, feita ponto a ponto, reduz os valores de amplitude contínuos para valores discretos, ou seja, um valor para cada ponto amostrado. A amostragem é definida pelo número de vezes por segundo (portanto frequência) com que o sinal analógico é medido. Assim, 44.1 kHz significam medir a onda musical quarenta e quatro mil e cem vezes em cada segundo.

A informação digital é representada (e depois armazenada) na forma de uma sequência de bits 0s e 1s. Em uma sequência (string ou palavra digital) de 16 bits o número de combinações possíveis é calculado a partir da fórmula 2 elevado a 16, um total de 65 536 valores. Da mesma forma, usando-se, por exemplo, 24 bits, o total será de 2 elevado a 24 = 16 777 216 valores possíveis de representação do sinal digital. O número de bits (16 ou 24) usado para representar um dado valor de amostragem é chamado de “bit depth”.

Em teoria, um maior número de bits aumenta a acuidade (portanto, um número mais exato) da representação do valor amostrado, tirado de um ponto da onda musical. Por isto, o bit depth é sinônimo de resolução de amostragem. E é por causa disto, em última análise, que o uso de 24 bits no processo de captura (gravação) será sempre mais relevante na representação da onda musical. Resta saber até que ponto a qualidade desta gravação será de fato afetada.

Antes de prosseguir, e já que a gente está falando de amostragem, um alerta para o leitor: em cálculos de estatística os valores de representação da amostra dispensam dígitos além de um certo número de posições após a virgula, tudo dependendo do tipo de grandeza amostrada. É teoricamente possível que o aumento do bit depth durante a gravação não tenha no final nenhum impacto na reprodução da música gravada. É, por outro lado, compreensível que, diante da dúvida, engenheiros de gravação prefiram optar por um bit depth maior, na verdade abraçando a filosofia do “quanto mais (bits) melhor”.

Segundo exegetas, se 24 bits não fizerem diferença em relação a 16 bits no processo de captura convencional, seria de qualquer forma possível que diante de um material de gravação demandante esta diferença desse o aumento do limite máximo permitido (“headroom”) que permitiria a captura sem qualquer tipo de distorção.

Quanto ao exagero alegado para os valores de amostragem, sinceramente não sei se este raciocínio é correto e mesmo que fosse não sei se ele se aplica a todas as circunstâncias.

Quando o CD foi lançado, a decisão de adotar uma frequência de amostragem de 44.1 kHz não aconteceu por acaso. É verdade que existiam, à época, limitações de hardware, mas o motivo principal nunca foi este. Basta calcular o número de bits necessário à gravação e reprodução de um CD que se constatará que este número é o que torna viável a codificação de mais de 74 minutos de música em um disco de apenas 12 cm de diâmetro. Considerando-se que a grande maioria dos ouvintes dificilmente ouvirá a diferença para um valor de amostragem maior, e que os cálculos com o teorema de Nyquist-Shannon garantem alta fidelidade na faixa espectral até 22 kHz, a economia de espaço de memória faz bastante sentido.

Isto não quer dizer que não ocorram melhoramentos significativos na reprodução de médios e médio-agudos, quando da adoção de frequências de amostragem maiores.

Qualquer melhoramento é, em tese, possível, por um motivo que nada tem diretamente a haver com o áudio: se eu tomo amostras de uma população para constatar uma determinada diferença, quanto maior o número o número de pontos amostrados maior será a representatividade da população amostrada. Seguindo uma onda musical, na forma de uma senóide que sobe e desce rapidamente (a música gravada é composta basicamente de sons transientes) quanto mais pontos forem obtidos de uma dada onda mais fácil será reconstruí-la durante a conversão digital para analógico.

E na verdade, durante esta conversão da informação digital para o ambiente analógico algoritmos de interpolação de dados são usados rotineiramente. A interpolação tem o objetivo de acrescentar dados entre dois pontos, neste caso necessários para a reconstrução mais exata da onda musical.

A interpolação de dados per se também é uma estimativa baseada na amostragem e na “avaliação” (extrapolação) dos valores que são admissíveis de serem encaixados em uma dada sequência de amostras.

O aumento da frequência de amostragem terá o efeito óbvio de diminuir a necessidade de interpolar medidas (e, portanto, precisando de um número menor de extrapolações) para se atingir a reconstrução correta da onda analógica.

E como o programa musical é resultado de uma multiplicidade de ondas transientes complexas, pode-se ter aí uma explicação razoável do porque da melhoria da conversão digital analógica pelo aumento da amostragem na gravação, aplicados para determinados tipos de fonte sonora.

 A guerra contra o DSD

Começou quando o SACD foi lançado, competindo com o DVD-Audio como formato de alta resolução, e continua crassando na forma de crítica contra o DSD como codec digital.

A maior crítica se refere ao fato de que a amostragem é feita por apenas 1 bit. E com 1 bit não é matematicamente possível se fazer um processo corretivo chamado de “dithering”, descrito a seguir:

Na transformação dos valores de medida contínuos da onda musical para valores discretos, tirados por amostragem da onda conforme explicado acima, cada valor é, por definição, resultado da “quantização” (ou medida da amplitude de um ponto em bits), de acordo com o bit depth (16, 20, 24, 32). Mas esta quantização, quando encontra valores fracionários de amplitude, irá introduzir um arredondamento de valores, modificando o valor real da amostra. A isto é chamado de erro de quantização ou distorção por quantização.

O número total de bits usado em uma conversão da onda analógica (16 a 24 bits, por exemplo) não é usado o tempo todo. Quanto menor for o valor de amplitude amostrado menor será o número de bits usado. Isto torna o erro de quantização intolerável e a distorção na forma de ruído perceptível pelo ouvido humano. N.B.: como “ruído” entende-se qualquer impulso de sinal que não faça parte do sinal original.

Uma das soluções para resolver este tipo de distorção é acrescentar ruído de forma aleatória: dither. Dithering é o processo de acréscimo de ruído branco ao sinal digital, usando para tal o bit menos significativo (LSB) de cada string. O processo é engenhoso, e é baseado no fato de que cada bit de um dado valor de amplitude (quantizado) corresponde a 6 dB de redução do erro de quantização. Ao acrescentar bits de ruído por dither o efeito dos erros de quantização, que produziriam ruído audível, são substituídos por ruído randômico, ao qual o ouvido humano é menos sensível.

A amostragem por apenas 1 bit, usada no DSD, é reputada como a grande culpada pela introdução de ruído espectral no sinal digital. Acontece, porém, que no seu processamento, o ruído contido no sinal DSD é empurrado para cima, num processo chamado de “noise shaping”. Após o que, a simples aplicação de um filtro passa baixa exclui a área de ruído da cadeia de reprodução. Mesmo assim, críticos do noise shaping alegam que o processo esconde o ruído empurrando-o para “debaixo do tapete”. Críticos mais severos argumentam uma possibilidade de interação por intermodulação com efeito deletério dentro da faixa audível. O “tapete” no DSD a que se referem os críticos vai de 20 kHz até próximo de 1.4 MHz.

Abrindo um parêntese: o interessante aqui é que o processamento do noise shaping pode ser usado junto com o dither. Na masterização do CD (bit depth: 16 bits) ambos são usados e com resultados que aumentam a relação sinal/ruído, de modo a se conseguir a gravação de tons 140 dB abaixo do nível de referência, segundo alguns teóricos. Um exemplo conhecido deste tipo de masterização é o Super Bit Mapping da Sony. Este último é igualmente usado no DSD, apenas com algumas alterações pertinentes no algoritmo, com o nome de SBM Direct. No caso do CD especificamente, o dithering reduz 24 bits para os 16 bits do formato, retendo a resolução por completo.

Em teoria, pelo menos, aumentando-se a frequência de amostragem e o bit depth diminui-se consideravelmente a quantidade de erros por quantização. O benefício desta diminuição é o do aumento da qualidade de reprodução de sinais de baixa amplitude. Por causa disso, exegetas que preferem o sinal PCM condenam o DSD.

 A crítica dos críticos

No início da década de 1990, a Philips lançou o CD 950, que incorporava o recém-construído DAC-7 (TDA 1547). O design deste conversor já usava métodos sofisticados de noise shaping em um processador rodando em oversampling a 1 bit. O processo foi batizado de Bitstream ou 1-bit DAC (DAC = Digital to Analogue Converter). Vários leitores de mesa high end foram construídos e vendidos a preços estratosféricos com este conversor.

Eu usei o CD-950 por muito tempo, até que, por falta de peças e problemas diversos, ele foi aposentado. Naquela época, surpreso com os resultados superiores do aparelho, na reprodução de discos que eu conhecia bem, eu escrevi uma carta ao engenheiro Jack Renner, CEO da Telarc, comentando que havia observado que a mudança de DACs melhorava o resultado na reprodução de discos bastante antigos. E ele, que foi um dos principais pioneiros da gravação digital, me respondeu dizendo que na Telarc haviam verificado o mesmo. Estes achados sugerem que o acerto de métodos de decodificação e filtragem em cima de material previamente gravado evidencia que a parte mais frágil na cadeia de reprodução do áudio digital se encontrava no final da mesma.

Tornou-se óbvio, ao longo deste tempo, que problemas considerados “críticos” na reprodução do áudio digital foram diminuídos ou virtualmente eliminados com a evolução natural dos conversores, inclusive no lado da gravação. Esta evolução inclui chips e algoritmos mais elaborados no processamento do áudio digital. Até hoje se observa a influência dos decodificadores na qualidade da reprodução, e se estes conversores têm influência na performance em um dado momento, de que forma alguém poderá incriminar diferenças entre formatos de forma taxativa, e decretar a superioridade de um sobre outro?

O repreensível noise shaping aplicado ao DSD empurra o ruído para uma faixa espectral impossível de ser alcançada pelo ouvido humano e se de fato existem as tais alegadas interações com a faixa audível, nada de concreto foi apresentado para provar que elas existem.

Em grande parte, é possível observar que as divergências entre engenheiros, que apresentam seus achados dentro e fora do meio acadêmico, têm um pouco de ego envolvido e eu acho que, por uma questão de bom senso, não seria saudável entrar nesta pilha. Mas cada um sabe de si, e os fóruns estão por aí mostrando o oposto. Salvo melhor juízo, eu entendo que se nós formos dar ouvidos (literalmente e sem trocadilho) a este povo vamos acabar não comprando discos ou downloads nem ouvindo nada!

Se dermos ouvido à reprodução e não aos trabalhos publicados será possível determinar que tipo de áudio nos agrada e quais deles nós teremos interesse em guardar ou colecionar. Com a pluralidade de algoritmos usada na plenitude dos atuais decodificadores a liberdade de escolha é muito grande.

A realidade que ainda nos assombra (a mim pelo menos) é a da obsolescência da tecnologia ou do mau uso dos avanços tecnológicos. E dentro deste mau uso eu destaco a ganância daqueles que lucram ou tiram proveito da ausência de produtos de qualidade para o audiófilo, ao cobrar preços extorsivos no mercado.

Nem os tempos pós-Napster ensinaram qualquer coisa de útil a estas empresas, a despeito da quebradeira e do fechamento lamentável de muitos estúdios. E se algum de nós, que ainda é viciado em música junto com o bom áudio, quer sobreviver, vai ter que aturar a escassez de oferta e o alto preço da mídia, ainda por um bom tempo. [Webinsider]

…………………………

Conheça Home Theater Básico, o livro de Paulo Roberto Elias. Disponível para Kindle na Amazon.

…………………………

Leia também:

…………………………

Conheça os cursos patrocinadores do Webinsider

Paulo Roberto Elias é professor e pesquisador em ciências da saúde, Mestre em Ciência (M.Sc.) pelo Departamento de Bioquímica, do Instituto de Química da UFRJ, e Ph.D. em Bioquímica, pela Cardiff University, no Reino Unido.

Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on telegram
Share on pocket

Mais lidas

6 respostas

  1. Olá, Thadeu,

    Obrigado pela sua opinião. Como você mesmo atesta, neste mundo do áudio não há consenso.

    E eu te afirmo sem hesitar que o CD é perfeitamente capaz de reproduzir de 0 até 22.5 kHz com absoluta fidelidade.

    No início, alguns discos aparentavam não soar bem, mas isto era devido a limitações dos decodificadores. Tudo mudou quando a Philips introduziu o DAC-7 (que eu usei anos) e depois com as modificações de filtragem. Se alguma vantagem se pode ter com amostragens superiores é a da filtragem mais suave na saída dos DACs. Entretanto, em modelos mais recentes, este processo se tornou irrelevante, e nem é preciso rodar XRCD ou HDCD para notar isso.

  2. Excelente o texto, não necessariamente concorde totalmente. Não vejo problemas na tecnologia, e sim nos interesses mercadológicos. O CD não oferecia HIFI, jamais caberia 1 hora de música HI FI do vinil em 700 MB, se fosse obedecido o teorema de Nyquist (amostragem mais que o dobro da maior frequência). Na página da Sony PT, onde anuncia seu último lançamento, o Áudio High Resolution que roda DSD, WAV, FLAC, etc., fica explícito com palavras e gráficos. Eles apontam para o mesmo que sucede no vídeo hoje em dia: o futuro será streaming! Armazenamentos em hard disk ou pendrive, se fizer questão disto. Da minha parte manterei o vinil em paralelo dado o charme e saudosismo analógico.

  3. Olá Douglas,

    Obrigado pela leitura e comentário. Eu desisti de livro impresso há muito tempo, por vários motivos. E por isso o meu livro só está disponível em forma eletrônica, neste caso para Kindle ou similar, na Amazon.

  4. “Salvo melhor juízo, eu entendo que se nós formos dar ouvidos (literalmente e sem trocadilho) a este povo vamos acabar não comprando discos ou downloads nem ouvindo nada!”

    Tenho a mesma percepção sobre isso! Na verdade ultimamente, tenho acompanhado fóruns sobre equipamentos de home theater, pois pretendo montar um que caiba no meu orçamento, e são tantas as discussões sobre o “qual é o equipamento é melhor” que parece que você não deve comprar nenhum, por que todos têm algum defeito que torna o aparelho “um lixo” em relação a outro. Acompanho sua coluna há pouco tempo e estava lendo os post mais antigos, gostaria de saber se seu livro sobre Home Theater saiu de maneira física ou se é exclusivo da amazon? Seus textos são ótimos!

  5. Lembro que, criança, cerca de 5 anos, certa vez, furtivamente girei a manivela de um telefone na casa do avô. Quase morri de susto quando a telefonista falou comigo através do fone e deixei-o pendurado, correndo de medo. De lá para cá temos smartfones. Ainda no passado, a vitrola a válvulas era um must. Ora, ao adquirir o primeiro CD quase não acreditei no que ouvia, tal o realismo. Acho que as pessoas hoje não têm parâmetro e procuram pelo em ovo. O que temos de áudio digital em qualquer formato é soberbo perto do que (não) tínhamos no passado.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *