Foto do(a) blog

Deu no New York Times

Software de reconhecimento de voz para o Mac

Foi uma jornada longa e insana para Andrew Taylor. Ele era um jovem programador que sonhava criar um programa de reconhecimento de voz para o Mac. Naquela época, havia vários programas disponíveis para o Windows, mas nenhum para o Mac. Nos 10 anos seguintes, muitas coisas aconteceram no universo do reconhecimento da voz. Um por um, os concorrentes do best-seller Dragon NaturallySpeaking (da IBM e Philips) desapareceram ou foram adquiridos pela própria Dragon (mais tarde Nuance). Taylor continuou lutando, produziu várias versões medíocres do seu programa, constantemente frustrado pelo fato de ser uma pessoa de fora, que olhava para a Nuance de fora em vez de trabalhar nela.

PUBLICIDADE

Por David Pogue
Atualização:

Mas em fevereiro, tudo isto mudou. Aparentemente, o renascimento da Apple e do Mac foi suficientemente dramático a ponto de despertar o interesse da Nuance - e ela comprou a pequena empresa de Andrew Taylor. E prometeu levar para o Mac sua mais recente tecnologia de reconhecimento, que roda o NaturallySpeaking 11 para o Windows - e deixar que a equipe de Taylor explorasse toda a extraordinária capacidade do software de reconhecimento de voz da companhia, seu poder de comercialização e outros recursos.

 Foto: Estadão

PUBLICIDADE

O resultado, hoje chamado Dragon Dictate for the Mac, foi lançado no mercado na semana passada, o que muitos fãs do Mac esperavam há mais de uma década. Não vou dizer que "valeu a pena esperar" - todos ficariam bem mais contentes se um aplicativo de reconhecimento de voz do Mac estivesse disponível durante todo este tempo - mas atende a quase todas as expectativas. Depois de 25 anos, este software profissional, totalmente desenvolvido, finalmente chegou para o Mac.

O Dictate (US$ 200 com fone de ouvidos; US$ 50 a atualização) roda no fundo e traduz tudo o que você diz num texto escrito para qualquer programa do Mac. (Não é preciso dizer que ditei toda esta coluna, no Microsof Word.) Você pode usar um fone de ouvido U.S.B. com fio, um fone sem fio para Bluetooth ou, se necessário, o microfone embutido do seu laptop.

Como ele utiliza a mesma tecnologia de reconhecimento do NaturallySpeaking 11, a precisão é surpreendente, pelo menos se você fala claramente e não tem um sotaque muito forte. Pode falar rapidamente - o software não se importa. Em toda esta coluna, o software transcreveu erradamente apenas uma palavra ("or I speak" em vez de "where I speak"). Foi fácil corrigir o erro dizendo, "Corrija 'or I speak' "; então apareceu uma lista de alternativas. Eu disse apenas "Escolha a 2", o erro foi corrigido e foi possível continuar. Com o tempo, cada correção como esta treina o software a nunca mais cometer aquele tipo de erro. Ele se aprimora continuamente.

Você pode controlar também menus e programas. Por exemplo, pode dizer "abra o Microsoft Word". Infelizmente, precisará programar manualmente outros comandos do menu, como Ferramentas -> Contagem de Palavras etc. Não é como a versão do Windows, onde você pode falar todo comando do menu.

Publicidade

Por outro lado, este modo de programação que você mesmo criou tem poderes incríveis. Meu favorito é o macro de texto, onde eu falo uma coisa ("caia fora") e o software digita algo totalmente diferente ("Obrigado por escrever sobre minha coluna. Sinto muito que você não tenha gostado. Tentarei melhorar da próxima vez. Seu amigo, Dave").

Pode falar também comandos que permitem acessar links em Safari, ativar macros AppleScript e Automator, e assim por diante. Você pode usar comandos inteligentes como "procure no Google 'cortinas elétricas'", "ponha parênteses antes e depois de 'como você sabe' ", "selecione 'o dia em que viajei de avião' "; ponha maiúscula nisso", etc. Pode até controlar o cursor falando as coordenadas num tabuleiro cada vez menor sobreposto à tela.

Estou fascinado com o poder, controle, velocidade e precisão do Dragon Dictate. Entretanto, ainda poderá melhorar. Por exemplo, no mundo do software de reconhecimento de voz, ensinar o software a saber sua localização no seu documento de texto constitui um enorme desafio. Se você nunca toca no mouse, o programa sempre sabe onde está no texto - porque ele próprio inseriu todo aquele texto. Mas se você clica no texto para editar em algum ponto, o programa fica cego. Não sabe mais em que altura do documento está.

No Windows, a Nuance usou alguns truques inteligentes para superar este problema nos programas mais importantes, como Word e Outlook. No entanto, no Mac, o programa não tem ideia do que você fez manualmente, clicando. Portanto você pode dizer por exemplo "selecione peixeiro", e o programa selecionará corretamente a palavra. Mas se você fala "ponha em itálico" ou "com letra maiúscula", o programa opera as palavras erradas, colocando itálicos ou maiúsculas um palmo adiante em relação ao lugar selecionado. Muito estranho. (Este problema não acontece com o processador de texto incluído no TextEdit ou no Dictate.)

Encontrei alguns outros erros estranhos como este - coisas que a Nuance afirma nunca ter encontrado antes e que podem ser exclusivos do meu sistema. Com um pouco de sorte, estes problemas serão resolvidos rapidamente agora que a pequena equipe de Taylor tem uma companhia forte atrás de si. Foi um longo caminho para ele, e para os fãs do Mac que ansiavam pela velocidade e a precisão do software de reconhecimento do Windows.

Publicidade

Eu, por exemplo, poderei responder a mais e-mails em muito menos tempo - com um copo de limonada gelada numa das mãos e um ioiô na outra.

Comentários

Os comentários são exclusivos para assinantes do Estadão.