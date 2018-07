O mecanismo do ReCAPTCHA é igual ao das letrinhas distorcidas. A diferença é que em vez de usar combinações aleatórias, ele usa palavras retiradas de livros.

Acontece que o OCR nem sempre funciona. Em livros antigos, esmaecidos ou distorcidos raramente dá certo.

E, nesses casos, o único jeito de digitalizar os textos é digitando cada palavra.

É aí que entra o ReCAPTCHA. Os fragmentos que não são reconhecidos são divididos em palavras que são usados nesses testes em sites por toda a internet. Daí, internautas do mundo inteiro digitam a palavra. E o ReCAPTCHA reorganiza o texto do livro a partir dessas respostas. A ferramenta vinha sendo usada em edições antigas do jornal norte-americano The New York Times.

“Google é perfeito para o ReCAPTCHA”, diz Luis von Ahn, professor de ciência da computação da Carnegie Mellon, que desenvolveu a ferramenta e criou a ReCAPTCHA Inc. em 2008. “Desde o começo, as pessoas achavam que o projeto estava ligado ao Google, então faz sentido que a ReCAPTCHA Inc. encontre um lar dentro do Google.” O valor da compra e os termos da negociação não foram divulgados.

Atualização, em 17/9, às 20h - Se você leu esse post e se perguntou como esse sistema reconhece que a palavra digitada está certa se ele nem sabe qual é a palavra em questão, aí vai a explicação. As palavras que o OCR não reconhece são apresentadas sempre ao lado de outra palavra já conhecida, identificada. O usuário do site deve digitar as duas para seguir adiante. Se digitar corretamente a palavra já conhecida, o sistema parte do pressuposto que digitou de forma correta a nova palavra, aquela que não foi identificada pelo OCR. Daí, ele apresenta essa mesma palavra em imagens para outras pessoas, só para checar.