Hoje em dia, internet é sinônimo de Google. Ou vice-versa. A empresa e a rede mundial de computadores já se confundem e, para o mundo digital, navegar sem o sistema de buscas criado por Larry Page e Sergey Brin é equivalente a pensar a sociedade moderna sem eletricidade.

O gigante estica seus tentáculos para todos os lados: além de passar por ele toda navegação por sites na web, tem um e-mail com milhões de usuários, projetos que fotografam cidades inteiras e já anunciou que irá distribuir energia e internet em banda larga nos EUA. Mas, mesmo com tudo isso, a grande mágica ainda é a página branca, com a pequena janela para inserir os termos da busca, o botão que começa a varredura em toda a internet com resultados ótimos.

Se a busca é a chave do sucesso Google, o que ela tem que as outras – de concorrentes bilionários como Yahoo e Microsoft – não têm? A resposta para essa pergunta vale mais do que bilhões, vale toda a web. E quem teve um vislumbre disso foi Steven Levy, convidado pelo Google para ir até a sede da empresa, ver com os próprios olhos como funciona o processo de busca do maior site da web e escrever um artigo para a revista norte-americana Wired (em inglês). Para quem não domina o inglês, seguem trechos traduzidos do texto de Steven Levy que explicam um pouco como funciona a busca. Mas Udi Manber, responsável pelas buscas do Google desde 2006, lembrou ao repórter da Wired que o essencial do truque não foi revelado: “O ingrediente muito, muito, mas muito essencial de tudo isso, nós escondemos”.

“O insight histórico dos fundadores do Google foi classificar páginas com base na quantidade e importância dos links que apontam para ela – ou seja, usar a inteligência coletiva da web para determinar que sites eram os mais importantes.

“A busca na web é um processo de várias partes. Primeiro o Google rastreia toda a web para coletar o conteúdo de todos os sites que são acessíveis. Os dados são jogados em um index (organizado por palavras), uma maneira de encontrar um site baseado em seu conteúdo. Toda vez que um usuário faz uma busca, o index combina as páginas relevantes, apresentando uma lista com até milhões de resultados.

“Vários sinais podem ajudar o Google a oferecer os melhores resultados, sendo que todos os outros sites de busca também os usam, mas nenhum com a esperteza do Google. Alguns parecem óbvios agora, mas no começo não eram, como dar destaque para o título da página ou para as palavras que formam os links que levam para determinado site. Mais tarde, foram observados novos sinais: atualidade (para algumas buscas, páginas criadas mais recentemente têm maior valor que as mais velhas) e localização (o Google sabe as coordenadas geográficas de onde foi feita a busca e da preferência para resultados locais).

“A própria busca é uma fonte: em quais resultados que as pessoas clicam, que palavras elas trocam na busca quando estão insatisfeitas, como suas buscas combinam com suas localizações físicas. E agora também existe a opção da busca personalizada, que é baseada na sua localização e no seu histórico de buscas.

“Aprendemos a importância dos sinônimos. Alguém que procura “fotos de cães” pode estar na verdade buscando por “fotos de filhotinhos”. Assim, podemos trocar cães por filhotinhos. A mesma coisa com “água fervendo” e “água quente”. Nós reaprendemos a semântica dos humanos, o que foi um grande avanço. Mas tivemos problemas com isso. O Google aprendeu que “cães” são “filhotinhos” e “fervendo” é “quente”. Mas também concluiu que um “cachorro-quente” é a mesma coisa que um “cão fervendo”. Esse problema foi resolvido em 2002, com base nas teorias de Ludwig Wittgenstein de como palavras são definidas pelo contexto. Assim, quando o Google rastreia a web por resultados de cachorro-quente, da preferência para páginas em que próximas a essas palavras estão outras como “mostarda”, “pão” e “jogos de baseball”. Isso auxiliou a entender o termo “cachorro-quente” e milhões de outros.

“Todo ano o Google promove uma competição interna para melhorar seu sistema de buscas, intitulada Crazy Search Ideas. Em 2001, um funcionário percebeu que a busca por “audrey fino” apresentava sites italianos sobre Audrey Hepburn. E assim, perceberam que havia um problema com buscas por nomes. Para resolver isso, foi desenvolvida a técnica “bi-gram breakage”, que basicamente junta palavras diferentes em apenas uma unidade, como se fossem uma coisa só. Assim, “new york” são palavras que devem ser procuradas juntas (um bi-gram) e não separadamente.”