Fatores de ranqueamento: TF-IDF - DEPOISDAS22

Fatores de ranqueamento: TF-IDF

Fatores de ranqueamento: TF-IDF

Este código está mais para prefixo de aeronave, do que para um dos fatores de ranqueamento do Google. Se fosse uma aeronave, pelas buscas que efetuei seria uma irregular, pois não encontrei nenhuma com este prefixo.

O TF-IDF tem um significado um pouco confuso, porém a sigla vem de Term Frequency – Inverse Document Frequency, onde o termo inicial pode ser traduzido como Frenquencia do Termo e o final como Frenquancia Inversa de Documentos.

Para entender melhor a sigla, é melhor usar a tradução dela como um todo e temos uma tradução completa como termo  em frequência de documento inverso à frequência.

Mesmo assim ainda não está claro o que esta tradução e qual seu real significado e objetivo para o seu uso e compreendimento entre os demais fatores de ranqueamento.

 O TF é mais simples de ser compreendido e analisado, pois para que fique melhor o entendimento desta parte é preciso responder apenas uma simples e breve pergunta. Qual a frequencia que o termo em análise aparece no documento analisado? 

Logo sabemos que quanto mais este termo aparece no documento analisado, mais será a relavancia que o termo vai transmitir ao documento. E por isso é preciso saber identificar corretamente e saber gerenciar da melhor forma possível para que o texto possua uma boa leitura sem que o termo repita demais.

Contudo a segunda parte da sigla, tem ao mesmo tempo um significado semelhante porém oposto quando comparado a primeira parte.

A semelhança está na parte em verificar quantas vezes o termo aparece, só que desta vez está ligado em um contexro maior como os documentos que compoe uma coleção de documentos, em um caso mais real podemos comparar quantas vezes o termo aparece em um Blog.

Já a diferença do segundo termo em relação ao primeiro é que quando mais o termo em questão aparecer nos documentos da coleção, ele perde a relevancia por ser um termo pouco exclusivo naquela coleção.

Esta pequena sigla, tem um significado bem complexo e muitas vezes bem difícil de entender e de explicar. Para isso podemos dizer que quando o termo mais aparecer em um documento(artigo), maior será sua importância, porém vai perder a relevancia quanco o termo se repetir muito no blog que hospeda este artigo.

No site tfidf.com mostra como pode ser feito o calculo de frequencia de termos, que segue:

Assim, o termo frequência é geralmente dividido pelo comprimento do documento (também conhecido como número total de termos no documento) como forma de normalização.

TF (t) = (número de vezes que o termo t aparece em um documento) / (número total termos no documento).
IDF (t) = log_e (Número total de documentos / Número de documentos com o termo t).

E para um melhor entendimento do calculo e como funciona este fator de ranqueamento, segue o exemplo que o site fornece:

Considere um documento contendo 100 palavras em que a palavra  gato  aparece 3 vezes. O termo frequência (ie, tf) para  gato  é então (3/100) = 0,03. Agora, suponha que temos 10 milhões de documentos e a palavra  gato  aparece em mil deles.

Então, a frequência inversa do documento (ie, idf) é calculada como log (10.000.000 / 1.000) = 4. Portanto, o peso de Tf-idf é o produto dessas quantidades: 0,03 * 4 = 0,12.

E como o Google usa estes dados? O Google usa em seus sistemas  e aplicações esses cálculos que automaticamente analisan inúmeros documentos para saber e dar sentido ao contexto do documento abordado.

A identificação do contexto de um conteúdo pelo Google faz parte do que eles denominam como LSI ou Latent Semantic Indexing, em portugues, indexação semântica latente.

E com isso é possível que maquinas possam entender as relações entre os conteúdos e assim prduzir e semantica dos artigos de um blog.

 

Olá, deixe seu comentário para Fatores de ranqueamento: TF-IDF


Enviando Comentário Fechar :/