Filtragem de conteúdo

A filtragem de conteúdo refere-se a um sistema automático usado para processar grandes volumes de dados e agir sobre qualquer conteúdo que atender a determinados critérios. Frequentemente, os editores de texto usam soluções de filtragem de texto e mídia para gerenciar a maior parte do conteúdo gerado pelo usuário em seus sites. Muitas vezes, esses sistemas são usados para filtrar conteúdos, como conteúdo adulto e compartilhamento ilegal de arquivos, bem como a venda de armas de fogo, drogas, álcool e tabaco.

Importante: o conteúdo que viola nossos regulamentos não precisa ser hospedado localmente. Até mesmo links para origens externas que hospedam tais conteúdos são considerados como violação. Por exemplo, um editor que posta filmes hospedados ilegalmente em um site de terceiros está violando os regulamentos do programa Google AdSense.

Como desenvolver uma solução interna

Muitos editores optam por desenvolver seu próprio sistema de filtragem. Essa decisão pode trazer os seguintes benefícios:

  • A filtragem com base em texto pode ser relativamente fácil de codificar
  • Frequentemente, elas são significativamente mais baratas do que as soluções comerciais
  • O editor conhece melhor seu site e seus usuários e pode antecipar questões de regulamento melhor do que ninguém
Veja a seguir algumas ideias e sugestões que você deverá considerar ao desenvolver uma solução interna com base em texto.

Como criar uma lista de palavras-chave
Para filtrar textos, o sistema precisa contar com uma lista de palavras-chave formadas por palavras individuais e por combinações de palavras. Essa lista pode ser criada de diversas maneiras, dependendo do tipo de conteúdo, do volume de conteúdo no site e dos recursos disponíveis do editor:
  • Compile sua própria lista de palavras e frases que deseja filtrar. Você pode usar sua própria intuição ou obter ajuda:
    • Peça a seus funcionários que contribuam
    • Peça a ajuda de seus usuários
    • Use o Google Ads: Ferramenta de palavras-chave
    • Para ter mais inspiração, acesse alguns websites que hospedam conteúdos indesejáveis (conteúdo adulto e/ou sites de compartilhamento de arquivos, por exemplo), e descubra quais palavras-chave aparecem com frequência nesses sites.
  • Codifique sua própria ferramenta automática de captura de palavras-chave:
    • Use dados de mecanismos de pesquisa para percorrer todas as páginas de um site
    • Recupere uma lista de palavras individuais e combinações de palavras que aparecem nesse site
    • Mantenha as palavras-chave mais usadas e descarte as demais. Não se esqueça de eliminar artigos comuns e palavras como "um", "uma", "e", "o" ou "a".
    • Obtenha os resultados como um arquivo de texto
    • Repita o procedimento acima para qualquer número de sites até que esteja satisfeito com sua lista.
    • Importante: coletar dados de outros sites e usar o conteúdo desses sites como se fosse seu é contra os regulamentos do Google Adsense e as diretrizes do Google para webmasters. Além disso, essa prática pode ser ilegal e/ou antiética.
Como atribuir pesos

As palavras não são todas iguais, e algumas palavras-chave não são tão eficientes quanto outras. Portanto, avalie a possibilidade de atribuir pesos diferentes a termos diferentes.

Por exemplo, os filtros de conteúdo adulto em inglês devem atribuir à palavra "pornográfico" um peso maior do que à palavra "sexo". Embora o termo "pornográfico" esteja relacionado quase que exclusivamente a conteúdos não indicados para menores, "sexo" também pode significar "gênero", dependendo do contexto no qual é usado.

Considere também as palavras que são seguras individualmente mas, quando combinadas com outras, podem assumir significados completamente diferentes. Por exemplo, a palavra "imagens" é inocente, mas "imagens de adolescentes" frequentemente se refere à pornografia.

O processo de filtragem
Há duas abordagens comuns quando se trata de filtragem de conteúdo, e cabe a cada editor decidir o que é mais apropriado para seu site.

Método 1 - o conteúdo gerado pelo usuário é verificado depois de ser exibido em uma página:

  1. Verifique o conteúdo
  2. Sinalize-o se ele atender aos critérios de filtragem
  3. Desative a veiculação de anúncios na página que hospeda tal conteúdo
  4. Analise o conteúdo manualmente:
    1. Se ele for seguro, ative a veiculação de anúncios e ajuste os filtros
    2. Caso contrário, certifique-se de que tal conteúdo não seja exibido em páginas que incluam códigos de anúncio

Método 2 - o conteúdo gerado pelo usuário é verificado antes de ser disponibilizado para os usuários:

  1. Verifique o conteúdo
  2. Sinalize-o se ele atender aos critérios de filtragem
  3. Coloque-o na fila para revisão ou rejeite-o imediatamente
  4. Analise o conteúdo manualmente:
    1. Se ele for seguro, exiba-o em páginas de veiculação de anúncios e ajuste os filtros
    2. Caso contrário, desative a veiculação de anúncios e exiba ou rejeite tal conteúdo

Soluções comerciais em poucas palavras

Há diversos serviços que oferecem filtragem de conteúdo, até mesmo alguns que se especializam na filtragem de tipos específicos, como conteúdo adulto ou protegido por direitos autorais. Há também plataformas de redes abertas de conhecimentos que criam uma ponte entre editores e usuários que estão buscando uma forma de ganhar dinheiro fácil na Internet. A melhor maneira de abordar essa questão é fazer pesquisas de mercado sobre o tópico e optar pela melhor solução para o serviço que você oferece. Procure por sites que analisam softwares e veja quais tipos de sistemas de filtragem de conteúdo gerado pelo usuário eles recomendam. Quando tiver todas essas informações em mãos, decida qual é a melhor solução para você com base na pontuação do produto, nos recursos exclusivos e também no modelo de sistema de preços da solução.

Isso foi útil?
Como podemos melhorá-lo?