Filtrado de contenido

El filtrado de contenido hace referencia a un sistema automático que se aplica para procesar grandes volúmenes de datos y lleva a cabo acciones en el contenido que cumple determinados criterios. Los editores suelen usar las soluciones de filtrado de texto y de medios para gestionar gran parte del contenido generado por el usuario en su sitio. Estos sistemas suelen aplicarse para filtrar contenido, como el que está dirigido a adultos o relacionado con el uso compartido de archivos de manera ilegal, así como aquel que promociona la venta de armas de fuego, drogas, bebidas alcohólicas y tabaco.

Importante: El contenido puede suponer una infracción de las políticas incluso si no está alojado de forma local. Incluir enlaces a las fuentes externas que lo alojan también se considera una infracción. Por ejemplo, si un editor muestra en un marco películas alojadas ilegalmente en un sitio web de terceros, esto implica una infracción de las políticas para editores de Google.

Desarrollar una solución interna

Muchos editores deciden desarrollar su propio sistema de filtrado. Esta decisión puede tener las siguientes ventajas:

  • El filtrado basado en texto puede ser relativamente fácil de codificar.
  • Suele ser más barato que las soluciones comerciales.
  • El editor conoce bien su sitio y sus usuarios, y puede prever mejor que nadie posibles problemas con las políticas.
A continuación le ofrecemos algunas ideas y sugerencias que puede tener en cuenta para desarrollar una solución interna basada en texto.

 

Crear una lista de palabras clave
Para filtrar el texto, el sistema debe basarse en una lista de palabras clave compuesta por términos individuales y combinaciones de palabras. La creación de la lista se puede realizar de varias formas, según el tipo de contenido, su volumen en el sitio y los recursos disponibles del editor:
  • Elabore su propia lista de palabras clave y frases que desee filtrar. Puede usar su intuición o pedir ayuda:
    • Pida a sus empleados que colaboren.
    • Pida ayuda a sus usuarios.
    • Utilice el Planificador de palabras clave de Google Ads.
    • Si necesita más ideas, visite sitios web que alojen contenido no deseable (por ejemplo, sitios para adultos o para compartir archivos) y localice palabras clave que suelan aparecer en ellos.
  • Codifique su propia herramienta de obtención automática de palabras clave:
    • Utilice los datos de motor de búsqueda para recorrer todas las páginas de un sitio.
    • Extraiga una lista de términos y combinaciones de palabras únicos de ese sitio.
    • Anote las palabras clave que más se utilizan y descarte el resto. No se olvide de eliminar los determinantes y palabras comunes, como "un", "y" o "el".
    • Cree un archivo de texto con los términos.
    • Repita el proceso anterior en tantos sitios web como quiera hasta que considere que su lista es lo bastante completa.
    • Importante: Si copia los elementos de otro sitio web y usa su contenido como propio, infringirá las políticas para editores de Google y las Directrices para webmasters de Google. Además, dicho comportamiento también se podría considerar como una cuestión ilegal o poco ética.
Asignar importancia a las palabras clave

No todas las palabras son iguales, y algunas palabras clave son peores que otras. Por lo tanto, debe considerar la posibilidad de asignar ponderaciones distintas a los diferentes términos.

Por ejemplo, los filtros de contenido para adultos en español deben asignar más valor a la palabra "porno" que a "sexo". Mientras el término "porno" está casi exclusivamente relacionado con contenido que no es apto para menores, "sexo" también puede referirse a "género", según en el contexto en que se use.

Asimismo, tenga en cuenta palabras que son aptas por sí mismas, pero en combinación con otras pueden indicar algo totalmente distinto. Por ejemplo, la palabra "imágenes" no es peligrosa, pero "imágenes de adolescentes" suele ser un término relacionado con la pornografía.

El proceso de filtrado
Hay dos estrategias habituales a la hora de filtrar contenido y cada editor debe decidir cuál resulta más adecuada para su sitio web.

Método 1 - El contenido generado por usuarios se analiza después de que se muestre en una página:

  1. Se analiza el contenido.
  2. Se marca si cumple los criterios de filtrado.
  3. Se inhabilita la publicación de anuncios en la página en que se aloja dicho contenido.
  4. Se revisa manualmente el contenido:
    1. Si es apto para menores, se habilita la publicación de anuncios y se ajustan los filtros.
    2. Si no lo es, hay que asegurarse de que el contenido no se muestra en las páginas que incluyen el código de anuncio.

Método 2 - El contenido generado por usuarios se analiza antes de ponerse a disposición de los usuarios:

  1. Se analiza el contenido.
  2. Se marca si cumple los criterios de filtrado.
  3. Se pone en cola para su revisión o se rechaza directamente.
  4. Se revisa manualmente el contenido:
    1. Si es apto para menores, se muestra en las páginas de publicación de anuncios y se ajustan los filtros.
    2. Si no lo es, se inhabilita la publicación de anuncios y se muestra o se rechaza.

Resumen sobre las soluciones comerciales

Hay una serie de servicios que se ocupan del filtrado de contenido; algunos incluso están especializados en filtrar tipos específicos, como el contenido para adultos o protegido por derechos de autor. Incluso hay plataformas de "crowdsourcing" (colaboración con comunidades) que crean un puente entre los editores y los usuarios que buscan obtener ingresos fácilmente en Internet. La mejor forma de enfocarlo es llevar a cabo un estudio de mercado sobre el tema y decidir la mejor solución para el servicio que proporciona. Pruebe a buscar sitios que publican reseñas de software y consulte los tipos de sistemas de filtrado de contenido generado por el usuario que recomiendan. Cuando disponga de toda esta información, escoja la solución más adecuada según la puntuación del producto, sus funciones exclusivas y sus precios.

¿Te ha resultado útil esta información?
¿Cómo podemos mejorar esta página?