内容过滤是指采用自动系统处理庞大的数据并对满足特定条件的内容采取操作。发布商通常使用文字和媒体过滤解决方案来处理其网站上由用户生成的海量内容。他们使用这些系统的目的,一般是过滤特定的内容(如成人内容和非法共享的内容)以及各种枪支、毒品、酒精饮料和烟草的销售信息。
重要提示:违反合作规范的内容并不一定托管在本地。即使是链接到托管着违规内容的外部来源,也是违规行为。例如,发布商如果通过框架套用的方式提供非法托管在第三方网站上的电影,便会违反 Google 发布商合作规范。
开发内部解决方案
很多发布商选择开发自己的过滤系统。这种方法有以下优点:
- 基于文字的过滤系统的编码相对容易
- 通常比商业解决方案便宜许多
- 发布商最了解自己的网站和用户,因此能比其他人更容易预见到合作规范问题
创建关键字列表
要过滤文字,系统需要依靠由单个字词和字词组合构成的关键字列表。创建关键字列表的方法非常多,具体取决于网站上内容的类型、规模,以及发布商的可用资源:
分配权重
- 自行编制想要过滤的字词和短语的列表。您可以使用自己的直觉,也可以寻找一些帮助:
- 询问员工的意见
- 请用户帮忙
- 使用 Google Ads 关键字工具
- 如需更多灵感,您可以访问托管着不良内容的网站(如成人和/或文件共享网站),然后查看哪些关键字经常出现在这些网站上。
- 自己编写自动关键字抓取工具:
- 使用搜索引擎数据浏览网站上的所有页面
- 检索各种独特的字词和字词组合
- 保留最常用到的关键字,丢弃其他字词。请注意删除冠词和“a”“and”或“the”等字词。
- 输出为文本文件
- 针对任意数量的网站重复上述步骤,直至您对列表感到满意为止。
- 重要提示:抄袭其他网站的内容并将其挪为己用的做法不仅违反 Google 发布商合作规范和适用于 Google 网页搜索的垃圾内容合作规范,而且可能会有悖法律和/或道德规范。
字词效果各不同,一些关键字的效果会差一些。因此,您应该考虑为不同的字词分配不同的权重。
例如,英语中的成人过滤器应将“porno”的权重设为高于“sex”。因为“porno”几乎仅与不健康的内容相关,而根据语境“sex”也可能是“性别”的意思。
还要考虑的一点是,有些字词单独使用并无问题,但如果与其他字词放在一起就可能会有完全不同的意思。例如,“图片”这个词是安全的,但是“成人图片”通常是指色情图片。
处理内容过滤通常有两种方法,每个发布商都可以选择最适合自己网站的方法。
方法 1 - 在用户生成的内容显示到网页上之后对其进行扫描:
- 扫描内容
- 如何内容符合过滤条件,就做相应的标记
- 停止在托管此内容的网页上展示广告
- 人工审核内容:
- 如果内容安全,展示广告并调整过滤器
- 如果内容不安全,则确保不要添加至包含广告代码的网页上
方法 2 - 在用户生成的内容向用户显示之前对其进行扫描:
- 扫描内容
- 如何内容符合过滤条件,就做相应的标记
- 将内容排入审核队列,或立即拒绝
- 人工审核内容:
- 如果内容安全,允许其在广告展示页面上显示并调整过滤器
- 如果内容不安全,则停止展示广告,然后显示或拒绝相关内容
商业解决方案概略说明
有许多公司提供内容过滤服务,有一些甚至是专门过滤特定类型的内容(如成人内容或受版权保护的内容)。同时也有许多众包平台专门为发布商及想要通过互联网挣点小钱的用户牵线搭桥。要选择这些方案,您最好先就相应的主题做一番市场调查,然后根据您所提供的服务选择最适合的解决方案。您可以访问提供软件评测的网站,了解一下他们所推荐的用户生成内容过滤系统。在收集到足够多的信息之后,您应根据产品的得分、其独有的功能以及计价模式选择最适合的解决方案。