コンテンツ フィルタリング

コンテンツ フィルタリングとは、大量のデータを処理し、特定の条件に一致するコンテンツを操作するための自動システムです。サイト運営者様は通常、テキストやメディアのフィルタリング ソリューションを利用してユーザーが作成した大量のコンテンツを管理します。このシステムは、アダルト関連のコンテンツや違法なファイル共有コンテンツのほか、銃火器、薬物、アルコール、タバコの販売などに関するコンテンツを除外するためによく利用されます。

重要: 違反コンテンツはローカルでホストされているとは限りません。違反コンテンツをホストしている外部ソースへのリンクも違反とみなされます。たとえば、第三者のサイトで違法にホストされている映画をフレーム処理すると、Google サイト運営者 / パブリッシャー向けポリシー違反となります。

自社ソリューションの開発

多くのサイト運営者様は、独自のフィルタリング システムを開発しています。そうしたシステムの開発には、次のようなメリットがあります。

  • テキストベースのフィルタリングは比較的簡単にコーディングできます。
  • 多くの場合、商用ソリューションよりも費用を大幅に抑えることができます。
  • サイトとユーザーのことを最も熟知しているのはサイト運営者様であり、ポリシーに関する問題を誰よりも的確に予測できます。
テキストベースの自社ソリューションを開発する際に検討すべきアイデアとヒントを、次にいくつか紹介します。

 

キーワード リストの作成
テキストをフィルタリングするには、個々の単語や単語の組み合わせから成るキーワード リストが必要です。キーワード リストは、コンテンツのタイプ、サイトの規模、サイト運営者様が利用できるリソースに応じて、さまざまな方法で作成できます。
  • フィルタリングする単語やフレーズをまとめた独自のリストを作成します。その際、ご自身の直観で決めるか、以下を参考にすることができます。
    • スタッフに協力を求める
    • ユーザーに協力を求める
    • Google 広告のキーワード ツールを使用する
    • さらにヒントを得るには、不適切なコンテンツ(アダルト関連のサイトやファイル共有サイトなど)をホストするウェブサイトを閲覧し、どのようなキーワードが多く使用されているかを確認する
  • 次の方法で独自の自動キーワード抽出ツールをコーディングします。
    • 検索エンジンのデータを基にサイトの全ページを調べる。
    • サイト独自の単語やフレーズのリストを取得する。
    • もっともよく使われているキーワードを残し、それ以外は除外する。助詞や助動詞などの機能語も忘れずに除外してください。
    • テキスト ファイルに出力する。
    • 満足いくリストができるまで、複数のサイトで上記の操作を繰り返す。
    • 重要: 他のサイトからコンテンツを抽出し、独自のコンテンツとして使用することは、Google サイト運営者 / パブリッシャー向けポリシーや Google ウェブマスター向けガイドラインに違反します。また、違法行為や不正行為とみなされることもあります。
ウェイトの割り当て

キーワードの質はすべて均一とは限らず、単語によっては質の低いものもあります。そのため、語句ごとに異なる重み付けをすることをおすすめします。

たとえば、アダルト コンテンツ用のフィルタの場合、「ポルノ」は「性」よりも重みを大きくします。「ポルノ」に関連するコンテンツはほぼ例外なく一般向けではありませんが、「性」はコンテンツによっては「性別」など一般的な意味で使用されることもあります。

また、その単語だけでは問題がなくても他の単語と組み合わせるとまったく別の意味になる単語にも気を付けます。たとえば「画像」だけではまったく問題ありませんが、「少女 画像」ではポルノである可能性が高くなります。

フィルタリングのプロセス
コンテンツ フィルタリングを行う場合は、一般的に 2 つの方法があるため、ご自身のサイトに最適な方法を見定める必要があります。

方法 1 - ユーザーが作成したコンテンツを、ページに表示された後にスキャンする:

  1. コンテンツをスキャンする
  2. フィルタリングの条件に一致するコンテンツがある場合は報告する
  3. 該当のコンテンツをホストしているページの広告掲載を無効にする
  4. 個別にコンテンツを審査する
    1. コンテンツに問題がない場合、広告掲載を有効にしてフィルタを調整する
    2. コンテンツに問題がある場合、広告コードが配置されているページにそのコンテンツが表示されないようにする

方法 2 - ユーザーが作成したコンテンツを、表示される前にスキャンする:

  1. コンテンツをスキャンする
  2. フィルタリングの条件に一致するコンテンツがある場合は報告する
  3. 審査の対象に入れるか、即座に却下する
  4. 個別にコンテンツを審査する
    1. コンテンツに問題がない場合、広告掲載ページにコンテンツを表示し、フィルタを調整する
    2. コンテンツに問題がある場合、広告掲載を無効にしてコンテンツを表示するか却下する

商用ソリューションの概要

コンテンツ フィルタリング サービスは多数あり、中にはアダルト コンテンツや著作権で保護されたコンテンツのような特定のタイプのフィルタリングに特化したサービスもいくつかあります。また、サイト運営者様とインターネットで簡単に金儲けをしようとするユーザーとを結び付けるクラウドソーシング プラットフォームもあります。この場合に最適な方法は、トピックについて市場調査を行い、提供するサービスに最適なソリューションを決定することです。ソフトウェアの評価サイトで、ユーザーが作成したコンテンツをフィルタリングするおすすめのシステムをぜひご確認ください。このような情報をすべて収集したら、そのサービスのスコアや固有の機能のほか、価格モデルに基づいて、最適なソリューションを決定します。

この情報は役に立ちましたか?
改善できる点がありましたらお聞かせください。