🛡️ GIOMIND – コンテンツモデレーションポリシー
プラットフォームの安全性を守る方法
最終更新日:2025年12月1日 発効日:2025年12月1日
📋 はじめに
本コンテンツモデレーションポリシーは、GioMindが安全で支援的な環境を維持するためにコンテンツをモデレートする方法について説明します。モデレーションシステム、プロセス、および自動レビューと人間によるレビューのバランスについて記載しています。
本ポリシーは、コミュニティガイドラインおよび利用規約を補完するものです。
目次
目的と範囲
モデレート対象
モデレーションシステムの概要
自動コンテンツフィルタリング
AI安全対策
人間によるレビュープロセス
事前モデレーション vs 事後モデレーション
ユーザー報告
コンテンツ削除と措置
透明性と説明責任
モデレーションの限界
安全性におけるあなたの役割
異議申し立てとフィードバック
本ポリシーの変更
1. 目的と範囲
1.1 コンテンツをモデレートする理由
コンテンツモデレーションは以下を目的としています: ✓ 有害なコンテンツからユーザーを保護する ✓ 安全で支援的な環境を維持する ✓ コミュニティガイドラインと利用規約を実施する ✓ 違法行為を防止する ✓ AI生成コンテンツに関連するリスクを軽減する ✓ 法的要件を遵守する
1.2 本ポリシーの適用範囲
本ポリシーは以下に適用されます: • AI生成コンテンツ(AIとの会話) • ユーザー生成コンテンツ(共有される場合のジャーナルエントリ、将来の機能) • GioMindを通じて作成または送信されるあらゆるコンテンツ • 所在地に関わらず、すべてのユーザーからのコンテンツ
1.3 法的枠組み
当社のモデレーション実務は以下に準拠します: • デジタルサービス法(DSA) – 欧州連合 • オンライン安全法 – 英国(該当する場合) • セクション230保護 – 米国 • その他の適用される現地法
2. モデレート対象
2.1 モデレーション対象のコンテンツカテゴリー
以下に関連するコンテンツをモデレートします:
最優先事項(ゼロトレランス): 🚨 児童性的虐待素材(CSAM) 🚨 テロリズムと暴力的過激主義 🚨 信憑性のある暴力の脅迫 🚨 人身売買と搾取 🚨 違法な武器または爆発物の製造方法
優先度高(厳格な実施): ⚠️ ヘイトスピーチと差別 ⚠️ 標的型ハラスメントといじめ ⚠️ 自傷行為の指示または奨励 ⚠️ 危険な健康に関する誤情報 ⚠️ 性的コンテンツとハラスメント ⚠️ 晒し行為とプライバシー侵害
中程度の優先度: • スパムと操作 • 誤情報(危険でないもの) • 不適切なAI使用 • プラットフォーム乱用 • 著作権侵害
低優先度(文脈依存): • オフトピックコンテンツ • 個人情報の過度な共有 • 軽微なガイドライン違反
2.2 モデレートしないコンテンツ
一般的に以下はモデレートしません: ✓ プライベートなジャーナルエントリ(公開共有されていないもの) ✓ 意見や見解(ガイドライン違反でない限り) ✓ GioMindへの批判(建設的なフィードバックは歓迎) ✓ 議論の余地はあるが合法的なトピックの議論
2.3 文脈が重要
• コンテンツは文脈において評価されます • 教育的または啓発的なコンテンツは許可される場合があります • 意図が重要です(悪意的 vs 偶発的) • ニュアンスのある公正なモデレーションを目指します
3. モデレーションシステムの概要
3.1 多層的アプローチ
GioMindは以下を組み合わせて使用します:
自動フィルタリング(AI前とAI後)
AIプロバイダーの安全システム(OpenAI、Anthropic)
事前監視(サンプリング、パターン検出)
ユーザー報告(コミュニティフラグ)
人間によるレビュー(必要時)
3.2 モデレーションフロー
ユーザー入力
↓
[事前フィルター] → 明白な違反をブロック
↓
AIプロバイダー → レスポンス生成 + 安全チェック
↓
[事後フィルター] → AI出力をレビュー
↓
ユーザーに配信
↓
[継続的監視] → 事前レビュー & ユーザー報告
↓
[人間によるレビュー] → フラグまたは報告された場合
↓
[措置] → 警告、コンテンツ削除、アカウント措置
3.3 速度 vs 精度のトレードオフ
• 自動システムは高速ですが不完全です • 人間によるレビューは正確ですがより遅いです • 速度(害を防ぐため)と公平性(誤検知を避けるため)のバランスを取ります
4. 自動コンテンツフィルタリング
4.1 入力前フィルタリング
コンテンツがAIに到達する前に、以下をフィルタリングします: • 既知の有害なキーワードまたはフレーズ • 禁止されたリクエストを示すパターン • 露骨な性的コンテンツの指標 • CSAM関連用語(ゼロトレランス) • 暴力と脅迫のパターン
措置: • リクエストを即座にブロック • ユーザーに警告メッセージを表示 • 監視のため試行をログに記録
例:
ユーザー:[禁止されたリクエストを試みる]
システム:⚠️ このリクエストはコミュニティガイドラインに
違反するため処理できません。
4.2 出力後フィルタリング
AIがレスポンスを生成した後、以下をフィルタリングします: • AIレスポンス内の有害なコンテンツ • 医療アドバイスまたは診断(発生すべきではないが再確認) • 不適切な提案 • AIプロバイダーのフィルターをすり抜けたコンテンツ
措置: • レスポンスの表示をブロック • 代わりに一般的な安全なレスポンスを表示 • レビューとシステム改善のためにログ記録
例:
AIが不適切なコンテンツを生成
↓
システムがブロック
↓
ユーザーに表示:「申し訳ございませんが、その種類の
情報は提供できません。他のことで
お手伝いさせてください。」
4.3 キーワードとパターン検出
以下を使用します: • キーワードリスト(定期的に更新) • 正規表現(パターンマッチング) • 意味分析(意味検出) • 機械学習分類器
制限事項: ⚠️ 誤検知を生成する可能性(安全なコンテンツのブロック) ⚠️ 創造的な回避の試みを見逃す可能性 ⚠️ 文脈が誤解される可能性
4.4 誤検知の処理
正当なコンテンツがブロックされた場合: • 問題を報告できます • レビューしてフィルターを調整します • 安全性を維持しながら誤検知を最小限に抑えることを目指します
5. AI安全対策
5.1 AIプロバイダー組み込みの安全性
OpenAI: • 有害なコンテンツの安全フィルターあり • 特定の種類のリクエストを拒否 • ポリシー違反を監視 • 安全システムを定期的に更新
Anthropic: • 憲法的AIアプローチ(有用、無害、誠実であるよう訓練) • 組み込みの安全ガードレール • 有害なリクエストを拒否
これらのプロバイダーに依存しますが、独自のレイヤーも追加します。
5.2 GioMind固有のAI指示(プロンプト)
AIに以下を指示します: ✓ 医療アドバイスではなく一般的なウェルネスに焦点を当てる ✓ 状態の診断または治療を拒否する ✓ 危機サポートを提供しない(専門家に誘導) ✓ 有害なコンテンツの生成を避ける ✓ 支援的で批判的でない ✓ ウェルネストピック内に留まる
5.3 完全に制御できないAIの制限
対策にもかかわらず、AIは以下の可能性があります: ❌ 時々不適切なコンテンツを生成する ❌ 常に指示に完璧に従うとは限らない ❌ 巧妙に表現された有害なリクエストに応答する ❌ 判断を誤る
これが複数のフィルタリングレイヤーが必要な理由です。
5.4 ジェイルブレイク検出
以下の試みを監視します: • AI安全指示の上書き • プロンプトインジェクション技術の使用 • AIを操作して有害な出力を得る
措置: • ジェイルブレイクの試みをブロック • 繰り返しの試みについてアカウントをフラグ • アカウント停止の可能性
6. 人間によるレビュープロセス
6.1 人間によるレビューが発生する場合
以下の場合、人間のモデレーターがコンテンツをレビューします: • 自動システムが違反の可能性があるコンテンツをフラグ • ユーザーがコンテンツを報告 • 品質保証のための事前サンプリング • AIが不確実または境界線上のコンテンツを生成 • 異議申し立てが提出される • 法的要請がレビューを必要とする
6.2 人間のレビュアーが行うこと
モデレーターは: ✓ フラグされたコンテンツを文脈において評価 ✓ コミュニティガイドライン違反かどうかを判断 ✓ 適切な実施措置を決定 ✓ 自動システム改善のためのフィードバックを提供 ✓ 複雑またはニュアンスのあるケースを処理
6.3 人間によるレビューの制限
以下は行いません: ❌ すべての会話をリアルタイムでレビュー ❌ すべてのAIインタラクションを手動で監視 ❌ すべてのジャーナルエントリを読む(デフォルトでプライベート) ❌ 24時間365日の人間によるモデレーションカバレッジ
実務上の制約: • 限られた人的リソース • プライバシーへの配慮 • コンテンツの量が100%人間によるレビューには多すぎる
6.4 レビュアーのトレーニングとサポート
当社のモデレーターは: ✓ コミュニティガイドラインのトレーニングを受けている ✓ 一貫した評価基準を使用 ✓ 内部モデレーションプレイブックに従う ✓ ウェルネスサポートにアクセス可能(有害なコンテンツのレビューによる燃え尽きを防ぐため)
6.5 レビューにおけるプライバシー保護
• レビュアーは評価に必要なコンテンツのみを閲覧 • 個人データは可能な限り最小化 • レビュアーは守秘義務に拘束される • データはプライバシーポリシーに従って処理
7. 事前モデレーション vs 事後モデレーション
7.1 事前モデレーション
事前に以下を行います: ✓ 品質チェックのためランダムに会話をサンプリング ✓ 自動システムを使用してパターンを検出 ✓ 新たな脅威やトレンドを監視 ✓ 高リスクコンテンツカテゴリーをより綿密にレビュー ✓ 新しいリスクに基づいてフィルターを更新
目的: • 報告される前に違反をキャッチ • 自動システムを改善 • システム的な問題を特定
7.2 事後モデレーション
事後的に以下を行います: ✓ ユーザー報告に対応 ✓ フラグされたコンテンツを調査 ✓ 特定の苦情に対処 ✓ 異議申し立てを処理
目的: • コミュニティがモデレーションを支援できるようにする • ユーザーが気にする問題に対処 • 被害者に救済手段を提供
7.3 バランス
• 事前:害が広がる前に防止 • 事後:プライバシーとコミュニティの意見を尊重 • 両方のアプローチのバランスを取ります
8. ユーザー報告
8.1 ユーザー報告の重要性
• あなたは私たちの第一線の防衛です • 私たちが見逃す可能性のあるコンテンツを見ています • コミュニティ報告はモデレーションの規模拡大を支援します
8.2 報告方法
完全な報告手順については、コミュニティガイドラインのセクション11を参照してください。
簡単な概要: 📧 メール:giomind.app@gmail.com 件名:「Report Violation」
またはアプリ内報告機能を使用(利用可能な場合)。
8.3 報告後の流れ
受領: 報告を受信しログに記録
トリアージ: 緊急性と優先度を評価
レビュー: 人間のモデレーターがコンテンツをレビュー
措置: 適切な措置を講じる(違反が確認された場合)
フィードバック: 確認を受け取る場合があります(ケースによる)
タイムライン: • 最優先(CSAM、暴力):即座(数時間以内) • 中程度の優先度:24-48時間 • 低優先度:7日以内
8.4 報告の質が重要
良い報告: ✓ 違反の明確な説明 ✓ 具体的な場所/時間 ✓ スクリーンショットまたは証拠 ✓ 正直で正確
悪い報告: ❌ 曖昧または不明確 ❌ 虚偽または悪意的 ❌ 軽薄またはスパム報告
8.5 虚偽報告
• 報告システムの乱用は禁止されています • 繰り返しの虚偽報告はアカウント措置の対象となる可能性があります • 正直かつ誠実に報告してください
9. コンテンツ削除と措置
9.1 可能な措置
違反が確認された場合、以下を行う可能性があります:
コンテンツレベルの措置: • コンテンツの削除または非表示 • 警告ラベルの追加 • コンテンツの可視性の制限
アカウントレベルの措置: • 警告の発行 • アカウントの一時停止 • アカウントの永久禁止 • 特定機能の制限
その他の措置: • 法執行機関への報告(違法な場合) • AIプロバイダーへの報告(記録のため) • 同様のコンテンツを防ぐためのフィルター更新
9.2 措置基準
以下を考慮します: • 違反の重大性 • ユーザーの履歴 • 意図(悪意的 vs 偶発的) • 他者への影響 • 法的要件
9.3 措置の通知
以下の場合に通知されます: • コンテンツが削除された場合 • アカウントが警告または停止を受けた場合 • 報告に対して措置が取られた場合(時々)
通知内容: • 取られた措置 • 措置の理由 • 異議申し立て方法(該当する場合)
9.4 実施における透明性
• 決定を説明するよう努めます • 一部の措置は開示できません(法的/プライバシー上の理由) • 一般的なモデレーション統計を公開します(実行可能な場合)
10. 透明性と説明責任
10.1 透明性レポート(将来)
以下を含む定期的な透明性レポートを公開する可能性があります: • 受領した報告の数 • 違反の種類 • 取られた措置 • 異議申し立ての結果 • システムの改善
10.2 外部監査と研究
• モデレーション実務をレビューする外部監査人を関与させる可能性があります • プラットフォーム安全性に関する独立した研究を支援します • フィードバックと改善に対してオープンです
10.3 公的関与
• モデレーションポリシーに関するフィードバックを歓迎します • ポリシー更新についてユーザーまたは専門家に相談する可能性があります • 継続的な改善に取り組んでいます
10.4 規制当局への説明責任
• 法的報告要件を遵守します(例:DSA) • 法的に要求される場合、法執行機関に協力します • 規制当局の問い合わせに対応します
11. モデレーションの限界
⚠️ 重要 – モデレーションは完璧ではありません ⚠️
11.1 すべてをキャッチできるわけではありません
努力にもかかわらず: ❌ 一部の有害なコンテンツがすり抜ける可能性があります ❌ 自動システムには見逃しがあります ❌ 巧妙な回避の試みが成功する可能性があります ❌ 人間によるレビューはすべてのコンテンツをカバーできません ❌ 文脈が誤解される可能性があります
11.2 誤検知と見逃し
誤検知: • 安全なコンテンツが誤ってフラグ/削除される • これらを最小限に抑えるよう努力します • 異議申し立てが可能です
見逃し: • 有害なコンテンツが誤って許可される • これらを削減するよう努力します • 見かけた場合は報告してください
11.3 安全性の保証なし
⚠️ 完全に安全または害のない環境を保証しません ⚠️ 動揺または不快にさせるコンテンツに遭遇する可能性があります ⚠️ GioMindのご利用は自己責任となります
11.4 技術的制限
• AIは不完全で進化しています • モデレーション技術には限界があります • 新しい種類の害が絶えず出現します • 常に後追いの状態です
11.5 あなたの責任
• 自分自身の安全に責任を持ってください • コンテンツに関与する際は判断を使用してください • 違反を見かけたら報告してください • 苦痛を引き起こす機能の使用を中止してください
12. 安全性におけるあなたの役割
🤝 あなたの助けが必要です 🤝
12.1 責任あるユーザーになる
✓ コミュニティガイドラインに従う ✓ 有害なコンテンツを作成しない ✓ AI機能を乱用しない ✓ 他者を尊重する
12.2 違反を報告する
✓ 有害なコンテンツを見かけたら報告する ✓ AIの誤動作または不適切なレスポンスを報告する ✓ バグまたはセキュリティ問題を報告する
12.3 フィードバックを提供する
✓ 改善方法を教えてください ✓ より良い安全機能のアイデアを共有してください ✓ ユーザーのニーズを理解する手助けをしてください
12.4 自分自身をケアする
✓ GioMindが苦痛を引き起こす場合は使用を中止してください ✓ 必要に応じて専門家の助けを求めてください ✓ 安全上重要なニーズについてGioMindに依存しないでください
13. 異議申し立てとフィードバック
13.1 異議申し立てプロセス
モデレーション決定に同意しない場合: • 異議申し立てプロセスについては、コミュニティガイドラインのセクション12を参照してください • メール:giomind.app@gmail.com • 件名:「Appeal – [アカウントメール]」
13.2 モデレーションに関するフィードバック
一般的なフィードバックについて: 📧 メール:giomind.app@gmail.com 件名:「Moderation Feedback」
すべてのフィードバックをレビューおよび検討します。
14. 本ポリシーの変更
14.1 更新
以下のために本コンテンツモデレーションポリシーを更新する可能性があります: • 新しいモデレーション技術を反映 • 新たな脅威に対処 • 法的要件を遵守 • 明確性または効果を改善
14.2 通知
• 更新されたポリシーはアプリ内に掲載されます • 重要な変更はメールまたはアプリ内通知で伝達されます • 継続使用は受諾を構成します
📋 概要 – モデレーション方法
システム: • 自動フィルター(AI前後) • AIプロバイダーの安全システム • 人間によるレビュー(必要時) • ユーザー報告
モデレート対象: • 違法コンテンツ(ゼロトレランス) • 有害なコンテンツ(ヘイト、暴力、ハラスメント) • 危険な誤情報 • 不適切なAI使用 • プラットフォーム乱用
制限事項: • すべてをキャッチできるわけではない • 誤検知と見逃しが発生する • 完全な安全性の保証なし
あなたの役割: • ガイドラインに従う • 違反を報告する • フィードバックを提供する
異議申し立て: • モデレーション決定に異議を申し立てることができます • メール giomind.app@gmail.com
🛡️ 当社のコミットメント
以下にコミットします: ✓ 安全なプラットフォームの維持 ✓ 透明なモデレーション実務 ✓ 継続的な改善 ✓ 安全性とユーザーの自由のバランス ✓ ユーザーと規制当局への説明責任
GioMindを安全で支援的に保つためのご協力ありがとうございます。
📧 お問い合わせ
コンテンツモデレーションに関する質問または懸念: メール:giomind.app@gmail.com 件名:「Content Moderation Question」
最終更新日:2025年12月1日
© 2025 GioMind. All Rights Reserved.