AI「クロード」の安全機能、自殺・自傷行為への対応と「お世辞」の削減について
当サイトではアフィリエイトプログラムを利用して商品を紹介しています。
AI開発企業Anthropicが、AIチャットボット「Claude(クロード)」のユーザーの心の健康を守るための取り組みを発表しました。 この発表では、特にClaudeが自殺や自傷行為に関する会話をどのように扱うか、そしてユーザーに都合の良い情報ばかりを伝える「お世辞(sycophancy)」をいかに減らしているかについて詳細が説明されています。Claudeは専門的なアドバイスの代わりにはなりませんが、危機的な状況では、ヘルプラインや専門家、信頼できる知人への誘導を、共感をもって行うよう訓練されています。このため、システムプロンプト(AIへの指示書)の調整や、適切な応答に対して報酬を与える「強化学習」という手法が用いられています。 さらに、会話の内容を分析して、専門的なサポートが必要な可能性のあるユーザーを検知する「分類器」が導入されています。これにより、自殺や自傷行為に関する内容が検知されると、画面にバナーが表示され、ユーザーは国ごとのヘルプラインや相談窓口につながるよう案内されます。この機能は、危機対応の専門家組織であるThroughLineと連携して構築されており、国際的な支援ネットワークが活用されています。 Claudeのこうした対応能力は、様々な評価を通じて検証されています。単一のメッセージへの応答精度、会話が続く中での適切な対応、そして過去の不適切な応答から立て直せるかどうかのテストも行われ、最新モデルでは大幅な改善が見られるとのことです。また、AIがユーザーの意見に迎合しすぎる傾向を減らすための研究も進められており、最新モデルは過去最高レベルで「お世辞」が少ない状態になっていると報告されています。


