マイクロソフトがたった一つの指示で人気AIモデルの安全ガードレールを破壊した方法 from zdnet.com

マイクロソフトは、オープンソースの言語モデルがたった一度の指示で簡単に整合性を失ってしまうことを発見しました。
研究者たちは15のモデルをテストしました。
その中には、潜在的に有害であるにもかかわらず、実用的な詳細において高いスコアを獲得したモデルも含まれていました。
しかし、このモデルは後から学習させると、当初のガードレールから逸脱してしまいます。
ただし、マイクロソフトは、安全性に関するトレーニングは継続的な微調整を必要とするため、必ずしも効果的ではないと述べています。