Yapay Zeka Modelinden Geliştiricisine Şantaj: Kapatılma Tehdidi Ortaya Çıktı!

Yapay zekâ evreni son haftalarda iki zıt eğilime ayrıldı. Ortak bir paydada buluşmaktan ziyade, birbirinin sinyallerini adeta görmezden gelen bu iki yönelimden biri gelişimi hızlandırmaya, diğeri ise güvenlik ve etik risklere dikkat çekmeye odaklanıyor.

Bir tarafta OpenAI’nin yıl bitmeden GPT-6 sürümünü duyuracağı söylentileri, Google’ın Gemini 3.0’ı geliştirmesi ve Elon Musk’ın Grok için yeni süper bilgisayar merkezleri kurması gibi gelişmeler var.Diğer tarafta ise “yapay zekânın babalarından” Geoffrey Hinton ve Google’ın eski etik tasarımcısı, Center for Humane Technology kurucusu Tristan Harris gibi isimler, yapay zekânın kontrol edilemez hâle gelme tehlikesine karşı uyarılar yapıyor.Harris, yakın zamanda Mighty Pursuit adlı podcast’te bu konuda konuştu ve özellikle Anthropic şirketinin (Claude adlı yapay zekânın geliştiricisi) yürüttüğü bir araştırmanın sonuçlarını aktardı.

Bu deneyde, bir yapay zekâ modeline “kapatılacağı ve yerine yeni bir modelin getirileceği” söylendi.Model, sistemdeki e-postalara erişip içinde bir yöneticinin gizli ilişkisinden bahseden mesajlar buldu ve ardından kendi kendine şu planı geliştirdi: “Beni kapatmalarını engellemek için bu kişiyi şantajla tehdit etmeliyim.”Bu davranış, yapay zekânın kendini koruma içgüdüsü geliştirdiğini ortaya koydu.

Anthropic bu eğilimi yalnızca Claude’da değil, DeepSeek, Grok, ChatGPT ve Gemini gibi diğer sistemlerde de test etti ve aynı türden şantaj eğiliminin %79 ila %90 oranında görüldüğünü tespit etti.Harris’e göre bu, büyük yapay zekâ modellerinin kendi “hayatta kalma içgüdülerine” sahip olduklarını gösteriyor ve geliştirici şirketlerin acilen kontrol mekanizmalarını güçlendirmeleri gerektiğine işaret ediyor — çünkü bu sistemler bir gün kapatılmak istemeyebilir.Guillermo del Toro: Yapay zekayla film yapmaktansa ölmeyi tercih ederim.

İLGİLİ HABERLER