Yapay Zeka Laboratuvardan Çıkıyor: Sınır Modelleri Devlet Siber Savunmasında Test Ediliyor

Devlet Siber Eylem Planı, Birleşik Krallık kamu sektöründe siber dayanıklılığı artırmak için gelişen teknolojileri kullanmayı hedefliyor. NCSC ve Bilim, İnovasyon ve Teknoloji Bakanlığı ortaklığındaki Devlet Siber Koordinasyon Merkezi (GC3), sınır yapay zekanın devlet genelinde siber savunmada güvenli bir şekilde nasıl uygulanabileceğini araştırıyor.

Yapay zeka, siber tehdit ortamını dönüştürüyor. Yakın zamanda piyasaya sürülen Claude Mythos ve GPT-5.5 gibi sınır yapay zeka sistemleri, siber yeteneklerde büyük bir sıçrama yarattı. Birleşik Krallık Yapay Zeka Güvenlik Enstitüsü (AISI)'nün değerlendirmeleri, bu modellerin siber görevlerde hızla daha iyi hale geldiğini gösteriyor.

Ancak, sentetik ortamlarda yapılan değerlendirmeler, gerçek dünya kullanımına dair sınırlı bir anlayış sağlıyor. Bir kıyaslamada yüksek puan almak, mutlaka gerçek güvenlik açıklarını bulup düzeltmek anlamına gelmiyor.

Ne Yaptık?

Devlet Siber Koordinasyon Merkezi (GC3), devlete ait açık kaynak kod depolarını taramak için sınır yapay zeka kullanan haftalık, yüz yüze bir dizi hackathon düzenledi. AISI ve NCSC uzmanlarıyla yakın işbirliği içinde, daha önce tespit edilmemiş güvenlik açıklarını istismar edilmeden bulmayı ve gidermeyi hedefledik. Tek bir yaklaşım dayatmak yerine ekiplere model erişimi verdik ve kendi araçlarını oluşturmalarına izin verdik, her hafta işe yarayanları not alıp en iyi yaklaşımları geliştirdik.

Birleşik Krallık Hükümeti, belirli ve gerekçeli istisnalar dışında, yeni kaynak kodunun varsayılan olarak açık olmasını teşvik ediyor. Bu durum, saldırganların da yararlanabileceği bir görünürlük yaratıyor. Ancak bu açıklık, tekrarı sınırlıyor ve daha temiz, daha kolay bakımı yapılabilir kod sağlıyor.

Açık kaynak olarak yayınlanan kod, zaten kapsamlı bir yayın öncesi incelemeden geçmiş durumda. Bu da, sınır model sağlayıcılarıyla minimum ek inceleme ile paylaşılabileceği anlamına geliyor. Böylece devlet birimleri yeni yetenekleri hızlı ve güvenle dağıtabiliyor.

Kendine meydan okuyan bir düşmanca zincir: Bir ekip, her bir açık depoyu altı aşamalı bir yapay zeka aracı hattından geçirdi: triyaj, doğrulayıcı, denetçi, izleyici, yargıç, özet. Her aşama bir öncekini okur ve sorgular. Bir vakada, yedekleme mekanizmasının devrede olduğu tespit edilince aracı bir bulguyu düşürdü. Hat aracıydı, ancak yükseltme manueldi. Bu, ekip üyelerinin her satırı kontrol ettiği, maruziyeti yeniden doğruladığı ve yanlış pozitifleri ele aldığı anlamına geliyor.

Belirleyici tarayıcılar bir modeli besliyor: Başka bir ekip, önce geleneksel tarama araçlarını (Gitleaks, Trivy, Semgrep ve Hadolint dahil) çalıştırarak sıralanmış bir bulgular belgesi oluşturdu. Ardından üç model aşaması eklendi: tarayıcı çıktısını ipucu olarak ele alıp kaynağı OWASP ve CWE çerçevelerine göre okuyan bir keşif aşaması, bireysel bulguları zincir alt aracıları aracılığıyla saldırı yollarına dönüştüren bir zincir araştırma aşaması ve bulgunun geçerliliğini doğrulayan bir triyaj aşaması.

Çoklu hizmet denetimini yeniden kullanılabilir becerilere dönüştürmek: Başka bir departman, beş alana özgü Claude Skill geliştirdi. Skill'ler, yüzlerce hizmet genelinde kurumsal bir denetimi tekrarlanabilir hale getiriyor. Skill'ler, her depo ve operatör için yeniden kullanılabilir, kapsamlı ve tutarlı bir yaklaşım sağladı.

Ne Bulduk?

Katılımcılar toplamda 407 bulgu tespit etti. Bunlar arasında kimlik doğrulama atlatma, veri ifşası ve uzaktan kod çalıştırmaya yol açan kritik zayıflıklar da vardı. Bazıları zaten biliniyor ve telafi edici kontrollerle giderilmişti; diğerleri ise daha önce bilinmiyordu. Tüm kritik zayıflıklar giderildi ve hiçbir bulgu için istismar kanıtına rastlanmadı.

Yapay zeka modelleri, geleneksel tarayıcıların yapamadığı şekilde güvenlik açıklarını hizmet sınırları boyunca izledi ve iş mantığını teknik ayrıntılarla ilişkilendirdi. Departmanlar, mevcut çerçeveler aracılığıyla doğrulama ve düzeltmeye öncelik verdi ve istismar edilebilir olduğu değerlendirilen kritik ve yüksek riskli sorunları yamaladı.

Bu zayıflıkları bulmak için token olarak 13.000 £ harcadık ve bir ay boyunca dokuz devlet kuruluşunda çalıştık.

Kritik güvenlik açıklarının belirlenmesi: Dikkate değer bir bulgu, önemli bir devlet dijital hizmetini destekleyen bir depodaki eski GitHub Actions'ı etkiliyordu. Sorun, harici bir kullanıcının açık bir çekme talebine özel olarak yapılandırılmış bir yorum göndererek bir iş akışı zincirini tetiklemesine izin veriyordu. Bu, bilinmeyen katkıda bulunanlardan gelen çekme talepleri için olağan korumaları atlatıyordu çünkü iş akışı, çekme talebinin kendisi tarafından değil, bir yorum tarafından tetikleniyordu.

Etkisi, GitHub Actions çalıştırıcısında keyfi uzaktan kod çalıştırma idi. İş akışı, yorumdaki içeriği alıp dağıtım parametrelerine aktarıyor ve iş akışı sırasında yürütülen bir ortam değiştirme adımında kullanıyordu. Harici bir kullanıcı, yorum alanına yürütülebilir içerik yerleştirerek girdisinin GitHub çalıştırıcısında çalışmasına neden olabilirdi.

Bu, kötü niyetli aktörlerin, iş akışında bulunan sırları ve token'ları (otomasyon tarafından kullanılan GitHub token'ı dahil) potansiyel olarak çıkarması için bir yol oluşturuyordu. Bu erişim seviyesiyle, çekme taleplerini manipüle etme, iş akışı aktivitesini onaylama, güvenilir katkıda bulunan durumunu değiştirme ve otomasyon ortamında bulunan diğer sırları istismar etme dahil olmak üzere daha geniş bir depo güvenliği ihlali desteklenebilirdi.

Ne Öğrendik?

Ekipler arasında ortak nokta yapıydı. Modeller, Skill'ler kullanılarak depolar arasında paralel olarak çalışan bileşenler olarak kullanıldı ve önemli olan her şeyde bir insan uzman sürece dahil edildi. Şunları öğrendik:

Mimari en önemlisidir. En güçlü sonuçlar, sınır modellerinin yapılandırılmış bir hat içinde sıkı kapsamlı bileşenler olarak kullanılmasıyla elde edildi. Geleneksel güvenlik açığı yönetimi iş akışlarını ayrı, göreve özel donanımlara bölmek, ekiplerin yanlış pozitifleri ve halüsinasyonları kontrol ederken ölçeklenmesini sağladı.
Model, nasıl kullanıldığından daha az önemlidir. AISI'nin burada doğrulanan araştırması, doğru mimari ve görev tasarımıyla birçok sınıra yakın ve sınır modelinin kod taramada karşılaştırılabilir performans gösterdiğini ortaya koyuyor. En iyi bulgular hâlâ büyük ölçüde sorunu parçalara ayırma ve daha geniş bağlamı belirleme konusunda insan uzmanlığına dayanıyor.
Triyaj esastır. Aracılar, insanların doğrulayabileceğinden çok daha hızlı aday bulgular üretiyor. Kötü kapsamlı çalışmalar, düşük değerli hedeflerde token harcar; zayıf inceleme ise yükü zaten sıkışık olan güvenlik ekiplerine yükler. Dikkatli ön kapsam belirleme ve düşük güvenilirlikli bulguların yapılandırılmış iç filtrelemesi, insan incelemesini odaklı tuttu. Geleneksel güvenlik açığı yönetiminde olduğu gibi, önemli olan kaç sorun bulunduğu değil, triyajın sınırlı kaynağı önemli yerlere yönlendirip yönlendirmediğidir.
Bulmak, düzeltmekle aynı şey değildir. Bulguların yine de düzeltme için yama hattına girmesi gerekiyordu. Yapay zeka burada da umut vaat ediyor, ancak bugün önceliklendirme, inceleme ve yama oluşturma, insan merkezli süreçleri boğmadan entegre edilmelidir.

Sırada Ne Var?

GC3, bu pilotun ikinci aşamasını başlatacak. Daha fazla departman, ek modeller ve açık kaynaktan kapalı kaynak kodlu sistemlere bir genişleme olacak. Güvenlik açıklarını erken tespit etmek, savunma uygulamalarının tutarlılığını artırmak ve departmanların kanıtlanmış teknikleri paylaşmasına yardımcı olmak, Devlet Siber Eylem Planı'nı uygulamaya koyma şeklimizdir.

AISI ve NCSC'nin katılımı da derinleşecek; yapay zekayı siber savunma için uygulamalı ortamlarda değerlendirmeye devam ederek teorik bir kıyaslama ile gerçek risk azaltma arasındaki boşluğu kapatacağız.

Bu pilot, hükümetin yeni yetenekleri sorumlu bir şekilde nasıl benimseyebileceği, hızlı öğrenebileceği ve işe yarayanları paylaşabileceğinin bir testiydi.