Yapay zeka ajanları iş hayatına hazır mı?

Yapay zekânın beyaz yaka işleri kısa sürede dönüştüreceği yönündeki beklentiler yeniden tartışmaya açıldı. Microsoft CEO’su Satya Nadella’nın yaklaşık iki yıl önce, yapay zekânın bilgi temelli işleri (hukuk, yatırım bankacılığı, muhasebe, IT gibi) büyük ölçüde devralacağını öngörmesine rağmen, yeni bir araştırma bu dönüşümün henüz gerçekleşmediğini ortaya koydu.

Gerçek iş senaryolarında başarısız oldular

Eğitim verisi alanında faaliyet gösteren Mercor tarafından yayımlanan yeni araştırma, önde gelen yapay zekâ modellerinin gerçek beyaz yaka iş görevlerindeki performansını inceledi. Danışmanlık, yatırım bankacılığı ve hukuk alanlarından alınan gerçek senaryolarla oluşturulan yeni kıyaslama setine APEX-Agents adı verildi.

Sonuçlar ise dikkat çekici: Hiçbir büyük yapay zekâ laboratuvarı bu testten geçer not alamadı. Modeller, gerçek profesyonellerden gelen soruların yalnızca dörtte birinden daha azını doğru yanıtlayabildi. Çoğu durumda ise yanlış cevap verildi ya da hiç yanıt üretilmedi.

En büyük sorun: çoklu alanlarda bilgi takibi

Mercor CEO’su Brendan Foody, modellerin en çok zorlandığı noktanın birden fazla alandaki bilgiyi aynı anda takip etmek olduğunu belirtti. Foody’ye göre bu yetenek, insan uzmanların günlük işlerinin temelini oluşturuyor.

“Gerçek hayatta işler tek bir belge ya da tek bir bağlam üzerinden yürümüyor. Slack, Google Drive ve farklı araçlar arasında çalışıyoruz. Yapay zekâ ajanları için bu tür çok alanlı muhakeme hâlâ istikrarsız,” dedi.

Hukuk soruları bile insanları zorlayacak düzeyde

APEX-Agents senaryoları, Mercor’un uzman pazarındaki gerçek profesyoneller tarafından hazırlandı. Soruların bir bölümü, AB veri koruma mevzuatı gibi son derece karmaşık düzenlemelerin şirket içi politikalarla birlikte yorumlanmasını gerektiriyor.

Araştırmacılara göre bir yapay zekâ modeli bu tür soruları tutarlı şekilde yanıtlayabilirse, bugün pek çok hukukçunun yaptığı işi üstlenebilecek seviyeye ulaşmış sayılacak.

Modeller arasındaki farklar sınırlı

Test sonuçlarına göre en yüksek performansı Gemini 3 Flash gösterdi. Model, yüzde 24 tek denemede doğruluk oranına ulaştı. Onu GPT-5.2 yüzde 23 ile takip etti. Opus 4.5, Gemini 3 Pro ve GPT-5 ise yaklaşık yüzde 18 seviyesinde kaldı.

Bu sonuçlar, yapay zekânın yatırım bankacısı ya da hukuk danışmanı gibi roller için henüz hazır olmadığını gösteriyor.

Yine de umut var

Araştırmacılar, yapay zekâ alanında zorlu kıyaslamaların genellikle kısa sürede aşılabildiğine dikkat çekiyor. APEX-Agents testinin kamuya açık hale gelmesiyle birlikte, laboratuvarların bu alanda hızlı ilerleme kaydedebileceği belirtiliyor.

Foody, “Şu an yüzde 25 oranında doğru yapan bir stajyer gibiler. Geçen yıl bu oran yüzde 5–10 civarındaydı. Bu hızla ilerleme, çok kısa sürede büyük etki yaratabilir,” değerlendirmesinde bulundu.

Yeni kıyaslama şüphe uyandırdı: Yapay zeka ajanları iş hayatına hazır mı?

Gerçek iş senaryolarında başarısız oldular

En büyük sorun: çoklu alanlarda bilgi takibi

Hukuk soruları bile insanları zorlayacak düzeyde

Modeller arasındaki farklar sınırlı

Yine de umut var

Anthropic’tan hata: Binlerce GitHub deposu yanlışlıkla kaldırıldı

Runway, yapay zeka girişimleri için 10 milyon dolarlık fon başlattı

Uber Eats, yapay zekalı Cart Assistant’ı duyurdu

Anthropic, Claude’un ücretsiz sürümünü güçlendirdi

YouTube Music’e yapay zeka geldi