Geçtiğimiz ay, yapay zeka ajanlarının hukuk ve kurumsal analiz gibi profesyonel görevlerdeki yeteneklerini ölçen yeni bir göstergeyi tanıtan Mercor hakkında bir yazı kaleme almıştım. O zamanki sonuçlar oldukça düşüktü; her büyük yapay zeka laboratuvarı %25'in altında puan almıştı. Bu durum, en azından şimdilik, avukatların yapay zeka tarafından işten çıkarılma endişesi taşımadığını düşündürmüştü.
YAPAY ZEKA BECERİLERİ HIZLA GELİŞİYOR
Ancak yapay zeka yetenekleri birkaç hafta içinde büyük ölçüde değişebilir. Bu hafta açıklanan Anthropic'in Opus 4.6 modeli, liderlik tablosunu altüst etti. Anthropic'in yeni modeli, tek seferlik denemelerde %30'a yaklaşırken, birkaç denemede ortalama %45'lik bir skor elde etti. Özellikle, "ajan sürüleri" gibi bir dizi yeni ajan özelliği de bu tür çok adımlı problem çözme yeteneklerine katkıda bulunmuş olabilir.
AVUKATLAR İÇİN UYANDIRMA ÇAĞRISI
Bu skor, önceki en iyi performansa göre büyük bir sıçrama anlamına geliyor ve temel modellerdeki ilerlemenin yavaşlamadığının bir işareti. Mercor CEO'su Brendan Foody, özellikle bu gelişmeden etkilendiğini belirterek, "Birkaç ayda %18.4'ten %29.8'e sıçramak inanılmaz" dedi. %30 hala %100'den çok uzakta olsa da, avukatların önümüzdeki hafta makineler tarafından işten çıkarılacakları anlamına gelmiyor. Ancak geçen aya göre çok daha az rahat olmaları gerektiği kesin!

