1. Haberler
  2. Teknoloji
  3. DeepSeek V3.1: Yapay Zekada Yeni Dönem Başlıyor!

DeepSeek V3.1: Yapay Zekada Yeni Dönem Başlıyor!

featured

Çinli yapay zeka girişimi DeepSeek, teknoloji dünyasında büyük yankı uyandıran düşük maliyetli R1 modelinin ardından, şimdi de DeepSeek-V3.1 sürümünü tanıttı.

Yeni model, çarşamba akşamı yapılan duyuruyla, şirketin bugüne kadar geliştirdiği en iddialı yapay zeka sistemi olarak dikkat çekiyor.

Teknoloji tutkunları, DeepSeek R-2 modeline heyecanla beklerken, firma bu modeli tanıtmadan önce V3.1’i tanıttı.

Bu yeni modeller, R serisinden farklı bir hibrit yaklaşım benimsiyor.
İşte DeepSeek’in yeni modeli ve R serisinden farklılıklarına dair detaylar:

1. V3.1 MODELİ NEDİR?

685 milyar parametreye sahip olan V3.1, kodlama, mantıksal akıl yürütme ve sohbet işlevleri gibi çeşitli özellikleri tek bir çatı altında sunuyor.
Önceki nesil modellerde normal görevler ve akıl yürütme için ayrı yapılar bulunmasına karşın, bu kez “tek model, iki mod” anlayışıyla hem “düşünme” hem de “düşünmeme” modları kullanıcıya sunulmakta. Kullanıcılar, uygulama ya da web üzerinden “deep thinking” seçeneği ile bu modlar arasında geçiş yapabiliyor.

Teknik olarak V3.1, yalnızca 37 milyar parametreyi etkinleştiren Mixture-of-Experts (MoE) mimarisi ile çalışıyor. Bu sayede modelin dev boyutuna rağmen kullanım maliyetleri düşük kalabiliyor.

2. 685 MİLYAR VE 37 MİLYAR PARAMETRE NEDİR?

Genelde bir yapay zeka modelinin parametre sayısı ne kadar fazla olursa, o kadar fazla bilgi barındırır. Ancak çalıştırma maliyetleri de o ölçüde artar.

DeepSeek-V3.1’in toplam parametre sayısı 685 milyar. Ancak bu modelde her bir kullanıcı talebinde bu sayının tümü aynı anda kullanılmayacak.

Burada DeepSeek’in sektördeki önemli etkilerinden biri olan Mixture-of-Experts (MoE) mimarisi devreye giriyor. Model, “uzman” olarak adlandırılan farklı alt-modüllerden oluşuyor. Yani modelin içinde çeşitli uzman yapay zeka ajanları mevcut. Her işlem için bu uzmanların tamamı değil, yalnızca konu ile ilgili olan küçük bir bölümü aktif hale geliyor.

DeepSeek-V3.1’de, toplam 685 milyar parametre içerisinden her bir token (yazı parçacığı) için yalnızca yaklaşık 37 milyarı etkinleşiyor.

Bu, eğitimde tüm 685 milyar parametre öğrenmeye katkı sağlarken, kullanımda yalnızca 37 milyar kısmının çalışması anlamına geliyor. Böylelikle yapay zeka aracı daha hızlı ve maliyet açısından daha uygun hale geliyor.

Bir şirkette 685 uzman olduğunu düşünün. Bir sorun çıktığında hepsini çağırmaktansa, işin en alakalı 37 kişisini görevlendirmek yeterlidir. Bu sayede hem iş hızlı ilerler hem de kaynak israfı önlenir. Bu, günümüz yapay zeka sektörü için kayda değer bir gelişmedir.

3. TEK SEFERDE NE KADAR BÜYÜK BİR METNİ ANLAYABİLECEK?

Model, 128 bin token’lık bağlam penceresi sağlıyor.

Bağlam penceresi, bir dil modelinin “hafızası” gibi işlev görür: Model, aynı anda ne kadar metin görebiliyor, anlamını sürdürebiliyor ve önceki bölümlere referans verebiliyor. Bu kapasiteyi belirler.

128 bin token’lık bağlam penceresi, pazardaki en yükseklerden biri olarak gösteriliyor. Bu durumda, yeni V3.1 modeli, bir kitap uzunluğundaki metni (250-300 sayfa) tek seferde işleyebilir. Uzun raporlar, kod tabanları, sözleşmeler ve veri setleri üzerinde kapsamlı analizler yapma imkanı sunar. Ayrıca kullanıcı ile yapılan uzun diyaloglarda modelin “unutma” sorunu da büyük ölçüde azalıyor.

Kıyaslama yapacak olursak; GPT-4 (ilk sürüm): 8 bin 192 token (6-7 bin kelime), GPT-4 Turbo ise 128 bin token, Anthropic Claude 3.5 Sonnet modeli ise 200 bin token’lık bağlam pencerelerine sahip.

4. PERFORMANSI NASIL?

Şirketin yaptığı açıklamalara göre, performans açısından model kayda değer sonuçlar elde ediyor.

Erken testlerde Aider kodlama kıyaslamasında yüzde 71,6 başarı oranı yakalayan DeepSeek-V3.1, Anthropic’in en gelişmiş kapalı modeli olan Claude Opus 4’ün önüne geçmeyi başarıyor. Aynı zamanda maliyet açısından daha avantajlı olduğunu da gösteriyor.

Örneğin, bir kodlama görevini yaklaşık 1 dolar maliyetle tamamlarken, benzer Amerikan sistemlerinde bu rakam 70 dolara kadar çıkabiliyor.
Modelin matematik yetenekleri ve karmaşık mantık problemlerini çözme becerisi de önceki modellere göre ciddi şekilde geliştirilmiş durumda.

Ancak, sonuçların kesin değerlendirmeleri, bağımsız uzmanların önümüzdeki günlerde yapacağı testlerle daha net bir şekilde belirlenecek.

5. YİNE AÇIK KAYNAKLI MI?

2025’in başında piyasaya sürülen ilk model DeepSeek R-1, açık kaynak kodlu olduğu için büyük bir etki yaratmıştı. Diğer firmalar, geliştirdikleri modellerin detaylarını paylaşmazken, DeepSeek bu konuda farklı bir politika izledi.

Açık kaynak kodlu olmanın anlamı, bu kodları alıp kendi bilgisayarınıza kurabileceğiniz, iyileştirme yapabileceğiniz ve özelleştirebileceğinizdir.

V3.1’in en dikkat çekici yönlerinden biri de, DeepSeek’in açık kaynak stratejisini devam ettirmesi. Model, MIT lisansı altında Hugging Face üzerinden indirilebilirken, ticari kullanım için de serbest bırakıldığını duyurmuştur.

Ancak yaklaşık 700 GB’lık büyük boyutu, modeli kendi altyapısında çalıştırmak isteyenler için önemli bir teknik engel teşkil ediyor. Bu nedenle birçok kullanıcı için asıl avantaj, bulut sağlayıcılar aracılığıyla uygun maliyetli API erişimi sağlamak olacaktır. API’ler sayesinde belirli bir ücret karşılığında yapay zeka modellerini özelleşmiş bir şekilde kullanabilmek mümkün hale geliyor.

DeepSeek, öncelikle kendi şeffaflık akımını sürdürerek sektörde önemli bir etki yaratırken; OpenAI gibi diğer firmalar da benzer bir politika ile hareket etmeye başladı.

6. MERAKLA BEKLENEN R-2 İLE FARKI NEDİR?

Şirketin kurucusu Liang Wenfeng, finans sektöründeki girişimleriyle edindiği kaynaklarla DeepSeek’i büyütmeye devam ederken, uzun vadede insan seviyesinde bir sistem oluşturmayı hedefliyor.

R1’in devamı olarak beklenen R2 modeli ile ilgili belirsizlikler sürerken, V3.1’in hibrit yapısı nedeniyle bu projenin tamamen rafa kalkabileceği de konuşuluyor.

DeepSeek’in R1 modeli, “akıl yürütme” üzerine odaklanan bir yapay zekaydı. Ancak V3.1, hem “düşünme” hem de “düşünmeme” modlarını kullanıcıya sunarak, daha hızlı bir yanıt süresi ile optimize edilmiş bir yapı ortaya koyuyor.

DeepSeek’e göre V3.1, R1’e kıyasla yanıtları yüzde 50’ye varan bir hızla üretebiliyor. Bu durum, R2’ye olan ihtiyacı azaltabilir. Çünkü beklenen “gelişmiş muhakeme” kabiliyeti hibrit yapının içinde sağlanmış durumda.

R2 modelinin ayrı bir “saf akıl yürütme modeli” olması bekleniyordu. Ancak V3.1 ile DeepSeek “ajan çağı”na doğru bir yönelme gösteriyor. Gelecekteki hedef, niş bir model yerine, çok yönlü bir tek model üzerine yapay zeka ajanları inşa etmek olabilir.

7. Tüm Bunlar Kullanıcı Açısından Ne Anlama Geliyor?

Kullanıcılar açısından bu durum; bir görev için hangi modeli seçeceklerini düşünmek zorunda oldukları anlamına geliyordu. Örneğin, normal sohbetler için V3’ü, zorlu mantıksal görevler için R1’i seçmeleri gerekiyordu.

Artık tek bir model olan V3.1 ile kullanıcı sadece “düşünme” ya da “düşünmeme” modunu seçmekte. Bu, aynı sistemin hem hızlı yanıt verebilmesi hem de derin muhakeme yapabilmesi, kullanım kolaylığı sağlıyor.

Benzer bir yaklaşımı OpenAI, GPT-5 ile benimsemiş durumda. Önceden ChatGPT kullanıcılarının, farklı modeller arasında seçim yapmaları gerekliyken, artık tüm özellikler GPT-5’in içinde mevcut olacak. Ancak bazı kullanıcılar, yeni modelin önceki sürümlere göre “soğuk” ve “duygusuz” olduğunu dile getirmekte. Talep üzerine OpenAI, GPT-4’ü geri getirmeyi planlıyor.

8. DEEPSEEK ARTIK YERLİ ÇİP Mİ KULLANIYOR?

DeepSeek’in yeni modeli, farklı donanımlarla uyumlu hale gelmesi için BF16, F8_E4M3, FP8 ve F32 gibi çeşitli tensör formatlarını destekliyor. Özellikle FP8 formatının, yakın zamanda piyasaya çıkacak yeni nesil Çin yapımı çiplerle uyumlu çalışacak şekilde optimize edildiği belirtiliyor.

Bu durum, Pekin’in ABD ihracat kısıtlamalarına karşı kendi yarı iletken ekosistemini güçlendirme çabalarının bir parçası olarak değerlendiriliyor. DeepSeek, model geliştirme aşamalarında AMD Instinct GPU’ları ve ROCM yazılımını kullandı.

MIT Technology Review’a göre, ABD’den Çin’e yönelik çip yaptırımlarının gündeme gelmesinden önce Liang’ın, şu anda Çin’e ihracatı yasaklanmış olan Nvidia A100 çiplerinden önemli miktarda stok satın aldığı ifade ediliyor. Çinli medya kuruluşu 36Kr, bu stokun 10.000’den fazla birim olduğunu tahmin ediyor. Bu rakamın bazı kaynaklara göre 50.000 olduğu da söyleniyor. Yapay zeka eğitimi açısından büyük önem taşıyan bu stok başarıyla değerlendirilmiş oldu.

Yeni modelle beraber, Çin’de uygun çipler üretildiğinde DeepSeek yerli çiplere geçiş yapabilir.

9. GÜVENLİ Mİ?

DeepSeek kullanımıyla ilgili önemli bir başka konu, güvenlik meselesi. DeepSeek, diğer yapay zeka hizmetlerinde olduğu gibi kullanıcının verilerini talep ediyor ve muhtemelen bu veriler Çin’deki sunucularda saklanıyor. Kullanıcıların, her zaman hassas verilerini bu tür bir yapay zeka modelinde paylaşmamaları gerektiği önem taşıyor.

Açık kaynaklı bir model olması nedeniyle, bağımsız araştırmacılar da modelin kodlarını inceleyerek güvenlik değerlendirmesi yapabilecekler.

DeepSeek V3.1: Yapay Zekada Yeni Dönem Başlıyor!
Yorum Yap
Bizi Takip Edin