Robotlar ve otonom araçlar daha da güçleniyor: Nvidia’dan Cosmos 3 hamlesi

Nvidia, fiziksel yapay zeka alanına yönelik geliştirdiği yeni temel modeli Cosmos 3‘ü duyurdu. Şirketin açıklamasına göre Cosmos 3, yerleşik görsel akıl yürütme yetenekleriyle birlikte metin, görüntü, video, ortam sesleri ve eylem üretimini tek çatı altında birleştiren dünyanın ilk tamamen açık omnimodeli olarak öne çıkıyor. Model, robotlar, otonom araçlar ve görsel yapay zeka sistemlerinin geliştirilme süreçlerini hızlandırmayı hedefliyor.

Computex 2026’nın hemen öncesinde Nvidia’nın GTC Taipei etkinliğinde tanıtılan Cosmos 3, fiziksel dünyayı anlayabilen, gelecekteki durumları tahmin edebilen ve çeşitli görevler için eylem planları oluşturabilen bir sistem olarak tasarlandı. Şirket, modelin fiziksel yapay zeka eğitim ve değerlendirme süreçlerini aylar yerine günler seviyesine indirebildiğini belirtiyor.

Farklı yetenekler tek sistemde birleşiyor

Cosmos 3’ün merkezinde, Nvidia’nın “Mixture of Transformers” (MoT) olarak adlandırdığı yeni bir mimari bulunuyor. Daha önce dünya modeli oluşturma, fiziksel ortamları anlama ve kontrollü sahne üretimi gibi görevler farklı sistemlerde yürütülürken Cosmos 3, bu yetenekleri tek bir yapı altında topluyor.

Model, bir yandan akıl yürütme işlemlerini gerçekleştiren bir transformer katmanı, diğer yandan içerik üretimi yapan uzman bir üretim katmanından oluşuyor. Bu yapı sayesinde nesneler arasındaki etkileşimleri, hareketleri ve uzamsal-zamansal ilişkileri analiz ettikten sonra video içerikleri ve eylem senaryoları oluşturabiliyor.

Otonom araçlara kadar uzanan kullanım alanı

Şirket, Cosmos 3’ün farklı kullanım senaryolarında görev alabileceğini belirtiyor. Model, çoklu veri türlerini anlayabilen bir görsel-dil modeli olarak kullanılabileceği gibi fiziksel ortamları simüle eden bir dünya modeli veya gelecekteki çevresel durumları öngörebilen bir video temel modeli olarak da görev yapabiliyor. Ayrıca robotların belirli görevleri öğrenmesine yardımcı olan eylem modellerinin temelini oluşturabiliyor.

Cosmos 3’ün dikkat çeken özelliklerinden biri de saliseler seviyesinde gecikmeyle görsel akıl yürütme gerçekleştirebilmesi. Bunun yanında büyük ölçekli sentetik veri üretimi ve robot öğrenme politikalarının geliştirilmesi gibi alanlarda da kullanılabiliyor.

Nvidia, modelin görüntüden videoya üretim konusunda da güçlü performans sergilediğini ifade ediyor. Şirket tarafından verilen örnekte sistem, Formula 1 yarışına ait araç kamerası görüntüsünden yola çıkarak yüksek hızlı yarış sahnelerini ve virajları içeren videolar oluşturabiliyor.

Super ve nano sürümleri yayında

Nvidia, Cosmos 3 ailesini farklı kullanım ihtiyaçlarına yönelik üç ayrı sürümle şekillendiriyor. Hâlihazırda erişime açılan Cosmos 3 Super, robotik ve otonom araç modellerinin son eğitim aşamalarında kullanılmak üzere en yüksek fizik doğruluğu ve üretim kalitesini sunuyor. Cosmos 3 Nano ise çok daha düşük gecikme sürelerinde video ve eylem akıl yürütmesi gerçekleştirebiliyor. Gerçek zamanlı uç cihaz çalıştırmalarına yönelik geliştirilen Cosmos 3 Edge sürümünün ise ilerleyen dönemde kullanıma sunulması planlanıyor.

Author: Admin