Robot Eğitim Verisi Toplamak Zorlu Bir İş: XDOF, 70 Milyon Dolar Yatırımla Bu Alana Odaklanıyor
Yapay zeka laboratuvarları, fiziksel dünyada çalışabilen robotlar geliştirmek için yarışırken, en büyük engel eğitim verisi eksikliği. XDOF adlı girişim, robot eğitimi için veri toplama, temizleme ve etiketleme altyapısı kurarak bu sorunu çözmeyi hedefliyor ve 70 milyon dolar yatırım aldı.
Robot Eğitiminde Veri Krizi
OpenAI, 2021'de kapattığı robotik programını yeniden başlatacağını duyurdu. Bu, büyük yapay zeka laboratuvarlarının fiziksel dünyada çalışabilen makineler geliştirme yarışında olduğunun en son işareti. Ancak yetenekli robotlar inşa etmek, yapay zeka endüstrisinin henüz sahip olmadığı bir şeyi gerektiriyor: dil modelleri için kullanılan veriye eşdeğer eğitim verisi. Bu boşluk, yeni bir tür altyapı işi yaratıyor.
Dil modelleri (LLM'ler), internetteki geniş metin deniziyle eğitilirken, robotlar fiziksel etkileşimi yakalayan verilere ihtiyaç duyar ve bu tür veri neredeyse hiç yok. YouTube videoları ve serbest çalışanlar tarafından toplanan görüntüler düşük kaliteli ve fiziksel dünyayla uyumlu hale getirilmesi zor.
XDOF: Veri Toplama Altyapısı Girişimi
XDOF ("eks-dof" okunur), bugün gizlilikten çıkarak yapay zekadaki bir sonraki büyük darboğazın modeller veya çipler değil, robotlara fiziksel dünyayla etkileşimi öğretmek için gereken veri geri bildirim döngüsü olduğuna bahse giriyor. Girişim, öncü laboratuvarların ve robotik şirketlerinin kolayca kendi başlarına inşa edemeyeceği veri hatları, toplama araçları ve etiketleme sistemleri kurmayı hedefliyor. Bu amaçla Thrive Capital, Spark Capital, a16z, Lux ve WndrCo'dan 70 milyon dolar yatırım aldı.
Yaklaşık 60 çalışanı olan XDOF, aralarında birkaç öncü yapay zeka laboratuvarının da bulunduğu 20 müşteriyle çalışıyor ancak isimlerini veremiyor. Kurucu ortak ve CEO Philippe Wu, "Tüm büyük laboratuvarlar robotiğe yönelmeye çalışıyor. Dil modeli yarışında biraz geri kalmanın bazı dezavantajlarını gördük... bu teknolojiyi çok geç takip etmek istemezsiniz ve herkes fiziksel yapay zekanın bir sonraki sınır olduğu görüşünde" diyor.
Veri Toplama Zorlukları ve GELLO Projesi
Wu, bu sorunla UC Berkeley'de doktora öğrencisiyken karşılaştı. Odak noktası, robotların büyük ölçekli veri kümelerinden beceriler öğrenmesini sağlamaktı. Tek bir sorun vardı: "Çalışacak büyük ölçekli verimiz yoktu. Önce veri toplamamız gerekiyordu, sonra robotlar için temel model (foundation model) nasıl eğitilir diye sorabilirdik."
Wu ve gelecekteki XDOF kurucu ortağı ve CTO'su Fred Shentu, bir insan operatörün robotik bir kolu kontrol ederek eğitim verisi üretmesini sağlayan düşük maliyetli bir uzaktan kumanda sistemi olan GELLO projesi üzerinde çalıştı. Wu, "Robotikte çok etkili bir makale oldu, çünkü birçok insan benzer ihtiyaçlar ve darboğazlar yaşıyordu ve birçoğu veri toplama için bu tür bir cihazı kullanmaya başladı" diyor.
Fırsatı gören Wu, Shentu ve üçüncü kurucu ortak ve COO Nemo Jin, Ekim 2024'te XDOF'u kurarak robotik modelleri üzerinde çalışan şirketlere veri ekosistemi sağlamayı hedefledi. Sadece veri sağlamanın çıkmaz bir iş olabileceğinin farkında olan şirket, aynı zamanda veri temizleme, araç geliştirme ve etiketlemeye odaklanarak robot eğiticileri için kendini besleyen bir geri bildirim döngüsü oluşturuyor.
ABC Veri Kümesi ve Üç Katmanlı Veri Stratejisi
Başlangıç noktası olarak XDOF, UC Berkeley'in Yapay Zeka Araştırma Laboratuvarı ile işbirliği yaparak şimdiye kadar toplanmış en büyük yüksek kaliteli robot eğitim verisi olduğuna inandıkları ABC'yi yayınladı. Veri kümesi 130.000 robot manipülasyon yörüngesi, 300 saat simülasyon ve 100 saat değerlendirme içeriyor. Bu ölçekte ön eğitim verisi daha önce akademiye sunulmamıştı.
Ekip, veriyi kullanarak tişört katlama, kutuları düzleştirme veya AirPod'ları kutusuna yerleştirme gibi kıyaslama görevlerinde robotları eğitti. Şirket, bir veri piramidinin üç katmanında çalışmayı planlıyor. En değerli katman, kullanılan gerçek robottan toplanan uzaktan kumanda verisi; ikinci katman, GELLO gibi daha genel veri toplayan uzaktan kumandalı robotlar; üçüncü katman ise insanların günlük görevleri yaparken topladığı "benmerkezci" (egocentric) veri. XDOF, bunun için kendi giyilebilir sensörlerini geliştirmeyi planlıyor.
Wu, "Kamera seçiminiz veri kalitesini etkiler, bu da el takip algoritmanızın performansını etkiler. Donanımı baştan iyi tasarlamazsanız, topladığınız verinin öngörmediğiniz belirli sorunları olabilir" diyor.
Neden Önemli?
XDOF, dünya çapında uzaktan kumanda operatörleri ve benmerkezci veri operatörleri ordularını işe alıp eğitmeyi planlıyor. Bu emek yoğun model, akla şu soruyu getiriyor: Büyük laboratuvarlar neden bu veri üretim işini kendileri yapmıyor? Wu, "Yüzbinlerce metrekarelik bir depoya, yüzlerce robota ihtiyacınız var. Bu robotları bakımını yapmalı, fiziksel parametrelerini kalibre etmeli ve operatörleri uygun şekilde eğitmelisiniz" diyerek bunun odak, sermaye ve operasyonel ölçek gerektiren bir yatırım olduğunu ve çoğu yapay zeka laboratuvarının bunu dışarıdan almayı tercih edeceğini belirtiyor. İşte XDOF'un bahse girdiği pazar tam olarak bu.
XDOF ismi, robotik terimi "serbestlik derecesi"nden (degrees of freedom) geliyor. İnsan kolunun omuzdan bileğe yedi serbestlik derecesi varken, Figure.AI'nin son insansı robotu 30 serbestlik derecesine sahip. Şirket adındaki X, "keyfi serbestlik dereceleri, sınırsız serbestlik dereceleri" anlamına geliyor. Bu da XDOF'un fiziksel yapay zeka için veri altyapısında ne kadar iddialı olduğunu gösteriyor.