Google, Gemini Omni ile görüntü, ses ve metni videoya dönüştürüyor

Google, üç yıl önce Gemini'yi tanıttığında, amacı metin, görüntü, ses ve video üzerinde eğitim almış tek bir sinir ağı oluşturmak ve bu formatlardan herhangi birinde içerik üretmekti.

YENİ MODELİN TANITIMI

Bugün Google I/O geliştirici konferansında, şirket bu hedefe yönelik somut bir adım atarak Gemini Omni'yi tanıttı. Google CEO'su Sundar Pichai, Omni'nin ``herhangi bir girişten her şeyi yaratabileceğini'' belirtti. Omni, kullanıcıların görüntü, ses, video ve metni bir araya getirerek, bu girdileri basitçe birleştirmek yerine, tüm bu unsurlar üzerinde düşünerek tutarlı bir çıktı üretmelerini sağlıyor. Sonuç, fizik, kültür, tarih ve bilim anlayışını yansıtan yüksek kaliteli videolar.

AVATAR VE SİNYAL İŞLEME

Omni, kullanıcıların karmaşık düzenleme yazılımları yerine basit metin komutlarıyla fotoğrafları düzenlemesine de olanak tanıyor. Google'ın mevcut video modeli Veo, metin ve görüntüleri videolara dönüştürmeyi mümkün kılarken, DeepMind ürün yönetimi direktörü Nicole Brichtova, bu sürümün Veo güncellemesinden daha fazlası olduğunu belirtti. Örneğin, Omni'ye ``protein katlanmasıyla ilgili bir stop-motion açıklayıcı video'' verildiğinde, birkaç saniye içinde bu isteği yerine getirerek eğitici bir video üretebiliyor. Uzun vadeli vizyon, seslerden görüntü üretmek veya videolardan ses çıkarmak gibi daha geniş bir kapsamı içeriyor. Pichai, Gemini'nin ilk duyurulduğunda, nitelikli çok modlu bir model olduğunu vurgulayarak, bunun dünyayı daha derin bir şekilde anlama fırsatı sunduğunu ifade etti. Kullanıcılar ayrıca, dijital avatarları ile videolar oluşturabilecek. Ancak derin sahtekarlıkları önlemek için, kullanıcıların kendilerini kaydettikleri ve bir dizi rakam söylemeleri gereken özel bir onboarding sürecinden geçmeleri gerekecek. Tüm bu gelişmeler, Omni Flash adlı ilk modelin tanıtımıyla birlikte geliyor. Flash, Gemini uygulaması, YouTube Shorts ve AI yaratıcı stüdyosu Flow'da kullanılacak. Brichtova, Flash'ın 10 saniyelik videolar oluşturabileceğini, ancak bunun bir model kısıtlaması değil, kullanıcıların daha uzun videolar istemeyeceği düşüncesine dayandığını belirtti. Google, Omni Flash'ı daha çok bir tüketici aracı olarak pazarlıyor ve kullanıcıların kişisel videolar oluşturmasını kolaylaştırmayı hedefliyor.

Sitemizin daha işlevsel hale getirilmesi için yasal mevzuata uygun çerezler kullanılır. Fikrini Söyle’yi kullanarak bu çerezleri kabul etmiş olursunuz. Çerez kullanımına ilişkin detaylı bilgilere çerez politikamız'dan ulaşabilirsiniz.