Dijital

SORA: Bir Yapay Zeka Macerası

2010’lu yıllarda San Francisco’da kurulan yapay zeka tabanlı bir şirket olan OpenAI, son birkaç yıldaki üretkenliğiyle hayatlarımıza damga vurmaya devam ediyor. Elon Musk’ın da kurucu ortaklarından olduğu bu şirketin farklı amaçlara hizmet eden birçok çalışması mevcut. OpenAI, yapay zeka teknolojilerini yeniden şekillendiren yenilikçi ürünleriyle, hem endüstrilerdeki devrimci değişimlere hem de günlük yaşamımıza önemli katkılarda bulunuyor.

Peki siz geleceğe damga vuracağı öngörülen bu ürünler konusunda ne kadar bilgi sahibisiniz? Her geçen yıl bir öncekinin üstüne koyarak ilerleyen Open AI’a ait ürünlerden hangisini duydunuz? 

Kendisine verilen metin komutlarından statik görseller yaratan Dall-E mi? Kod yazma konusunda taşları yerinden oynatacak OpenAI Codex mi? Yoksa metinlerimize eşsiz cevaplar verip bize modern Güzin Ablalık yapan ChatGPT mi? 

Hiçbirini duymamış olmanız da olası ancak en azından birini bir kere de olsa denemenizi öneriyorum. (Çoğunun deneme sürümü mevcut) Böylece teknolojinin bu kadar kısa zamanda ne kadar şaşırtıcı ve faydalı hale geldiğini keşfedeceksiniz. Ancak bugünkü konumuz ne Dall-E, ne ChatGPT ne de OpenAI Codex… Peki bugünkü konumuz ne? diye SORAbilirsiniz.

Bugün üzerinde konuşmak istediğim ürün, geçtiğimiz günlerde izlediğim bir videoda gördüğüm AI destekli video oluşturucu SORA. Tamamen tesadüfen keşfetime düşen videoda gördüklerim beni çok şaşırttı. Sebebi ise basit: SORA, sadece yazı yazarak akıl almayacak derecede gerçekçi videolar yaratmaya sağlayan bir yapay zeka aracı.

Videoyu izledikten sonra aklıma gelen sorular: Sunum hazırlarken, kısa sürede oluşturup içine ekleyeceğim eğlenceli kısa videoları oluşturabilmek nasıl olurdu? Ya da evimde otururken aklımda oluşturduğunuz bir film fikrini sadece birkaç cümlelik girdilerle video haline getirme fikri sizi heyecanlandırmaz mı? Alternatif bir Yüzüklerin Efendisi filmi çekmek şahsen beni çok heyecanlandırıyor. SORA tüm bunları yapabilir mi? Peki SORA tam olarak nedir? Neler yapabiliyor? Gelin bu kısımlara beraber bakalım. 

SORA neler vaadediyor?

Yapay zekanın geldiği ama asla durmayacağı en güncel nokta olan SORA bize ne vadediyor?  İlk olarak geçtiğimiz senenin Şubat ayında tanıtılan SORA’nın ismi Japonca “Gökyüzü” anlamına geliyor. İngilizce’deki “Sky is the limit” yani “Sınırsızlık” anlamıyla bağdaşlaşıyor. Yaratıcılıkla özdeşleşen bir araç için oldukça anlamlı bir isim.

En basit haliyle OpenAI bu toolu bize yazı yazarak video üretmemizi sağlayacak şekilde tasarlamış. Tanıtım videolarını incelediğimde ilk dikkatimi çeken şey gösterdikleri videoların gerçekten ayrılamayacak kadar detaylı gözüktüğü oldu.Videoların hepsi elbette böyle değil çünkü yazdığınız komut ve video türüne göre oluşturulan görüntü değişebiliyor. Ancak kesin olan bir şey var ki karşımıza çıkan şey tek kelimeyle şaşırtıcı.

Yapay zeka destekli her üründe olduğu gibi şu anda SORA’nın bazı zayıflıkları olsa da sunduğu sonuçları profesyonel olarak hazırlanmış bir videoyla ayırt etmek çok zor görünüyor. 

Bu arada yazılan metinleri videoya çevirmek dedik ancak SORA’ya görsel de yükleyebiliyorsunuz. Nasıl ki Stable Diffusion’a görsel yüklendiğinde benzer çizimler üretebiliyorsa SORA da bunu videolu olarak yapabiliyor. Yani text-to-video yanında image-to-video özelliği de mevcut.

OpenAI, SORA’nın dil kavrayışının çok derin olduğunu, bundan dolayı canlı duyguları ifade edebilen ilgi çekici karakterler üretme konusunda çok başarılı olduğunun altını çiziyor. OpenAI’a göre Sora’nın arkasındaki teknoloji, DALL-E 3’ün teknolojisinin bir uyarlaması. Çalışma mantığı ise arama motorlarıyla neredeyse aynı. Bu noktada yapay zekaya sunulacak olan örneklemin çeşitliliği oldukça mühim. Teknik tabirle ise Diffusion Transformer adı verilen bir modelle çalışıyor. Yani yapay zeka üretim yapmadan önce verdiğiniz komutla ilgili daha önce gördüğü sonuçlara göre gerçeğe en yakın sunumlar yapabiliyor. (Fizik kuralları konusunda o kadar iyi olmadığının da altını çizelim) Daha önce gördüğü videoları küçük parçalara bölüyor ve daha sonradan işleyebilmesi için komuta göre bir araya getiriyor.

OpenAI, modeli halk arasında erişilebilir videolar ve lisanslı telifli videolarla eğittiğini belirtse de videoların sayısı veya tam kaynağı açıklanmadı. Bazı noktalarda ise yazılım kendiliğinden öğrenimle 3 boyutlu düşünerek kamera hareketiyle beraber nesneler veya insanların nasıl görünebileceğini kendisi öğrenmiş. Örneğin: Okyanus’taki bir gemiyle beraber yüzen bir balinanın videosunu oluşturacaksınız. SORA, bir balinanın yüzgeçlerini nasıl kullandığı ve okyanustaki ortalama bir gemi ile ebat farkı konusunda kendisine öğretilmiş verilerden hareketle size bir sonuç çıkarıyor. Geminin hareketiyle balinanın yüzerkenki hareketlerini doğru tahmin edebiliyor. Ancak komutlarımızdaki karmaşıklık dolayısıyla istediğimizi net olarak verme konusunda henüz mükemmel durumda değil. Kadrajdaki ana karakteri çoğu zaman gerçeğe yakın yansıtsa da arka planda hareket halindeki dünyayı yaratma da hala bazı eksiklikleri var. Bu da bizi sınırlarının ne olduğu konusuna getiriyor.

Kapasite ve Yetenek 

SORA’nın yapabileceklerini düşünürken en az benim kadar heyecanlandığınızı düşünüyorum. Sonuçta yapay zekanın insan hayatını bu kadar kolaylaştırdığı bir çağda bu tür teknolojilerin bize neler katacağı çok farklı şeyler hayal ettiriyor. 

Video içeriği üretmek isteyenlerin karmaşık sahneler tasarlamak için başvurabileceği oldukça faydalı olabilecek bu araç; birden fazla karakter, farklı hareket türleri ve ayrıntılı arka plan detayları gibi unsurları, basit metin komutlarından oluşturabiliyor.

SORA’nın bize çok şey hayal ettirdiği açık ancak emekleme dönemindeki her yenilik gibi onun da bazı sınırları mevcut. Tahmin edebileceğiniz gibi kendisiyle sınırsız uzunlukta videolar üretemiyorsunuz ancak 1 dakikaya kadar üretebildiği HD videoları birleştirerek anlamlı bir bütün oluşturacak şekilde film bile çekebilirsiniz. 

Kendisi ayrıca mevcut videolarda yer alan eksik kareleri doldurabiliyor ve birden fazla videoyu bir araya getirebiliyor. Aynı zamanda sonsuz döngüde video üretme yeteneğine de sahip. Yani başı ve sonu birbiriyle kusursuz biçimde eşleşen bir video oluşturarak döngü yaratabiliyor. Henüz film uzunluğunda bir çalışmasını görmesem de bu tür yapımların da yakın zamanda görücüye çıkacağını düşünüyorum. 

Open AI geçtiğimiz senenin başlarında tasarımcılar ve film yapımcılarından oluşan bir test grubuna sunulduğunda bile ortaya oldukça görkemli çalışmalar çıkmıştı. Hepsinin kullanımdan sonraki ortak fikrinde maddi ve teknik kısıtlamalardan dolayı üretemedikleri detayları SORA vasıtasıyla üretebilecek olmanın heyecanı vardı. Bu detay bile elimizdeki aracın ne denli üst düzey olduğunu gösteriyor.  

SORA AI ile İçerik Üretiminde Neler Değişecek?

OpenAI’ın diğer bir ürünü olan Dall-E’nin başındaki isim olan Aditya Ramesh aynı zamanda SORA ekibinin de yöneticilerinden. SORA’yı oluşturan ekip gelecekte yapay zeka ile üretilen videoların gerçek videolardan ayırt edilemez hale gelmesinin mümkün olabileceğine inanıyor. Sahte AI videolarını engellemek amacıyla, OpenAI, Sora için OpenAI’nin DALL-E için tanıtılan sınıflandırıcıyı uyarlamayı planlıyor. Ekibin lideri Aditya Ramesh, bu sınıflandırıcının, bir görüntünün DALL-E 3 ile mi yoksa başka bir yöntemle mi oluşturulduğunu güvenilir bir şekilde tespit edebileceğini belirtiyor.

İşini kaybetme olaslığı olanlar için büyük bir kaygı olsa da film sektöründe çalışan çoğu kişi de SORA’nın olumlu tarafını düşünüyor. Özellikle basit komutlardan gerçekçi videolar oluşturma yeteneği, profesyonel kameramanlar, film yapımcıları ve pazarlamacılar arasında büyük bir heyecan yaratmış durumda. Bağımsız çalışan ve limitli bütçesi olan yönetmen adayları için de kendi film senaryolarını yazıp birkaç saat içinde izleyebilmelerine olanak tanıyabilir. 

Aşağıda paylaştığım örnek video ile “montaj bu” demenin en üst seviyesini yaşayacağımız bir çağa giriyoruz diyebiliriz. Montaj olan videolarda görülen vücut orantısızlığı, ten rengi uyumsuzluğu gibi durumlardan anlayabildiğimiz durum artık çok daha uyumlu bir noktaya evrilmiş olacak.

Bunun yanında SORA, beyaz perdenin ikonik hala gelmiş ancak aramızdan ayrılan aktör/aktrisleri son derece gerçekçi şekilde yeniden görmemizi sağlayabilir. Bu durum bazı filmlerde VFX artistlerin eforlarıyla hallediliyor olsa da herhangi bir insan müdahalesi olmadan yapılacak olması ayrıca heyecan veriyor. Fast Furious’un 2013 yılında vefat eden aktörü Paul Walker’ın Weta Digital’in katkılarıyla kardeşinin yüzü ve vücut dublörüyle yeniden hayat bulmasını unutmadık…

SORA ile ilgili yorumlardan bir tanesi de eski Dreamwork Animation’un eski CEO’su Jeffery Katzenger’den geldi. Singapur’daki Bloomberg Yeni Ekonomi Forumu’nda konuşan eski CEO: “Eski güzel günlerde, bir animasyon filmi yaptığımda, 500 sanatçının 5 yılını alıyordu. Şimdi bunun %10’unu alacağını düşünüyorum. Üç yıl sonra bunun %10’unu alacağını sanmıyorum.” derken SORA’ya da selam çaktı. Katzenberg, bunun doğal bir ilerleme olduğunu düşünüyor: “Biz, kalemden fırçaya, matbaanın icadından sabit kameraya, film kamerasına geçtik. Bu araçlar yaratıcılığı ve tüm hikaye anlatımını olağanüstü şekillerde genişletti.”

Zaman içindeki gelişimiyle beraber Sora ile bir video oluşturmanın süresi, birkaç faktöre bağlı olarak değişse de verimliliği mutlaka artacaktır. Araştırmacılara göre bu süreç genellikle bir fincan kahve yapacak kadar uzun sürebilir. Harika değil mi?

Peki OpenAI’ın, gerçekliği modellemenin ilk adımı olarak gördüğü Sora’nın hiç eksisi yok mu? Elbette var. Bazı noktalar tam eksi sayılmasa da birçok kişi tarafından soru işaretleri barındırdığı da açık. 

Eksileri

SORA’nın hayal ettirdikleri heyecanlandırsa da her teknoloji gibi kendisinin de eksileri mevcut. Geliştirmeyle beraber daha iyi duruma geleceği öngörülen özelliklerin yanında bazı endişelerden de burada bahsedeceğim. 

Öncelikle şunu iyi anlamak gerekiyor ki kendisi sizin ona prompt ettiğiniz (yapay zekaya belirli bir görev için verilen talimat, yazı) görevi tamamlamaya çalışırken her isteğinizi harfiyen gerçekleştiremeyebiliyor. Özellikle kompleks sahnelerin fiziğini simüle etmekte zorlanabilir diyorlar, örnek olarak bir kişi kurabiyeden ısırık alsa bile sonrasında kurabiyede ısırık izi olmayabilir. Şu an emekleme döneminde olduğu için sağ ve sol gibi yönleri karıştırabiliyor.  Bir sahnenin fiziksel yönlerini veya olayların zaman içindeki ilerleyişini doğru bir şekilde simüle etme yeteneği biraz “belirsiz” olabilir diye de not düşülmüş. Stable Diffusion kullandığımda karşıma çıkan statik oluşumlarda bile bu tür sıkıntılar yaşayabiliyorken videolarda da yaşanması bana oldukça normal geldi.

Bir diğer konu ise tahmin edebileceğiniz gibi +18 içerik. Open AI açıklamalarında Sora’nın genel kullanıma sunulmadan önce zararlı veya uygunsuz içerik üretmediğinden emin olunmak için test edildiği de belirtti. Model, en yararlı olacak şekilde nasıl geliştirilebileceği konusunda geri bildirim almak amacıyla ilk önce sadece görsel sanatçılar, tasarımcılar ve film yapımcılarından oluşan küçük bir grubun erişimine sunuldu. Kötü niyetli kullanıcılar için her geçen gün daha da katı kurallar uygulanacağı da garanti edilmiş durumda. Tabi bu ne kadar etkili olacak soru işareti içeriyor. 

Diğer bir konu ise sessizlik.SORA’nın kapasitesinden bahsederken birden fazla temada gerçeğe yakın çalışmalar yapabileceğinden bahsetmiştik.“Gerçek dünya”, “çizgi film” ve “CGI” tarzı videolar oluşturma kapasitesine şimdiden sahip olsa da bu videolar henüz ses içermiyor. Bu konu elbette ayrı bir yapay zeka konusu. AI tabanlı ses oluşturma tamamen farklı bir konu. OpenAI çalışanları videoyla beraber ses üretimi konusunda bir çözüm bulacaklardır ancak bunun da hatırı sayılır bir süre alacağı kesin. 

Yazının önceki bölümlerinde bahsetmiş olsak da karmaşık simülasyon konusunda SORA’nın harikalar yaratmadığını bir kez daha vurgulamamız gerekiyor. OpenAI üreticileri, Sora’nın bazı karmaşık fiziği simüle etme, nedenselliği anlama ve sağ ile sol arasındaki farkı ayırt etme konularında zorluk yaşadığını kabul ediyor. OpenAI ayrıca, şirketin mevcut güvenlik uygulamalarına uygun olarak, Sora’nın cinsel, şiddet içeren, nefret dolu ya da ünlü imajlarına dair metin istemlerini ve mevcut fikri mülkiyet içeren içerikleri kısıtlayacağını belirtti.

Yakın Gelecek

SORA ve benzeri teknolojilerin ilerlemesiyle birlikte, ses mühendisleri, seslendirmenler, konsept sanatçılar, görsel efekt uzmanları ve diğer post-prodüksiyon pozisyonlarının giderek yapay zeka araçlarıyla değiştirilebilir olması muhtemel görünüyor. Geçen senenin başında yapılan bir araştırma, Hollywood’daki 300 lideri inceleyerek önümüzdeki üç yıl içinde 204.000’den fazla pozisyonun yapay zeka tarafından olumsuz şekilde etkilenebileceğini öngördü. Bu tabi ki olası bir sonuç ancak şunu da unutmamak gerekir ki her ne kadar benzer işlerle ilgilenen kişileri işsizlik korkusu sarsa da bu tür teknolojileri kullanmayı bilen uzmanlar için de farklı iş alanı fırsatları yaratacaktır.

Olumlu yönlerden biri de, AI odaklı bu tür araçların yaratıcılığı daha da arttırarak çok daha verimli işlere imza atması. Bütçesi kısıtlı ancak yaratıcı fikirleriyle ön plana çıkmak isteyen kişilerin bu yeteneğini tatmin edici işler oluşturmasında büyük rol oynayabilir. 

Herkesin heyecanını bir kenara koyarsak, video prodüksiyonu ve pazarlamanın büyük bir değişimin eşiğinde olduğunu söyleyebiliriz. Kabul etmek gerekiyor ki beğenilse de beğenilmese de tüm endüstrilerdeki yaratıcılar AI’ye uyum sağlamayı ve onu bir tehdit yerine bir optimizasyon aracı olarak kabul etmeyi öğrenmek zorunda kalacaklar.

Geçen senenin başında Open AI, model üzerinde karşıt testler yapmak amacıyla kullanımı küçük bir deneme grubuna sınırlı erişim vermişti. Sınırlı erişim verilen kişiler SORA’nın farklı alanlarda faydalılığını değerlendirmek için video yapımcıları ve sanatçılar gibi profesyonellerden seçilmişti. 9 Aralık 2024 itibarıyla, OpenAI Sora’yı tüm ChatGPT Pro ve ChatGPT Plus kullanıcılarına sundu. (Linke tıklayarak SORA’yı deneyimleyebilirsiniz) Arayüzündeki gibi keşfet kısmında diğer kullanıcıların hangi komutla nasıl videolar ürettiğini görebileceğiniz bir keşfet kısmı da mevcut.

ChatGPTpro ve ChatGPTplus kullanıcıları için farklı modeller olmasa da plus kullanıcıları aylık 50 priority video üretebiliyorken  (5 saniye sınırı ve 720p sınırı ile), pro kullanıcıları ise aylık 500 priority video üretebiliyor. (20 saniye ve 1080p sınırı ile). aynı zamanda pro kullanıcıları watermark olmadan videoları indirebiliyor ve sınırsız sayıda relaxed video üretebiliyor.

Yazımın sonuna gelirken, Sora’nın AI konusunda devrim yaratabilecek büyük bir potansiyele sahip olduğu konusunda aynı fikirdeyiz diye düşünüyorum. SORA bu gidişle yakın gelecekte video prodüksiyonundan pazarlamaya kadar birçok alanda maliyetleri düşürerek yenilikçi içeriklerin üretimini mümkün kılacak. Ancak OpenAI’ın bu tür güçlü araçların beraberinde getirdiği etik ve güvenlik sorunlarını da çözmesi gerekecek. Sora’nın geleceği, yalnızca teknoloji geliştikçe nasıl evrileceğine değil, aynı zamanda onu doğru ve sorumlu bir şekilde kullanmanın yollarıyla da alakalı olacak.Yapay zekanın insan yaratıcılığıyla birleşerek daha önce hayal bile edilemeyen yeni işlere imza atacağı bir döneme girdik bile. Bu noktada yeniliklere geç kalmayıp çağa ayak uyduranlar şüphesiz çok daha avantajlı olacaktır.

Bir sonraki yazıya dek, hoşçakalın…

Join The Discussion