Yapay zeka ile ilgili sürekli bir gelişme halindeyiz. Her gün kendini hızla yenileyen bu teknolojiyi takip edebilmek bile kolay değil. Yapay zeka dediğimizde ise hiç şüphesiz OpenAI’ın aklımıza gelmediği bir an yok gibi. Özellikle de ChatGPT ile yapay zekayı dünyada bu kadar yaygın hale getiren şirket, şu ara dünyanın en gözde şirketi olabilir. Ama bu yazımın asıl konusu yapay zekayı genel olarak ele almaktan öte beni ve pek çok kişiyi fazlasıyla heyecanlandıran Sora olacak. Sora ezberleri yıkmaya gelmiş gibi ve halen videoları tekrar tekrar izlediğimde gördüklerimin gerçekçiliğine şaşırıp kalıyorum. Peki Sora gerçekten bizim için ne ifade ediyor? Sora hayatımızı nasıl değiştirecek?
OpenAI haftalar önce büyük ses getiren en son teknolojisi Sora’yı duyurdu. Henüz halka kapalı, yani maalesef kullanamıyoruz. Ama örnek pek çok video da paylaştılar ve sonuçlar gerçekten inanılmaz. Bu metinden videoya üretken yapay zeka modeli şu ana kadar inanılmaz derecede etkileyici görünüyor ve birçok sektörde büyük bir potansiyel sunuyor.
Sora Nedir?
Sora, OpenAI’nin metinden videoya üreten yapay zeka modeli. Yani siz bir metin sorusu yazarsınız, o da sorudaki açıklamayla eşleşen bir video oluşturur. Olay bu kadar basit.
Komutu şöyle yazalım mesela: Şık bir kadın, sıcak neon ışıkları ve hareketli şehir tabelalarıyla dolu bir Tokyo caddesinde yürümektedir. Siyah deri bir ceket, uzun kırmızı bir elbise ve siyah botlar giymiş ve siyah bir çanta taşımaktadır. Güneş gözlüğü takıyor ve kırmızı ruj sürüyor. Kendinden emin ve rahat bir şekilde yürüyor. Cadde nemli ve yansıtıcı, renkli ışıkların ayna etkisi yaratıyor. Birçok yaya yürümektedir.
Bu şekilde bir talepte bulunduğunuzda Sora size olabildiğince gerçeğe yakın bir video oluşturuyor ve sonuca hayran kalıyorsunuz. Bunun gibi pek çok farklı senaryoda kendi hikayenizi videoya dökebilir, kendi filminizi çekip hikayenizi yaratabilirsiniz.
Sora Nasıl Çalışıyor?
DALL-E 3, StableDiffusion ve Midjourney gibi metinden görüntüye üreten yapay zeka modelleri gibi Sora da bir difüzyon modeli. Bu, videonun her karesinin statik gürültüden oluşmasıyla başladığı ve görüntüleri kademeli olarak istemdeki açıklamaya benzeyen bir şeye dönüştürmek için makine öğrenimini kullandığı anlamına geliyor. Sora videoları 60 saniyeye kadar uzunlukta oluşturabiliyor.
Zamansal Tutarlılık
Sora’daki yeniliklerden biri, aynı anda birden fazla video karesini dikkate alması; bu da nesnelerin görüntüye girip çıktıklarında tutarlı kalması sorununu çözüyor. Bu da videolardaki gerçekçiliği daha da artırıyor.
Sora, GPT tarafından kullanıldığı gibi bir difüzyon modelinin kullanımını bir transformatör mimarisi ile birleştiriyor. Sora, kullanıcı komutunun özünü aslına sadık kalarak yakalamak için DALL-E 3’te de mevcut olan bir özetleme tekniği kullanıyor. Bu, herhangi bir video oluşturulmadan önce, GPT’nin kullanıcı istemini çok daha fazla ayrıntı içerecek şekilde yeniden yazmak için kullanıldığı anlamına geliyor. Esasen, bu bir tür otomatik komut istemi mühendisliği.
Sora’nın Sınırları Var mı?
OpenAI, Sora’nın mevcut sürümünün çeşitli sınırlamalarına dikkat çekiyor. Sora örtük bir fizik anlayışına sahip değil ve bu nedenle “gerçek dünya”daki fizik kurallarına her zaman uyulmayabilir. Bunun bir örneği, modelin neden ve sonucu anlamaması.
Güvenilirlik
Sora’nın güvenilirliği şu anda belirsiz. OpenAI’deki tüm örnekler çok yüksek kalitede, ancak ne kadar seçme yapıldığı belli değil. Metinden görüntüye araçları kullanırken, on ya da yirmi görüntü oluşturmak ve ardından en iyisini seçmek yaygın bir durum. OpenAI ekibinin duyuru makalesinde gösterilen videoları elde etmek için kaç görüntü oluşturduğu belli değil. Kullanılabilir tek bir video elde etmek için yüzlerce veya binlerce video oluşturmanız gerekiyorsa, bu Sora’nın yayılması için bir zorluk oluşturabilir. Bu soruyu yanıtlamak için aracın yaygın olarak kullanılabilir hale gelmesini bekleyeceğiz.
Sora Ne İşimize Yarayacak?
Sora, sıfırdan videolar oluşturmak veya mevcut videoları daha uzun hale getirmek için kullanılabilir. Ayrıca videolardaki eksik kareleri de doldurabilir. Metinden görüntüye üretken yapay zeka araçlarının teknik görüntü düzenleme uzmanlığı olmadan görüntü oluşturmayı önemli ölçüde kolaylaştırdığı gibi, Sora da görüntü düzenleme deneyimi olmadan video oluşturmayı kolaylaştırmayı vaat ediyor. Diğer bir deyişle kod bilmeyen biri yapay zeka ile kod yazabileceği gibi, video ve prodüksiyon tarafından uzak olanlar Sora ile harikalar yaratabilir.
Sora, TikTok, Instagram Reels ve YouTube Shorts gibi sosyal medya platformları için kısa biçimli videolar oluşturmak için kullanılabilir. Filme alınması zor veya imkansız olan içerikler özellikle uygun.
Reklamlar, tanıtım videoları ve ürün demoları oluşturmak genel olarak pahalı. Sora gibi metinden videoya yapay zeka araçları bu süreci çok daha ucuz hale getirmeyi vaat ediyor.
Yapay zeka videosu nihai bir üründe kullanılmasa bile, fikirleri hızlı bir şekilde göstermek için yararlı olabilir. Film yapımcıları sahneleri çekmeden önce maketlerini yapmak için yapay zekayı kullanabilir ve tasarımcılar da ürünleri inşa etmeden önce videolarını oluşturabilir.
Bir başka yazımda Sora’nın olası zararlarına da değineceğim.