Yapay zeka ile gerçekçi videolar yolda: Sora

Yapay zeka şirketi Open AI, ChatGPT’den sonra şimdi de Sora uygulamasıyla konuşuluyor. Metin talimatları girerek gerçekçi bir video oluşturulmasını sağlayan, şu an riskleri değerlendirmek için kısıtlı bir kitlenin kullanımına açılan Sora için en önemli konu güvenlik ve fikir mülkiyeti.

Şu an red teamers tarafından test ediliyor

Metin talimatları alarak yaratıcı videolar oluşturan yapay zeka uygulaması Sora, Open AI’nin görsel oluşturan yapay zeka uygulaması DALL·E ve metin oluşturan yapay zeka sohbet uygulaması ChatGPT için yapılan detaylı çalışma ve araştırmaların bir sonucu. Bir dakika uzunluğunda yüksek kaliteli video oluşturulmasını sağlayan uygulama, şu an için kısıtlı bir kullanıcı kitlesine (Red teamers-Kırmızı ekip üyeleri) sunuluyor. Nedeni ise Open AI’nin bu sayede geri bildirim alabilmesi, potansiyel riskleri ve hataları izleyebilmesi. Şimdilik görsel sanatlar alanında çalışan, tasarım yapan ve film yapımcısı olan profesyonellerden oluşan bir kitleye açılan Sora ile çok sayıda karakterli, birçok hareketi içeren, ayrıntıların yer aldığı videolar yapmak mümkün.

Bir görseli hareketlendirerek video üretilebiliyor

Sora’nın üstün dil anlama yeteneği, videodaki karakterlerin doğru histe olmasını sağlıyor. Ayrıca uygulamada, birbirleriyle uyumlu birden fazla çekim açısı oluşturulabiliyor, detayları geliştirerek video süresini uzatılabiliyor, her görüntü gerçek dünyada nasıl göründüğüne veya görünebileceğine uygun işleniyor. Video oluşturabilmek gibi hareketsiz bir görsel üzerinden de video tasarlayabilen Sora, eksik kareleri doldurabilmek gibi bir yeteneğe de sahip.

Bu video oluşturulurken Sora’ya girilen İngilizce metnin Türkçesi şöyle: “Birkaç dev mamut, karlı bir alanda yürüyerek yaklaşıyor. Yürürlerken, uzun yünlü kürkleri rüzgarda hafifçe uçuşuyor. Ağaçlar ve uzaktaki dağlar karla kaplı, öğleden sonra gün ışığı var. Alçak kamera görüntüsü mamutları güzel karelerle ve alan derinliğiyle yakalıyor.”

Tabii ki güvenlik, en önemli başlık

Şimdilik Sora’nın tek kullanıcısı olan Red teamers, uygulamayı güvenlik açısından detaylıca test ediyor. Open AI yetkilileri; önyargı, yanlış bilgi ve nefret söylemi konularında da çalıştıklarını belirtiyor. Üretilen videonun detaylarını, ne zaman ve nasıl üretildiğini yani kaynağını anlayabilen bir algılayıcı araç üzerinde de çalışan Open AI; görünen o ki veri doğruluğunda, fikir mülkiyeti ve kaynak belirtme konularında da hassas.

Open AI’ın metin ve görüntü sınıflandırıcıları olarak adlandırdığı sistem; cinsellik, şiddet, nefret içeren metinleri engelleyebilirken tanınmış bir kişiye benzer karakter yaratıldığında ise fikir mülkiyetini korumak için uyarı veriyor. Open AI, bu konudaki görüşlerini almak, endişeleri giderebilmek, Sora’nın kullanımın avantajlarını anlatmak adına politikacılarla, sanatçılarla ve eğitmenlerle iletişim kuracağını belirtiyor. Şirket, Sora’nın son halini oluşturmadan önce gerçek zamanlı kullanımdan elde edilecek verileri inceleceğini söylüyor.

Başka bir video oluşturulurken Sora’ya girilen İngilizce metnin Türkçesi: “Saçları yapılı gri saçlı bir büyükanne, ahşap yemek masası üzerinde çok sayıda mum bulunan renkli bir doğum günü pastasının arkasında duruyor. Gözlerinde mutlu bir parıltıyla saf neşe ve mutluluk ifadesi var. Öne doğru eğiliyor ve mumları hafif bir nefesle söndürüyor. Pasta üzerinde pembe şekerlemeler var. Büyükanne çiçek desenli açık mavi bir bluz giyiyor. Birkaç mutlu arkadaş ve aile üyesi masada oturabilir. Büyükannenin ve yemek odasının 3/4'lük görüntüsünü gösteren sahne güzel bir şekilde çekilmiş, sinematik. Sıcak renk tonları ve yumuşak aydınlatmaya sahip.”

Sora’nın zayıflığı ise şöyle açıklanıyor: “Nesneler ve birden fazla karakter arasındaki karmaşık etkileşimleri modellemek zor. Mesela mumların sönmemesi ve karakterlerde alkışlama dışında gördüğümüz farklı hareketler.”

Open AI, Sora’nın eksikliklerini de açıklıyor

Open AI yetkilileri, son teknolojisi Sora’nın bazı becerilerinin henüz gelişmediğini belirtiyor. Örneğin sol ve sağı ayırt edemeyebileceği söylenen Sora, bazı fiziksel değişimleri algılamada ve neden sonuç ilişkisi kurmada şimdilik başarısız görünüyor. Yetkililer bu eksikliği şu şekilde açıklıyor; “Sora ile yapılan videoda, kurabiyeyi ısıran bir insan görmek istiyorsunuz. Sonraki karede kurabiye üzerinde ısırılan bölgeyi göremeyebilirsiniz. Yani doğru sonucu alamayabilirsiniz.” Tıpkı yukarıdaki videoda gördüğümüz mum örneğinde olduğu gibi.

Gerçek dünyanın fizik kurallarını her zaman algılayamayan Sora’nın eksiklikleri mevcut, tabii ki şimdilik. Sora’nın yapabildikleri şimdiden bu kadar iyiyken, kusursuz çalıştığı zaman neler göreceğimizi; yapılacak filmleri, reklamları, klipleri, sosyal medya içeriklerini veya fikir mülkiyeti konusunda çıkacak haberleri merakla bekliyoruz.

Kaynak:

https://openai.com/