Video düzenlemek metin düzenlemek kadar kolay olabilir mi?

Yazılı metin düzenler gibi kayıt edilmiş konuşma görüntülerini de düzenlemek mümkün hale geliyor. Kaynak videodan ayırt edilemez kalitedeki sentezlenmiş videoların üretimi için algoritma yazma girişimi gelişiyor. Peki, bu yeni teknoloji, sermayenin yaratmak isteyeceği sahte gerçekliğe karşı güvenli hale getirilebilir mi? Büyük insanlığın çıkarına uygun nasıl değerlendirebiliriz?

soL - Bilim ve Aydınlanma / Serbest çeviri: Eda Şamiloğlu

Editörlerin videoları, videonun yazı metnini kullanarak değiştirebildiklerini hayal edin. Metin düzenleme işlemine benzer şekilde, videolara kolayca yeni kelime ekleyip çıkarabildiklerini ya da parçaları sürükleyip bırakarak videoyu tamamen yeniden düzenleyebildiklerini bir düşünün. Ve bu videoların sıradan izleyiciler için kusursuz göründüğünü…

İşte yeni bir algoritma ile video düzenleyicileri “konuşan kafa” videolarını sanki yazı kopyalayıp siliyormuş ya da kelime ekleyip çıkarıyormuş gibi kolayca değiştirebilmelerini sağlıyor. Standford Üniversitesi, Max Planck Bilişim Enstitüsü, Princeton Üniversitesi ve Adobe Rsearch’den bir araştırma ekibi omuzdan yukarısı görünen ve konuşan kişinin videolarını düzenleyen böyle bir algoritma yarattı.

VİDEO PARÇALARINDAN KONUŞMA HAREKETİ ÇIKARMAK İÇİN YAZI METNİ KULLANILIYOR

Uygulama çeşitli video parçalarından konuşma hareketleri çıkarmak için videonun yazı metnini kullanıyor ve makine öğrenmesini kullanarak bunları izleyiciye doğal görünen son hale dönüştürüyor. ACM Transactions on Graphics Dergisinde yayınlanacak ve ön çalışması arXiv websitesinde yayınlanmış olan çalışmanın ilk yazarı Ohas Fried yöntem hakkında “Görsel olarak sorunsuz. Hiçbir şeyi yeniden kaydetmeye gerek yok,” dedi.

DOĞAL GÖRÜRMESİ İÇİN ALGORİTMA HAREKET PARAMETRELERİNE AKILLI YUMUŞATMA UYGULANIYOR

Konuşma metni düzenlenirken algoritma yeni videoyu üretmek için dikilebilecek hareket ile kaydedilmiş videodaki herhangi bir yerden bölümleri seçiyor. Seçme işleminde daha önce bahsettiğimiz otomatik olarak konan açıklamalar kullanılıyor. Bu video segmentlerinin ham formlarında, yine de uyumsuz atlanmış parçalar ve diğer görsel kusurlar oluyor. Bu yüzden videonun daha doğal görünmesini sağlamak için algoritma hareket parametrelerine akıllı yumuşatma uygulanıyor ve istenen sonucun 3D animasyonlu bir sürümünü oluşturuyor. Ancak görselleştirilen yüz hala tam olarak gerçekçi olamıyor ve son aşamada Neural Rendering diye bir makine öğrenmesi tekniği düşük kaliteli dijital modeli mükemmel dudak senkronizasyonuyla fotogerçekçi bir videoyu dönüştürüyor.

Sistemin kapasitesini test etmek için araştırmacılar kelime ekleme, silme ve değiştirme aynı zamanda farklı bir dile çevirme ve tam bir cümle yaratma gibi bir seri karmaşık düzenleme gerçekleştirmiş. Üstelik çalışmalarını 138 kişilik bir katılımcı gruba izletmiş. Katılımcılar, videoların yüzde 60’lık kısmı “neredeyse gerçek” diye tanımlamış.

NERELERDE KULLANILABİLİR?

Televizyon ve filmlerde aktörler performanslarında sıkça küçük gaflar yaparlar ya da kritik bir kelimeyi unuturlar. Filmli diyalog sahneleri, çoğu zaman küçük senaryo değişikliklerinden dolayı sıkıcı manuel çalışma gerektiren yeniden zamanlama ve ya düzenleme gerektirir. Editörler için tek çözüm şimdiye kadar ki kusurları kabul etmek ya da pahalı yeniden çekim yöntemleriyle düzeltmekti. Fakat bu yeni yöntemdeki metin tabanlı düzenleme yaklaşımı film post prodüksiyonu için daha iyi bir düzenleme aracı oluşturuyor.

'BÖYLE TEKNOLOJİLER KÖTÜ OYUNCULAR İÇİN ÇEKİCİ'

Bu yöntem ikna edici çeviri ve tam cümle sentezi, kelimelerin eklenmesi, kaldırılması ve değiştirilmesi gibi çok çeşitli düzenlemeleri yapabiliyor. Bu yöntem video editörleri ve yapımcılar için bir nimet olabilir. Böylece film diyaloglarını tekrar çekmeden düzenlemek ilk defa mümkün hale geliyor. Standford Üniversitesi’nde doktora sonrası araştırmacı olan Ohas Fried bu yöntem için bir uyarı yapıyor: “Maalesef böyle teknolojiler kötü oyuncular için çekici olacak; ancak birçok yaratıcı video düzenlenme ve içerik oluşturma uygulaması göz önüne alındığında buna değer.”

Aynı zamanda çalışma hikâye anlatma amacıyla geliştirilmiş. Düzenleme tekniği ile görsel-işitsel video içerikleri, belirli hedef kitlelere kolayca uyarlanabilir ve farklı geçmişlere sahip izleyicilere göre ayarlanabilir. Örneğin bir hikâye anlatımı videosu, yalnızca metinsel düzenlemelere dayanarak farklı yaş gruplarındaki çocuklara göre uyarlanabilir.

ETİK ENDİŞELER

Bu teknoloji, kaynak videodan ayırt edilemez kalitedeki sentezlenmiş videoların kötüye kullanım potansiyeli hakkında önemli ve geçerli kaygıları da beraberinde getirmekte. Her ne kadar görüntü ve video manipülasyon yöntemleri medyanın kendisi kadar eski olsa da, düşüncelerin ve niyetlerin kanıtı olarak kabul edilen “gözümle gördüm” biçimine kolaylık sağlayan bu yöntem kötüye kullanım risklerini arttırır.

Sentezlenmiş sahte videolar nedeniyle bu tür gelişmelerin önemli etik kaygılar doğurduğu gerçeği araştırmacılar tarafından da söylenmiş. Ama videoyu bu şekilde düzenlemek için değerli ve haklı sebepler de sunuyorlar. Araştırmacılardan Fried, böyle bir teknolojinin yasadışı amaçlarla kullanılabileceğini ama riske girmeye değer olduğunu söylüyor.

Çözüm olarak birkaç seçenek var görünüyor. Örneğin, düzenlenmiş herhangi bir içeriği tanımlayacak ve düzenlemelerin tam bir kaydını sağlayacak şekilde bir çeşit tercih filigranı geliştirmek veya farklı amaçlar için manipüle edilip edilmediğini belirleyecek dijital veya dijital olmayan parmak izi teknikleri geliştirmek.

VİDEO MANİPÜLASYONUYLA İLGİLİ BİLİNÇ ARTTIRILMALI

Ancak Fried, çözümlerin hiçbirinin her şeyi düzeltemediğini, bu nedenle izleyicilerin şüpheci ve temkinli olması gerektiğini söylüyor. Belki de en acil meselenin, video manipülasyonuyla ilgili halk bilincini ve eğitimi arttırmak olduğunu düşünüyor. Böylece insanlar sentetik içeriğin doğruluğunu sorgulamak ve değerlendirmek için daha donanımlı olabilirler.

En nihayetide diyebiliriz ki, teknolojik gelişmelerin insanlığa katkısı onların nasıl kullanıldıklarıyla ilgilidir! Yöntemin yasadışı kullanımları, yanlış yönlendirmelere yol açması, gerçeği örtmek için algı yönetiminde kullanılması ve tüm bunları engellemek için yeni yöntemlerin geliştirilmesi tartışılması gereken konulardır. Tabii ki teknolojik gelişmeleri coşkuyla karşılıyoruz, fakat endişemiz yeni teknolojilerin sermaye çıkarına uygun olarak insanlığın büyük çoğunluğunu nesneleştirmesi, robotlaştırması noktasında. Bilimin sınıflar üstü olmadığını biliyoruz. Dolayısıyla yeni bir algoritma geliştirirken motivasyon sermayenin maliyetini düşürmek değil, toplumsal gelişime katkı koymak olmalı diye düşünüyoruz.

Kaynaklar:

https://news.stanford.edu/2019/06/05/edit-video-editing-text/

https://www.youtube.com/watch?time_continue=107&v=0ybLCfVeFL4

https://www.ohadf.com/projects/text-based-editing/