Pendeknya: Microsoft telah menunjukkan Quake II berjalan pada model AI generatif untuk permainan real-time yang disebut Whamm. Sementara permainan memiliki dukungan pengontrol penuh, dapat diprediksi berjalan pada frame rate yang sangat rendah. Microsoft mengatakan demo itu menampilkan potensi model daripada menyajikan produk game yang sudah jadi.
Model Microsoft's World and Human Action MaskGit, atau Whamm, dibangun di atas versi WHAM-1.6B sebelumnya yang diluncurkan pada bulan Februari. Tidak seperti pendahulunya, iterasi ini memperkenalkan output visual yang lebih cepat menggunakan arsitektur gaya maskgit yang menghasilkan token gambar secara paralel. Bergerak menjauh dari metode autoregresif, yang memprediksi token secara berurutan, Whamm mengurangi latensi dan memungkinkan pembuatan gambar real-time-langkah penting menuju interaksi gameplay yang lebih halus.
Proses pelatihan model juga mencerminkan kemajuan yang substansial. Sementara WHAM-1.6B membutuhkan tujuh tahun data gameplay untuk pelatihan, pengembang hanya mengajar WHAMM pada satu minggu gameplay Quake II yang dikuratori. Mereka mencapai efisiensi ini dengan menggunakan data dari penguji permainan profesional yang berfokus pada satu level. Resolusi output visual Genai juga mendapat dorongan, mulai dari 300 x 180 piksel menjadi 640 x 360 piksel, menghasilkan peningkatan kualitas gambar tanpa perubahan signifikan pada arsitektur enkoder-dekoder yang mendasarinya.
Terlepas dari langkah teknologi ini, Whamm jauh dari sempurna dan tetap lebih dari eksperimen penelitian daripada solusi game yang sepenuhnya terwujud. Model ini menunjukkan kemampuan yang mengesankan untuk beradaptasi dengan input pengguna. Sayangnya, model ini berjuang dengan lag dan anomali grafis.
Pemain dapat melakukan tindakan dasar seperti menembak, melompat, berjongkok, dan berinteraksi dengan musuh. Namun, interaksi musuh terutama cacat. Karakter sering tampak fuzzy, dan mekanika tempur tidak konsisten, dengan kesalahan pelacakan kesehatan dan kerusakan stat.
Keterbatasan melampaui mekanika tempur. Model ini memiliki panjang konteks terbatas. Model ini lupa objek yang meninggalkan pandangan pemain lebih lama dari sembilan persepuluh detik. Kelemahan ini menciptakan gameplay yang tidak biasa seperti teleportasi atau memicu musuh secara acak saat mengubah sudut kamera.
Selain itu, ruang lingkup simulasi Whamm terbatas pada satu tingkat gempa II. Mencoba untuk maju melampaui titik ini membekukan pembuatan gambar karena kurangnya data yang direkam. Masalah latensi semakin mengurangi pengalaman ketika diskalakan untuk penggunaan publik.
Sementara terlibat dengan Whamm mungkin menyenangkan sebagai hal baru, Microsoft tidak bermaksud untuk meniru pengalaman Quake II asli. Pengembang AI-nya hanya mengeksplorasi teknik pembelajaran mesin yang dapat mereka gunakan untuk membuat media interaktif.
https://www.youtube.com/watch?v=4UA2FOpQPNS
Tim Microsoft mengeksplorasi kemungkinan Whamm di tengah diskusi yang lebih luas tentang peran AI dalam industri kreatif. Openai baru-baru ini menghadapi reaksi atas kreasi AI yang terinspirasi Ghibli, menyoroti skeptisisme tentang apakah AI dapat meniru seni manusia.
Redmond telah memposisikan Whamm sebagai contoh augmenting AI daripada mengganti kreativitas manusia – sebuah filosofi yang digemakan oleh teknologi ace Nvidia, yang meningkatkan NPC seperti hidup dalam game seperti INZOI. Sementara game dan film yang dihasilkan sepenuhnya AI tetap sulit dipahami, inovasi seperti Whamm Signal, mereka bisa tepat di tikungan.
Ke depan, Microsoft membayangkan bentuk -bentuk baru dari media interaktif yang diaktifkan oleh model generatif seperti Whamm. Perusahaan berharap iterasi di masa depan akan mengatasi kekurangan sambil memberdayakan pengembang game untuk membuat narasi imersif yang diperkaya oleh alat yang digerakkan oleh AI.