Mengenal Imagen, Teknologi AI Canggih dari Google untuk Membuat Gambar dari Teks
Baru-baru ini Google mengumumkan tools AI yang diberi nama Imagen Editor. Kecanggihan Imagen Editor ada pada teknologi AI bernama Imagen. Apa saja yang menarik dari teknologi AI ini?
Berikut tiga hal menarik dari teknologi AI Imagen
1. Apa itu Imagen?
Imagen adalah sistem AI yang dikembangkan Google untuk membuat fotorealistik hanya dari input teks. Yang membuat Imagen istimewa dan berbeda dari teknologi sejenis, seperti DALL-E 2 dan Stable Diffusion yang populer adalah kemampuan pemahaman bahasanya yang lebih mendalam. Selain itu, Imagen juga bisa menghasilkan fotorealistik di resolusi tinggi mengandalkan model difusi Super-Resolution.
2. Menggunakan model bahasa yang lebih besar
Imagen dikembangkan dan dilatih menggunakan model bahasa skala besar untuk memahami teks. Dengan demikian, Imagen bisa memiliki kemampuan pemahaman bahasa yang jauh lebih baik. Singkatnya, Imagen bisa membuat foto resolusi tinggi hanya dari input teks dengan sangat akurat.
Menurut penemuan Google model bahasa umum yang besar (misalnya T5), yang dilatih sebelumnya pada kumpulan teks saja, secara mengejutkan efektif memadukan teks dan gambar.
Jadi, memperbesar model bahasa yang dilatih Imagen akan meningkatkan kemampuan penyelarasan gambar dengan teks jauh lebih akurat. Daripada hanya meningkatkan model difusi gambar saja.
Kecanggihan Imagen juga sudah berhasil dibuktikan. Imagen berhasil meraih skor COCO FID 7,27 di pengujian dataset COCO. COCO adalah kumpulan dataset pendeteksian, segmentasi, dan keterangan obyek skala besar.
Perlu dicatat skor tersebut diraih Imagen tanpa melatih model COCO sebelumnya. Para penilai manusia juga menganggap sampel gambar yang dihasilkan Imagen bisa setara dengan referensi data COCO dalam kemampuan penyelarasan gambar-teks.
3. Imagen untuk foto dan video
Dengan kemampuan Imagen yang di atas rata-rata inilah Google siap mengimplementasikan Imagen ke tools AI generatif. Untuk foto teknologi Imagen bisa ditemukan di Imagen Editor dan video di Imagen Video.
Kedua tools ini bisa menyunting gambar atau video mengandalkan input teks. Jadi, Imagen Editor dan Imagen Video tidak membuat gambar dari nol. Melainkan, membuat ulang gambar dan memodifikasi gambar dari perintah yang berupa kata atau kalimat yang diketik pengguna.
Untuk saat ini kedua tools tersebut memang belum dibuka ke publik. Kendati demikian, kehadiran teknologi AI Imagen jelas akan sangat bermanfaat dan mempermudah dunia kreatif di masa yang akan datang. Jadi, menyunting foto dan video bisa dilakukan dengan lebih cepat dan mudah. Tidak lagi memerlukan keahlian atau tools profesional.