Microsoft dan Nvidia Kerjasama Kembangkan Teknologi Pembelajaran Video AI

Microsoft dan Nvidia Kerjasama Kembangkan Teknologi Pembelajaran Video AI

NESABAMEDIA.COMMicrosoft dan Nvidia melakukan kerja sama dalam sejumlah proyek terkait layanan cloud, gaming dan integrasi. Dalam pengembangan terakhir dalam kerja sama itu, Microsoft dan Nvidia memamerkan penelitian mereka yang menghasilkan kemampuan untuk meningkatkan kecepatan pelatihan teknologi AI untuk kebutuhan video.

Dalam sebuah dokumen yang berjudul “Parameter Efficient Multimodal Transformers for Video Representation Learning,” para peneliti berdiskusi tentang bagaimana cara mereka dalam mengurangi ukuran pembentuk multi modal sampai dengan 97 persen untuk bisa mencapai AI yang telah ditingkatkan untuk klip video berdurasi 30 detik, dengan sampel 480 frame setiap 16 detik. Ini merupakan sebuah peningkatan besar dalam model yang telah ada yang bisa memproses video kurang dari 10 detik.

Microsoft dan Nvidia menjelaskan bahwa mempelajari dan memahami video merupakan salah satu tantangan terbesar dari teknologi AI. Menjadikan AI bisa lebih efisien dalam mempelajari representasi multimodal adalah sebuah pondasi untuk memahami konten dalam video seperti gerakan, objek dan suara. Pembentuk multimodal terbaru telah menjadi lebih baik dalam memahami aspek yang ada di dalam video, termasuk di antaranya sudut pandang, bahasa, atau juga pengenalan gambar. 

Tetap saja, peningkatan ini masih menyisakan tantangan besar lainnya, yakni membutuhkan memori yang sangat besar. Microsoft mengatakan dalam sebuah unggahan blog bahwa banyak faktor pembentuk yang ada saat ini hanya bergantung pada model yang telah disediakan untuk melakukan pembelajaran sendiri.

Di sini, Microsoft dan Nvidia telah menghasilkan peningkatan yang signifikan yang memungkinkan sebuah model untuk mempelajari video menjadi lebih efisien lagi. Ada lima komponen dalam model itu yakni, audio dan tampilan Convolutional Neural Networks (CNNs), audio dan pembentuk visual, dan sebuah pembentuk multi modal. 

Microsoft mengaku bahwa pembelajaran dalam model ini masih boros dalam sumber daya memori di GPU, karena memiliki parameter sebanyak 155 juta, dan tiga pembentuk itu jika diaktifkan secara bersamaan akan menghabiskan sebanyak 128 juta parameter atau 82,6 persen dari total parameter yang ada.

Pada akhirnya, Microsoft dan Nvidia pun memutuskan untuk membagi besaran parameter itu untuk mengurangi ukuran dari model. Secara total, mereka mampu mengurangi parameter yang dibutuhkan dari 128 juta menjadi hanya 4 juta.

Leave a Reply

Send this to a friend