Beh L. Wei and K. Maidanov (2025) “Multimodal Audio–Visual Fusion for Enhanced Conversational AI and Human–Computer Interaction”, National Journal of Speech and Audio Signal Processing, pp. 68–73. doi:10.17051/NJSAP/01.02.09.