[1]

Beh L. Wei and K. Maidanov, “Multimodal Audio–Visual Fusion for Enhanced Conversational AI and Human–Computer Interaction”, National Journal of Speech and Audio Signal Processing, pp. 68–73, Oct. 2025, doi: 10.17051/NJSAP/01.02.09.