- Academic Search

Hicmae: Hierarchical contrastive masked autoencoder for self-supervised audio-visual emotion recognition

L Sun, Z Lian, B Liu, J Tao - Information Fusion, 2024 - Elsevier

Abstract Audio-Visual Emotion Recognition (AVER) has garnered increasing attention in
recent years for its critical role in creating emotion-aware intelligent machines. Previous …

Enregistrer Citer Cité 17 fois Autres articles Les 5 versions Free GPT-4 DeepSeek

[Free GPT-4]
[DeepSeek]

[PDF] ieee.org

Selective acoustic feature enhancement for speech emotion recognition with noisy speech

SG Leem, D Fulford, JP Onnela… - … /ACM transactions on …, 2023 - ieeexplore.ieee.org

A speech emotion recognition (SER) system deployed on a real-world application can
encounter speech contaminated with unconstrained background noise. To deal with this …

Enregistrer Citer Cité 10 fois Autres articles Les 5 versions Free GPT-4 DeepSeek

[Free GPT-4]
[DeepSeek]

[PDF] utdallas.edu

[PDF][PDF] Versatile audio-visual learning for handling single and multi modalities in emotion regression and classification tasks

L Goncalves, SG Leem, WC Lin, B Sisman… - arxiv preprint arxiv …, 2023 - ecs.utdallas.edu

Most current audio-visual emotion recognition models lack the flexibility needed for
deployment in practical applications. We envision a multimodal system that works even …

Enregistrer Citer Cité 15 fois Autres articles Les 2 versions Free GPT-4 DeepSeek Version HTML

[Free GPT-4]
[DeepSeek]

[PDF] ieee.org

Versatile audio-visual learning for emotion recognition

L Goncalves, SG Leem, WC Lin… - IEEE Transactions on …, 2024 - ieeexplore.ieee.org

Most current audio-visual emotion recognition models lack the flexibility needed for
deployment in practical applications. We envision a multimodal system that works even …

Enregistrer Citer Cité 7 fois Autres articles Les 3 versions Free GPT-4 DeepSeek

[Free GPT-4]
[DeepSeek]

[PDF] sciencedirect.com

Deep temporal clustering features for speech emotion recognition

WC Lin, C Busso - Speech Communication, 2024 - Elsevier

Deep clustering is a popular unsupervised technique for feature representation learning. We
recently proposed the chunk-based DeepEmoCluster framework for speech emotion …

Enregistrer Citer Cité 3 fois Autres articles Les 4 versions Free GPT-4 DeepSeek

[Free GPT-4]
[DeepSeek]

[PDF] acm.org

Enhancing resilience to missing data in audio-text emotion recognition with multi-scale chunk regularization

WC Lin, L Goncalves, C Busso - … of the 25th International Conference on …, 2023 - dl.acm.org

Most existing audio-text emotion recognition studies have focused on the computational
modeling aspects, including strategies for fusing the modalities. An area that has received …

Enregistrer Citer Cité 3 fois Autres articles Les 3 versions Free GPT-4 DeepSeek

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Detail-Enhanced Intra-and Inter-modal Interaction for Audio-Visual Emotion Recognition

T Shi, X Ge, JM Jose, N Pugeault… - … Conference on Pattern …, 2025 - Springer

Capturing complex temporal relationships between video and audio modalities is vital for
Audio-Visual Emotion Recognition (AVER). However, existing methods lack attention to …

Enregistrer Citer Cité 1 fois Autres articles Les 5 versions Free GPT-4 DeepSeek

[Free GPT-4]
[DeepSeek]

[PDF] ieee.org

Jointly Learning from Unimodal and Multimodal-Rated Labels in Audio-Visual Emotion Recognition

L Goncalves, HC Chou, AN Salman… - IEEE Open Journal …, 2025 - ieeexplore.ieee.org

Audio-visual emotion recognition (AVER) has been an important research area in human-
computer interaction (HCI). Traditionally, audio-visual emotional datasets and …

Enregistrer Citer Autres articles

Créer l'alerte

Citer

Recherche avancée

Enregistré dans Ma bibliothèque

Learning cross-modal audiovisual representations with ladder networks for emotion recognition

Hicmae: Hierarchical contrastive masked autoencoder for self-supervised audio-visual emotion recognition

Selective acoustic feature enhancement for speech emotion recognition with noisy speech

[PDF][PDF] Versatile audio-visual learning for handling single and multi modalities in emotion regression and classification tasks

Versatile audio-visual learning for emotion recognition

Deep temporal clustering features for speech emotion recognition

Enhancing resilience to missing data in audio-text emotion recognition with multi-scale chunk regularization

Detail-Enhanced Intra-and Inter-modal Interaction for Audio-Visual Emotion Recognition

Jointly Learning from Unimodal and Multimodal-Rated Labels in Audio-Visual Emotion Recognition