User-Driven Voice Generation and Editing through Latent Space Navigation

Y Tian, J Liu, T Lee - arxiv preprint arxiv:2408.17068, 2024 - arxiv.org
This paper presents a user-driven approach for synthesizing specific target voices based on
user feedback rather than reference recordings, which is particularly beneficial for speech …

Controlling your Attributes in Voice

X Li, ZS Wang, P Zhang - arxiv preprint arxiv:2501.01674, 2025 - arxiv.org
Attribute control in generative tasks aims to modify personal attributes, such as age and
gender while preserving the identity information in the source sample. Although significant …

[IDÉZET][C] 최신 멀티모달 음성 변화 모델 소개와 분석

강현오, 김시현, 김지안, 정다흰 - 한국통신학회 학술대회논문집, 2024 - dbpia.co.kr
요 약본 논문은 적은 데이터로도 뛰어난 성능을 발휘하는 세 가지 멀티모달 음성 변환 모델
(HYFaceVC, DreamVC, HybridVC) 을 소개하고 분석하였다. 각 모델은 얼굴 이미지, 텍스트 …