- Academic Search

D Stowell - PeerJ, 2022 - peerj.com

Animal vocalisations and natural soundscapes are fascinating objects of study, and contain
valuable evidence about animal behaviours, populations and ecosystems. They are studied …

Lưu Trích dẫn Trích dẫn 274 bài viết Bài viết có liên quan Tất cả 10 phiên bản Bản lưu

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Human action recognition from various data modalities: A review

Z Sun, Q Ke, H Rahmani, M Bennamoun… - IEEE transactions on …, 2022 - ieeexplore.ieee.org

Human Action Recognition (HAR) aims to understand human behavior and assign a label to
each action. It has a wide range of applications, and therefore has been attracting increasing …

Lưu Trích dẫn Trích dẫn 650 bài viết Bài viết có liên quan Tất cả 18 phiên bản

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Audioldm: Text-to-audio generation with latent diffusion models

H Liu, Z Chen, Y Yuan, X Mei, X Liu, D Mandic… - arxiv preprint arxiv …, 2023 - arxiv.org

Text-to-audio (TTA) system has recently gained attention for its ability to synthesize general
audio based on text descriptions. However, previous studies in TTA have limited generation …

Lưu Trích dẫn Trích dẫn 567 bài viết Bài viết có liên quan Tất cả 9 phiên bản Xem dạng HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Videopoet: A large language model for zero-shot video generation

D Kondratyuk, L Yu, X Gu, J Lezama, J Huang… - arxiv preprint arxiv …, 2023 - arxiv.org

We present VideoPoet, a language model capable of synthesizing high-quality video, with
matching audio, from a large variety of conditioning signals. VideoPoet employs a decoder …

Lưu Trích dẫn Trích dẫn 197 bài viết Bài viết có liên quan Tất cả 8 phiên bản Xem dạng HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Retrieval-augmented generation for ai-generated content: A survey

P Zhao, H Zhang, Q Yu, Z Wang, Y Geng, F Fu… - arxiv preprint arxiv …, 2024 - arxiv.org

The development of Artificial Intelligence Generated Content (AIGC) has been facilitated by
advancements in model algorithms, scalable foundation model architectures, and the …

Lưu Trích dẫn Trích dẫn 204 bài viết Bài viết có liên quan Tất cả 3 phiên bản Xem dạng HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Noise2music: Text-conditioned music generation with diffusion models

Q Huang, DS Park, T Wang, TI Denk, A Ly… - arxiv preprint arxiv …, 2023 - arxiv.org

We introduce Noise2Music, where a series of diffusion models is trained to generate high-
quality 30-second music clips from text prompts. Two types of diffusion models, a generator …

Lưu Trích dẫn Trích dẫn 193 bài viết Bài viết có liên quan Tất cả 4 phiên bản Xem dạng HTML

Audioldm 2: Learning holistic audio generation with self-supervised pretraining

H Liu, Y Yuan, X Liu, X Mei, Q Kong… - … on Audio, Speech …, 2024 - ieeexplore.ieee.org

Although audio generation shares commonalities across different types of audio, such as
speech, music, and sound effects, designing models for each type requires careful …

Lưu Trích dẫn Trích dẫn 142 bài viết Bài viết có liên quan Tất cả 8 phiên bản

[Free GPT-4]
[DeepSeek]

[PDF] neurips.cc

Masked autoencoders that listen

PY Huang, H Xu, J Li, A Baevski… - Advances in …, 2022 - proceedings.neurips.cc

This paper studies a simple extension of image-based Masked Autoencoders (MAE) to self-
supervised representation learning from audio spectrograms. Following the Transformer …

Lưu Trích dẫn Trích dẫn 258 bài viết Bài viết có liên quan Tất cả 6 phiên bản Xem dạng HTML

[Free GPT-4]
[DeepSeek]

[PDF] openreview.net

Fast timing-conditioned latent audio diffusion

Z Evans, CJ Carr, J Taylor, SH Hawley… - Forty-first International …, 2024 - openreview.net

Generating long-form 44.1 kHz stereo audio from text prompts can be computationally
demanding. Further, most previous works do not tackle that music and sound effects …

Lưu Trích dẫn Trích dẫn 89 bài viết Bài viết có liên quan Tất cả 8 phiên bản Xem dạng HTML

[Free GPT-4]
[DeepSeek]

[PDF] neurips.cc

Attention bottlenecks for multimodal fusion

A Nagrani, S Yang, A Arnab, A Jansen… - Advances in neural …, 2021 - proceedings.neurips.cc

Humans perceive the world by concurrently processing and fusing high-dimensional inputs
from multiple modalities such as vision and audio. Machine perception models, in stark …

Lưu Trích dẫn Trích dẫn 647 bài viết Bài viết có liên quan Tất cả 7 phiên bản Xem dạng HTML

Tạo thông báo

Trích dẫn

Tìm kiếm nâng cao

Đã lưu vào Thư viện của tôi

CNN architectures for large-scale audio classification

Computational bioacoustics with deep learning: a review and roadmap

Human action recognition from various data modalities: A review

Audioldm: Text-to-audio generation with latent diffusion models

Videopoet: A large language model for zero-shot video generation

Retrieval-augmented generation for ai-generated content: A survey

Noise2music: Text-conditioned music generation with diffusion models

Audioldm 2: Learning holistic audio generation with self-supervised pretraining

Masked autoencoders that listen

Fast timing-conditioned latent audio diffusion

Attention bottlenecks for multimodal fusion