Google Academic

Y Liu, A Halev, X Liu - The 30th international joint conference on artificial …, 2021 - par.nsf.gov

Reinforcement Learning (RL) algorithms have had tremendous success in simulated
domains. These algorithms, however, often cannot be directly applied to physical systems …

Salvați Citați Citat de 153 ori Articole cu conținut similar Toate cele 6 versiuni Afișare ca HTML

[Free GPT-4]
[DeepSeek]

[PDF] neurips.cc

Natural policy gradient primal-dual method for constrained markov decision processes

D Ding, K Zhang, T Basar… - Advances in Neural …, 2020 - proceedings.neurips.cc

We study sequential decision-making problems in which each agent aims to maximize the
expected total reward while satisfying a constraint on the expected total utility. We employ …

Salvați Citați Citat de 223 ori Articole cu conținut similar Toate cele 9 versiuni Afișare ca HTML

[Free GPT-4]
[DeepSeek]

[PDF] mlr.press

Provably efficient safe exploration via primal-dual policy optimization

D Ding, X Wei, Z Yang, Z Wang… - … conference on artificial …, 2021 - proceedings.mlr.press

We study the safe reinforcement learning problem using the constrained Markov decision
processes in which an agent aims to maximize the expected total reward subject to a safety …

Salvați Citați Citat de 189 ori Articole cu conținut similar Toate cele 9 versiuni Afișare ca HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Trustworthy reinforcement learning against intrinsic vulnerabilities: Robustness, safety, and generalizability

M Xu, Z Liu, P Huang, W Ding, Z Cen, B Li… - arxiv preprint arxiv …, 2022 - arxiv.org

A trustworthy reinforcement learning algorithm should be competent in solving challenging
real-world problems, including {robustly} handling uncertainties, satisfying {safety} …

Salvați Citați Citat de 50 ori Articole cu conținut similar Toate cele 2 versiuni Afișare ca HTML

[Free GPT-4]
[DeepSeek]

[PDF] neurips.cc

Long-term fairness with unknown dynamics

T Yin, R Raab, M Liu, Y Liu - Advances in Neural …, 2023 - proceedings.neurips.cc

While machine learning can myopically reinforce social inequalities, it may also be used to
dynamically seek equitable outcomes. In this paper, we formalize long-term fairness as an …

Salvați Citați Citat de 25 ori Articole cu conținut similar Toate cele 8 versiuni Afișare ca HTML

[Free GPT-4]
[DeepSeek]

[PDF] neurips.cc

Provably efficient model-free constrained rl with linear function approximation

A Ghosh, X Zhou, N Shroff - Advances in Neural …, 2022 - proceedings.neurips.cc

We study the constrained reinforcement learning problem, in which an agent aims to
maximize the expected cumulative reward subject to a constraint on the expected total value …

Salvați Citați Citat de 36 ori Articole cu conținut similar Toate cele 7 versiuni Afișare ca HTML

[Free GPT-4]
[DeepSeek]

[PDF] neurips.cc

DOPE: Doubly optimistic and pessimistic exploration for safe reinforcement learning

A Bura, A HasanzadeZonuzy… - Advances in neural …, 2022 - proceedings.neurips.cc

Safe reinforcement learning is extremely challenging--not only must the agent explore an
unknown environment, it must do so while ensuring no safety constraint violations. We …

Salvați Citați Citat de 40 ori Articole cu conținut similar Toate cele 7 versiuni Afișare ca HTML

[Free GPT-4]
[DeepSeek]

[PDF] neurips.cc

Constrained episodic reinforcement learning in concave-convex and knapsack settings

K Brantley, M Dudik, T Lykouris… - Advances in …, 2020 - proceedings.neurips.cc

We propose an algorithm for tabular episodic reinforcement learning with constraints. We
provide a modular analysis with strong theoretical guarantees for settings with concave …

Salvați Citați Citat de 62 ori Articole cu conținut similar Toate cele 9 versiuni Afișare ca HTML

[Free GPT-4]
[DeepSeek]

[PDF] mlr.press

A simple reward-free approach to constrained reinforcement learning

S Miryoosefi, C ** - International Conference on Machine …, 2022 - proceedings.mlr.press

In constrained reinforcement learning (RL), a learning agent seeks to not only optimize the
overall reward but also satisfy the additional safety, diversity, or budget constraints …

Salvați Citați Citat de 41 ori Articole cu conținut similar Toate cele 10 versiuni Afișare ca HTML

[Free GPT-4]
[DeepSeek]

[PDF] mlr.press

Towards achieving sub-linear regret and hard constraint violation in model-free rl

A Ghosh, X Zhou, N Shroff - International Conference on …, 2024 - proceedings.mlr.press

We study the constrained Markov decision processes (CMDPs), in which an agent aims to
maximize the expected cumulative reward subject to a constraint on the expected total value …

Salvați Citați Citat de 5 ori Articole cu conținut similar Toate cele 5 versiuni Afișare ca HTML

Creează alerta

Citați

Căutare avansată

Salvat în Bibliotecă

Learning in Markov decision processes under constraints

[PDF][PDF] Policy learning with constraints in model-free reinforcement learning: A survey

Natural policy gradient primal-dual method for constrained markov decision processes

Provably efficient safe exploration via primal-dual policy optimization

Trustworthy reinforcement learning against intrinsic vulnerabilities: Robustness, safety, and generalizability

Long-term fairness with unknown dynamics

Provably efficient model-free constrained rl with linear function approximation

DOPE: Doubly optimistic and pessimistic exploration for safe reinforcement learning

Constrained episodic reinforcement learning in concave-convex and knapsack settings

A simple reward-free approach to constrained reinforcement learning

Towards achieving sub-linear regret and hard constraint violation in model-free rl