robotics_from_scratch/daily_progress/day10.md at main · aiden200/robotics_from_scratch

PAPER: Trust Region Policy Optimization (TRPO) Pt 2
- Theoretical lower bound proof
- Estimating State Values
- Sampling action values using Monte Carlo Search
- Single Path Sampling (trajectory based)
Examples of Real Robot Transition Functions
- Mapping out Actuator space -> Joint space
- Mapping out Joint space -> Cartesian space

Provide feedback