1차완료/ML
DeepRacer 세번째 모델, PPO대신 SAC 선택, 최저속도 0.5에서 1로 상향, 최고속도 4, reward function은 gpt, 나머지 디폴트 (2024021902GPT)
log4j_
2024. 2. 19. 19:42
반응형
def reward_function(params):
# Read input parameters
all_wheels_on_track = params['all_wheels_on_track']
distance_from_center = params['distance_from_center']
progress = params['progress']
speed = params['speed']
steps = params['steps']
track_width = params['track_width']
is_left_of_center = params['is_left_of_center']
# Reward for staying on track
if all_wheels_on_track and (0.5 * track_width - distance_from_center) >= 0.05:
reward = 1.0
else:
reward = 1e-3
# Penalize if too slow
reward *= progress
# Reward for higher speed
reward += (speed**2)
return float(reward)
결과:
차가 너무 회전함, 제자리에서 빙글빙글 느낌,
1분 넘게 걸리고 그 중 50초가 이탈 패널티 .... ㅎ
비고:
gpt 이쌔끼 이거 공식 홈페이지에서 퍼온거였음
반응형