DeepRacer 세번째 모델, PPO대신 SAC 선택, 최저속도 0.5에서 1로 상향, 최고속도 4, reward function은 gpt, 나머지 디폴트 (2024021902GPT)

1차완료/ML

DeepRacer 세번째 모델, PPO대신 SAC 선택, 최저속도 0.5에서 1로 상향, 최고속도 4, reward function은 gpt, 나머지 디폴트 (2024021902GPT)

log4j_ 2024. 2. 19. 19:42

def reward_function(params):
    # Read input parameters
    all_wheels_on_track = params['all_wheels_on_track']
    distance_from_center = params['distance_from_center']
    progress = params['progress']
    speed = params['speed']
    steps = params['steps']
    track_width = params['track_width']
    is_left_of_center = params['is_left_of_center']

    # Reward for staying on track
    if all_wheels_on_track and (0.5 * track_width - distance_from_center) >= 0.05:
        reward = 1.0
    else:
        reward = 1e-3

    # Penalize if too slow
    reward *= progress

    # Reward for higher speed
    reward += (speed**2)

    return float(reward)

결과:

차가 너무 회전함, 제자리에서 빙글빙글 느낌,

1분 넘게 걸리고 그 중 50초가 이탈 패널티 .... ㅎ

비고:

gpt 이쌔끼 이거 공식 홈페이지에서 퍼온거였음