DeepRacer 세번째 모델, PPO대신 SAC 선택, 최저속도 0.5에서 1로 상향, 최고속도 4, reward function은 gpt, 나머지 디폴트 (2024021902GPT)

def reward_function(params):
    # Read input parameters
    all_wheels_on_track = params['all_wheels_on_track']
    distance_from_center = params['distance_from_center']
    progress = params['progress']
    speed = params['speed']
    steps = params['steps']
    track_width = params['track_width']
    is_left_of_center = params['is_left_of_center']

    # Reward for staying on track
    if all_wheels_on_track and (0.5 * track_width - distance_from_center) >= 0.05:
        reward = 1.0
    else:
        reward = 1e-3

    # Penalize if too slow
    reward *= progress

    # Reward for higher speed
    reward += (speed**2)

    return float(reward)

결과:

차가 너무 회전함, 제자리에서 빙글빙글 느낌,

1분 넘게 걸리고 그 중 50초가 이탈 패널티 .... ㅎ

비고:

gpt 이쌔끼 이거 공식 홈페이지에서 퍼온거였음

'1차완료 > ML' 카테고리의 다른 글

DeepRacer 직전 모델 살짝 튜닝, 디폴트 로직 추가 (0)	2024.02.19
DeepRacer 내가 만든 reward function (0)	2024.02.19
DeepRacer 모델 생성 시 (0)	2024.02.19
DeepRacer 두번째 모델 생성, 디폴트에서 최고속도랑 보상 정보만 변경 (deepracer2024021901) (0)	2024.02.19
DeepRacer 디폴트 모델로 생성, 테스트 결과(deepracer2024firstTestModel) (0)	2024.02.19

LOG4J_

DeepRacer 세번째 모델, PPO대신 SAC 선택, 최저속도 0.5에서 1로 상향, 최고속도 4, reward function은 gpt, 나머지 디폴트 (2024021902GPT)

'1차완료 > ML' 카테고리의 다른 글

티스토리툴바

DeepRacer 세번째 모델, PPO대신 SAC 선택, 최저속도 0.5에서 1로 상향, 최고속도 4, reward function은 gpt, 나머지 디폴트 (2024021902GPT)

'1차완료 > ML' 카테고리의 다른 글

'1차완료/ML' Related Articles

티스토리툴바