오늘 나온 GPT-4.5 요약

작성자 정보

  • 커뮤관리자 작성
  • 작성일

컨텐츠 정보

본문




 

grok3한테 GPQA, AIME 벤치 10~30% 격차정도로 따임. (심지어 AIME 벤치는 grok3 mini한테 밀리는 모습)

 

 



에이전트 코딩 벤치도 sonnet 3.7한테 따이고, 몇달전에 출시된 sonnet 3.6이라고 놀림받는 sonnet 3.5(new) 랑 비비는 모습

 

 





​arc-agi 벤치 또한 sonnect 3.7과 점수는 거의 동일한데 비해 cost per task(가격 대비) 측면에서 압도적으로 뒤떨어짐

 

 



가격은.....10~30배 이상 상승

 

 

1. 기존의 모델 크기(파라미터 수, 층 쌓기)와 컴퓨팅 파워만을 늘리는 스케일 법칙은 더 이상 유효하지 않을 가능성이 굉장히 높다.

 

2. openai는 더 이상 "베이스모델" 에서의 성능 이점을 잡고 있다고 보기 힘들다.


 

물론 여기서 말하는 베이스모델은 test time compute 추론모델을 제외한 것이며, 추론모델은 아직까지 지표상으로는 o3가 가장 높지만.


오늘 나온 GPT-4.5 요약

관련자료

댓글 0
등록된 댓글이 없습니다.

공지글


보증업체


최근글


분석글


동영상


라이브맨에서는 다양한 스포츠 베팅과 관련된 데이터와 함께 보증 카지노사이트에 대한 정보를 제공하고 있습니다. 이러한 데이터를 통해 사용자들은 안전한 바카라사이트를 찾는데 도움을 얻을 수 있습니다.