• 홈
  • 핫뉴스
  • 부동산·재정
  • 이민·유학
  • 문화·스포츠
  • 주간한국
  • 오피니언
  • 게시판
  • 기획기사
  • 업소록
  • 지면보기
  • 광고문의
  • 기사제보
  •     Tel: (416) 787-1111
  •     Email: public@koreatimes.net
  • LOGIN
  • CONTACT
  • 후원
  • 기사검색
  • LOGIN
  • CONTACT
  • 기사제보
  • 광고문의
  • HotNews 첫 신입생 94명 온주 의료문제 책임진다
  • HotNews "법조인 돼 사회적 약자 돕고 싶다"
  • HotNews The Big Chill: 기후변화와 조선 예술품
  • HotNews '자금 지원 중단 위기' 넘긴 CBC
  • HotNews "벌금 장사 그만" 과속카메라 놓고 포드 정부-지자체 갈등
  • HotNews '물에 녹는 물티슈', 10분 저어도 안 녹아
  • Opinion 살을 빼시렵니까 약물치료제를 고려하시죠
  • HotNews 주의력 47초 시대, 전문가들이 알려주는 회복법
  • HotNews 비만 오면 번식, 올여름 모기 주의보
koreatimes logo
  • 지면보기
  • 핫뉴스
  • 문화·스포츠
  • 주간한국
  • 이민·유학
  • 부동산·재정
  • 자동차
  • 오피니언
  • 게시판
  • 업소록
  • 후원
  • 기사검색

Home / 기획기사

“네 한계를 보여봐”

AI 특훈 위한 성능 시험 '벤치마크'


  • 미디어1 (media@koreatimes.net)
  • Apr 27 2025 02:59 PM

AI 지적 능력, 기존 벤치마크는 이미 정복 대학생 수준 시험에선 인간 90점·o1은 92점 박사급으로 만들자 o1·딥시크 모두 10점 미만 언어 퀴즈 등 상식·직관 필요한 문제엔 ‘포기 선언’ “어려운 과제로 한계 극복... AGI 등장 더 빨라질 수도”


“아냐, 나 포기할래(No, I give up).” 최근 등장한 성능 시험(벤치마크:인공지능 모델의 성능을 비교 평가하기 위해 만들어진 테스트 기술 체계)에서 인공지능(AI) 모델이 문제를 풀다가 ‘중도 포기’ 선언을 했다. 여러 벤치마크에서 줄곧 90점을 받았던 1등 AI 모델이 새로운 시험에서 단 한 문제 빼고 모두 오답을 내는 이변도 생겼다.

하루가 멀다 하고 똑똑해지던 AI가 좌절하게 된 건, 모델의 한계를 시험하기 위해 인간이 작정하고 만든 새로운 벤치마크 때문이다. 생성형 AI의 지적 능력은 이미 인간을 뛰어넘었다. 전문가들은 다음 단계인 인공일반지능(AGI)으로서의 능력을 확인할 새 벤치마크를 만들고 있다. 주목할 점은 AI가 박사급 문제만 모은 초고난도 시험뿐 아니라, 일반상식 퀴즈에서도 고전을 면치 못했다는 것이다.

 


우등생 AI 좌절시킨 '역대급' 벤치마크

 

cc4002b4-3d79-4785-8baf-47b5db0e337a.png
인공지능(AI)이 어려운 문제를 푸는 모습을 주제로 설정하고 생성형 AI를 이용해 그린 그림. 달리3·신혜정 기자

 

지난 7일(현지시간) 미국 스탠퍼드대 인간중심 인공지능연구소(HAI)가 발표한 ‘AI 인덱스 2025’는 “AI를 시험하기 위한 더 도전적인 벤치마크가 꾸준히 출시되고 있다”는 점을 강조했다. AI가 기존 벤치마크를 이미 정복했기 때문이다. AI 벤치마크 중 가장 널리 쓰이는 건 ‘대규모 다중작업 언어 이해(MMLU)’다. 대학생 수준에서 과학·공학·인문학 등 57개 분야의 지식을 평가하는 문제가 담겼다. 인간이 풀면 정확도가 89.8%인데, AI는 이미 이를 뛰어넘었다. 오픈AI의 추론형 AI 모델 o1은 지난해 9월 92.3%를 기록했다.

미국의 비영리단체 AI안전센터(CAIS)와 스타트업 스케일AI가 지난 1월 공개한 벤치마크는 문제 난도를 박사급으로 올렸다. 벤치마크의 이름은 ‘인류의 마지막 시험(HLE·Humanity’s Last Exam)’, 인간이 AI에게 낼 수 있는 가장 어려운 문제라는 뜻이다. 시험 문제는 50개국 500여 기관의 교수와 연구자 약 1,000명이 출제했다. 수학과 물리학, 언어학 등에 이르기까지 대학원 수준의 교육을 받아도 풀기 어려운 문제들만 엄선했다.

o1은 이 시험에서 정확도 8.8%를 기록했다. MMLU 벤치마크에서 100점 만점에 92점을 받은 우등생이 HLE에서는 8점을 받은 것이다. 중국 스타트업 딥시크의 추론형 모델 R1과 구글 제미나이 2.0도 각각 8.6%, 7.2%를 기록해 HLE의 '역대급' 난도가 증명됐다.

 


인공지능보다 인간에게 유리한 문제

 

71c3bb1c-3c8a-4d26-a1ea-e98463c7782b.jpg
인류의 마지막 시험 예시문제. 그래픽=송정근 기자

 

AI에게 도전적인 벤치마크가 반드시 사람에게도 어려운 것은 아니다. 오히려 사람이 쉽게 푸는 문제에서 AI가 막히는 경우도 많다. 지난 2월 미국 노스웨스턴대 연구진이 ‘박사급 지식은 필요 없다’는 논문을 통해 공개한 ‘주간추론(RW·Reasoning Weekly)'이라는 벤치마크가 대표적이다. 연구진은 미국 공영방송 NPR 라디오에서 매주 일요일 방송하는 퀴즈 600개를 사용해 벤치마크를 만들었다. 주로 언어 상식 문제로, “미국에서 태어나 자란 성인이라면 충분히 이해할 수 있는 수준”이라는 게 연구진의 설명이다.

AI 모델들은 RW 벤치마크에서 줄줄이 오답을 냈다. 연구진이 테스트한 14개 모델의 평균은 100점 만점에 27.6점. 가장 높은 성적을 낸 o1의 정확도가 61%였고, 챗GPT4는 6%에 그쳤다. AI 모델들은 퀴즈를 풀다가 포기 선언을 하기도 했다. 연구진은 딥시크R1과 미국 스타트업 앤스로픽의 AI 모델 클로드 소네트가 각각 142번과 18번의 포기를 했다고 밝혔다. RW 벤치마크에서 36% 정확도를 보인 R1은 오랜 시간 동안 답을 내지 못한 채 추론을 거듭하다가 ‘포기할래’란 메시지를 내놓거나, 문제의 주요 요건을 무시한 채 엉뚱한 답을 내놓기도 했다.

대학 수준 문제를 너끈히 풀던 AI가 고전한 이유는 일반 상식을 습득하는 데 생각보다 많은 노력이 필요하기 때문이다. 이진식 LG AI연구원 엑사원랩장은 “상식 습득을 위해서는 상당히 넓은 범위의 지식이 필요한데, 학습 데이터에 누락돼 미처 다뤄지지 않는 경우가 많다”고 설명했다.

 

b46711be-613f-4fd3-8017-435b2f4c680e.jpg
주간 추론 예시 문제. 그래픽=송정근 기자

 

주목할 점은 RW 벤치마크에서 추론형 AI의 정확도가 비추론형 AI보다 높았다는 것이다. 수능 국어 벤치마크를 만든 스타트업 마커AI의 정철현 대표는 “추론형 AI는 정답을 찾는 과정에서 자가 검증과 오류 수정을 한다는 차이가 있다”며 “비추론형은 한번 생각을 시작하면 환각도 알아차리지 못하는 반면 추론형에선 실수가 크게 줄었다”고 말했다. 하지만 그런 추론형 AI 모델조차 지난달 24일 등장한 새 벤치마크 ‘ARC-AGI-2’에서는 맥을 추지 못했다. 구글 출신 딥러닝 전문가인 프랑수아 숄레가 창립한 국제 비영리재단 ARC는 “인간처럼 생각하는 AGI 개발을 가속화하기 위해” 이 벤치마크를 만들었다.

ARC-AGI-2의 문제들은 인간이 배경지식 없이도 직관과 추론으로 풀 수 있는 것들이다. 네모난 퍼즐의 패턴을 통해 상징이나 맥락을 파악해 답을 예측하는 방식이기 때문이다. 인간 패널이 이 시험을 봤을 때 정확도는 60%였는데, o1은 4.0%, 딥시크R1은 1.3%로 바닥을 쳤다. ARC재단은 벤치마크에 ‘효율성’ 지표를 도입해 이 같은 결과가 나왔다고 밝혔다. AI가 답을 찾기 위해 엄청난 컴퓨팅 파워에 의존해 무차별적으로 여러 패턴을 대입하는 것을 차단했다는 뜻이다. 또 문제를 풀기 위해 암기 대신 패턴을 즉석에서 해석해야 하는 것도 AI에겐 큰 장벽이었다는 설명이다.

 


어떤 모델이 AGI에 먼저 가까워질까

 

9658d006-4df7-4c0e-8854-779528bf8caf.png
ARC-AGI-2 벤치마크의 문제 예시. 왼쪽에 제시된 패턴을 보고 물음표에 들어갈 모양을 추론하면 된다. ARC재단 홈페이지 캡처

 

비록 AI 모델들을 시험에 들게 했지만, 새로운 벤치마크는 AI 발전을 위해 꼭 필요하다. 이진식 엑사원랩장은 “기존 벤치마크가 차례차례 정복되고 있기 때문에 점점 더 풀기 어려운 것을 제안해야 현재 기술의 한계점을 파악하고 더 발전시킬 수 있다”고 말했다.

 

660ccdad-24a6-403f-8b8c-3c6819a017d2.jpg
각 벤치마크별 주요 모델 정확도. 그래픽=송정근 기자

 

새 벤치마크로 특훈을 한 덕에 ‘2030년 이전’으로 예상되는 AGI 등장 시기가 더 빨라질 수도 있다. HLE 연구진은 “올해 말이면 AI 모델들의 정확도가 50% 이상이 될 것”이라고 전망했다. 구글이 지난달 공개한 제미나이 2.5는 실험 버전임에도 HLE에서 18.2%를 기록해 기존 모델보다 높은 성적을 냈다. 그렉 캄라트 ARC재단 대표는 “인간에게는 쉽지만 AI에게는 어렵거나 불가능한 도전 과제를 끊임없이 제시해 AGI를 향한 혁신 기간을 크게 단축할 수 있을 것”이라고 말했다.

신혜정 기자

0배너광고_대표_겨울.png

www.koreatimes.net/기획기사

미디어1 (media@koreatimes.net)

  • 코데코 록키엘크 녹용 & 공진단
  • 리쏘 (Lisso) 안마의자

댓글을 달아주세요

댓글운영원칙
'댓글'은 기사 및 게시글에 대한 자신의 생각을 말하고 남의 생각을 들으며 서로 의견을 나누는 공간입니다. 그러나 간혹 불건전한 내용을 올리시는 온라인 독자들이 있어 건전한 인터넷 문화 정착을 위해 아래와 같은 운영 원칙을 적용합니다.

1. 댓글삭제

자체 모니터링을 통해 아래에 해당하는 내용이 포함된 댓글이 발견되면 예고없이 삭제 조치 하겠습니다.
  1. 1) 타인에 대한 욕설 또는 비판
  2. 2) 인신공격 또는 명예훼손
  3. 3) 개인정보 유출 또는 사생활 침해
  4. 4) 음란성 내용 또는 음란물 링크
  5. 5) 상업적 광고 또는 사이트/홈피 홍보
  6. 6) 불법정보 유출
  7. 7) 같은 내용의 반복(도배)
  8. 8) 지역감정 조장
  9. 9) 폭력 또는 사행심 조장
  10. 10) 신고가 3번 이상 접수될 경우
  11. 11) 기타 기사 내용과 관계없는 내용

2. 권한제한

불건전한 댓글을 올리거나 이름에 비속어 및 상대방의 불쾌감을 주는 단어를 사용, 유명인 또는 특정 일반인을 사칭하는 경우 이용에 대한 차단 제재를 받을 수 있습니다.
명예훼손, 개인정보 유출, 욕설 등 법률에 위반되는 댓글은 관계 법령에 의거 민형사상 처벌을 받을 수 있으니 이용에 주의를 부탁 드립니다.

카테고리 기사

70837495-8ff7-4a1d-a35c-3a682e7a9c3f.png
F

140만년 전 스페인 고인류 화석

12 May 2025    0    0    0
b777864c-1a03-48d3-bd17-9faed3a60152.jpg
F

트럼프가 악몽 되풀이하나

12 May 2025    0    0    0
maxresdefault.jpg
F

캐나다 최고 음악학교는 어디?

14 May 2025    0    0    0
489bb06e-ba2c-41ff-b56d-e4a2b6ad3911.png
F

홀로코스트 범죄의 경중은 없다

12 May 2025    0    0    0
h0513a021a30.jpeg
F

첫 선교사 출신 교황

12 May 2025    0    0    0
download (4).jpeg
F

“동물을 귀여워하는 게 사랑?”

12 May 2025    0    0    0


Video AD



오늘의 트윗

시위2.jpg
Opinion
국회의원들의 저질 행동
10 May 2025
0



  • 인기 기사
  • 많이 본 기사

20250429-09042222.jpg
HotNews

한인회 정기총회서 회장단 인준 생략

27 Apr 2025
2
스크린샷 2025-04-26 115155.png
HotNews

토론토교육청, 수영·음악 수업 폐지 검토

26 Apr 2025
0
naiim-akingbade-ogswt9tai6k-unsplash.jpg
HotNews

토론토시, 교통 대책 본격 추진

25 Apr 2025
1
devin-rajaram-x5chcou8cqg-unsplash.jpg
WeeklyKorea

신선한 과일과 냉동 과일, 차이 없다

29 Apr 2025
0
티웨이.jpg
HotNews

한-캐 항공시장에 지각변동 오나

13 May 2025
0
스크린샷 2025-05-04 115415.png
HotNews

미국 유학생 비자 박탈 확산, 여행·귀국 불안 커져

04 May 2025
1
화면 캡처 2025-05-05 095257.png
HotNews

한국 방산 3사, 캐나다에 30조 규모 국방 제안

05 May 2025
0
스크린샷 2025-05-01 094709.png
HotNews

캐나다 공무원 되십시오

01 May 2025
0


500 Sheppard Ave. E. Unit 206 & 305A, North York, ON M2N 6H7
Tel : (416)787-1111
Fax : (416)781-8434
Email : public@koreatimes.net
광고문의(Advertising) : ad@koreatimes.net

캐나다 한국일보

  • 기사제보
  • 온라인지면 보기
  • 핫뉴스
  • 이민·유학
  • 부동산·재정
  • 주간한국
  • 업소록
  • 찾아오시는 길

한인협회

  • 한인문인협회
  • 한인교향악단
  • 한국학교연합회
  • 토론토한인회
  • 한인여성회
  • 한인미술가협회
  • 온주한인실협인협회

공익협회

  • 홍푹정신건강협회
  • 생명의전화
  • 생태희망연대

연관 사이트

  • 토론토총영사관
  • 몬트리올총영사관
  • 벤쿠버총영사관
  • 캐나다한국대사관
  • KOTRA

The Korea Times Daily 의 모든 콘텐트(기사)는 저작권법의 보호를 받는 바, 무단 전재, 복사, 배포 등을 금합니다.

Copyrightⓒ The Korea Times Daily All rights reserved