Home / 핫뉴스
도서관 고문헌, AI에 제공된다
구글·오픈AI 등 참여... 공공 데이터 활용 본격화
- 박해련 인턴기자 (press3@koreatimes.net)
- Jun 12 2025 03:45 PM
기업들은 오랫동안 인터넷에 쌓인 데이터를 인공지능 학습에 활용해 왔으나, 이제는 도서관이 보관해온 고문헌으로 눈을 돌리고 있다. 하버드대학교는 15세기부터 출판된 책 100만 권 가까이를 AI 연구자들에게 공개했으며, 보스턴 공공도서관 역시 신문과 정부 문서 자료를 곧 공개할 예정이다.
이번에 하버드가 공개한 데이터셋 ‘Institutional Books 1.0’은 총 3억 9,400만 페이지 분량이며, 가장 오래된 자료는 1400년대의 한국 화가가 나무와 꽃을 기르는 법에 대해 쓴 수기다. 가장 많은 분량은 19세기에 출판된 문학, 철학, 법, 농업 관련 저작물로 구성되어 있으며, 이들 자료는 수 세대에 걸쳐 사서들이 보존하고 정리해 온 것이다.
하버드 법대 산하 도서관 혁신 연구소(Library Innovation Lab) 연구 책임자 아리스타나 스쿠르타스(Aristana Scourtas)는 현재의 AI 기술이 가진 권한을 도서관 같은 기관으로 일부 되돌리려는 것이 이번 프로젝트의 목적이라고 밝혔다. 그는 사서들이 전통적으로 정보의 관리자로서 역할을 해왔다고 덧붙였다.
이번 프로젝트는 마이크로소프트와 오픈AI의 지원을 받아 진행 중이다. 두 회사는 하버드를 중심으로 한 ‘Institutional Data Initiative’를 통해 전 세계 도서관들과 협력하고 있으며, AI 학습에 적합한 방식으로 고문헌을 디지털화하고 있다.
하버드 버크만 클라인 센터(Berkman Klein Center for Internet & Society)의 최고 기술책임자이자 데이터 이니셔티브 책임자인 그렉 레퍼트(Greg Leppert)는 기존 AI 학습 데이터가 원본에 기반하지 않은 경우가 많았다고 지적하며, 이번 프로젝트는 실제 실물 서적을 디지털화한 것이어서 출처가 명확하다고 설명했다.
하버드가 이번에 공개한 도서 컬렉션은 약 2,420억 개의 토큰으로 구성돼 있으며, 이는 인간의 인지로는 이해하기 힘든 방대한 분량이지만, AI 학습 전체 규모에서 보면 일부분에 불과하다. 메타는 최신 AI 언어모델을 학습시키는 데 30조 개 이상의 토큰을 사용한 바 있다.
AI 기업들이 이러한 공공 데이터를 주목하는 이유 중 하나는 최근 저작권 침해 논란과 관련이 있다. 메타는 사라 실버먼(Sarah Silverman)을 포함한 작가들로부터 도서 무단 사용 혐의로 소송을 당했으며, 오픈AI 역시 다수의 저작권 소송에 직면해 있다. 이에 따라 공공 도서관의 자료는 법적 논란에서 상대적으로 자유롭다는 점에서 매력적인 자원이 되고 있다.
마이크로소프트 법무팀의 버턴 데이비스(Burton Davis)는 공공 영역의 데이터를 활용하는 것이 현 시점에서 더 논쟁의 소지가 적다고 판단되며, 도서관은 온라인 커뮤니티 데이터에는 없는 문화적·역사적·언어적 정보가 많이 포함되어 있다고 밝혔다.
보스턴 공공도서관은 오픈AI가 접근했을 당시 디지털화된 자료는 모두 대중에게 공개될 것이라는 점을 명확히 했다고 전했다. 도서관 측은 대량의 AI 학습 데이터에 대한 오픈AI의 관심과, 디지털 자원을 확장하려는 도서관의 목표가 맞아떨어졌다고 설명했다.
보스턴 도서관은 19세기 후반부터 20세기 초반까지 퀘벡에서 이주한 캐나다계 주민들이 읽던 프랑스어 신문을 스캔하고 정리하는 작업을 진행 중이다. AI 학습용으로 가치가 높아지면서 이러한 디지털화 작업에 필요한 재정적 지원도 확보하고 있다.
하버드의 고문헌 자료는 2006년 구글의 온라인 도서관 프로젝트를 위해 이미 디지털화가 시작된 바 있다. 당시 구글은 2천만 권 이상의 도서를 검색 가능하게 만들었고, 저작권 침해 논란으로 수년간 법적 공방을 벌이다 2016년 미국 대법원이 하급심의 판단을 유지하면서 사건이 마무리됐다.
이번에 구글은 하버드와 협력해 구글 북스(Google Books)에 보관된 공공 영역 자료 중 일부를 AI 개발자들에게 제공할 수 있도록 조치했다. 미국의 저작권 보호는 일반적으로 출판 후 95년까지 유지된다.
AI학습을 위해 하버드와 보스턴 공공 도서관이 수백 년 된 자료를 디지털화해 공개했다. 언스플래쉬
해당 데이터는 13일부터 AI 모델과 오픈소스 데이터를 공유하는 허깅페이스(Hugging Face) 플랫폼을 통해 배포되며, 누구나 다운로드가 가능하다. 전체 도서 중 절반 이상은 영어 이외의 언어로 작성됐으며, 독일어, 프랑스어, 이탈리아어, 스페인어, 라틴어 등 유럽 언어가 다수를 차지한다.
레퍼트는 19세기 사상으로 가득한 이 도서 컬렉션이 인간 수준의 추론 능력을 갖춘 AI 에이전트를 개발하는 데 매우 중요한 자원이 될 수 있다고 평가했다. 대학은 분석과 사고의 방법론을 가르치는 교육의 장이기 때문에, 해당 자료는 AI 시스템 설계에 유익할 수 있다는 입장이다.
다만 고문헌에는 과학적 오류나 인종차별적 서술처럼 해로운 내용도 포함되어 있어, 하버드 도서관 측은 이를 인식하고 데이터 사용에 따른 위험을 완화하는 가이드라인을 제공하려 노력하고 있다. 도서관 혁신 연구소의 코디네이터 크리스티 묵(Kristi Mukk)은 연구자들이 책임 있는 AI 사용을 위한 판단을 내릴 수 있도록 지원하고 있다고 밝혔다.
www.koreatimes.net/핫뉴스
박해련 인턴기자 (press3@koreatimes.net)