최신뉴스

FPT·엔비디아 공동 개발 베트남어 AI 데이터셋, 글로벌 인기 순위 Top 15 진입

베트남의 FPT 그룹과 美 NVIDIA가 공동 개발한 베트남어 AI 데이터셋 ‘Nemotron-Personas-Vietnam’이 공개 4일 만에 세계 최대 오픈소스 AI 모델·데이터 공유 플랫폼인 Hugging Face에서 인기 데이터셋 Top 15에 올랐다.
'베트남어 AI 데이터셋 ‘Nemotron-Personas-Vietnam’' 내 프로필들은 직업, 기술, 학력, 취미, 거주 지역 등 다양한 특성으로 묘사되어 있다. (사진: FPT)
'베트남어 AI 데이터셋 ‘Nemotron-Personas-Vietnam’' 내 프로필들은 직업, 기술, 학력, 취미, 거주 지역 등 다양한 특성으로 묘사되어 있다. (사진: FPT)

‘Nemotron-Personas-Vietnam’은 AI 개발을 위한 기초 데이터셋으로, 베트남인의 생활·학습·직업 환경의 다양성을 반영한 베트남어 페르소나(가상 인물 프로필) 형태로 구축됐다.

공개 버전에는 10만 건의 데이터가 포함되어 있으며, 약 90만 개의 베트남어 페르소나와 총 1억 1,800만 토큰 규모로 구성됐다. 각 페르소나는 직업, 역량, 취미, 연령, 성별 등의 정보를 담고 있어 개발자들이 다양한 사용자 집단에 적합한 AI 모델을 개발하고 평가하는 데 활용할 수 있다.

공개 버전으로 출시된 '네모트론-페르소나-베트남'은 약 90만 개의 베트남어 페르소나에 해당하는 10만 개의 레코드로 구성되어 있다. (사진: FPT)
공개 버전으로 출시된 '네모트론-페르소나-베트남'은 약 90만 개의 베트남어 페르소나에 해당하는 10만 개의 레코드로 구성되어 있다. (사진: FPT)

베트남어 기반 데이터는 베트남 이용자의 언어와 문화, 실제 수요를 반영할 수 있는 AI 시스템 구축에 중요한 역할을 한다. FPT와 NVIDIA의 협력은 개방형 AI 모델과 데이터셋, 도구를 제공함으로써 베트남의 AI 주권(AI Sovereignty) 강화와 인공지능 산업 발전을 촉진하는 데 목적을 두고 있다.


top