해당 모델은 5테라바이트의 저장소로 이루어졌으며 이미지 형태의 문서 내용을 직관적으로 분석하고 이해하는 능력을 갖추고 있다. 단순히 문자를 인식하는 데 그치지 않고, 문서의 레이아웃 구조를 분석하며 체크박스, 도표, 서명, 수식 등 비문자 요소도 식별할 수 있다. CATI-VLM은 특정 양식을 사전에 학습하지 않아도, 이미지 문서에 제시된 질문에 대해 ChatGPT처럼 자연스럽게 응답할 수 있다. RRC가 공개한 순위에 따르면 CATI-VLM은 단 30억 개의 매개변수만을 사용했으나 총 7개 데이터 세트 중 4개 부문에서 가장 높은 정확도를 기록했다.