2024-09-06 06:38
LLM(Large Language Model)이라는 것은
일반인이 자신의 개인 컴퓨터에서 온프레미스로
사용하는 것이 극소수의 재벌이 아닌 이상
불가능하고 기업들이 배포한 것들은 자유도가
제한되어있다. 온프레미스로 사용할 수 있는
작으면서도 LLM의 성능에 필적하는 강력한
소형모델을 개발할 필요가 있는데 내 생각엔
인코더-디코더를 모두 사용하는 T5가 적당하고
구체적으로 A6000 단일 GPU에서 자유자재로
사용할 수 있어야하는데 T5의 초대형 버전인
3B, 11B도 무리가 있다. Base(220M), Large(770M)정도가 파라미터 크기에서
타협할 수 있는 최적의 지점이다.
이정도 크기에서 AGI를 구현하는 것에 대한
계획을 수립해 놓았고 전체 과정이 방대해
중간 체크포인트들로 끊어서 계획을 segment화
했으며 현재 segment에서 괜찮은 실험결과를
얻어 기쁘다. 박사기간에 이어서 나머지
segment들을 완수해야지. 자세한 내용은
기밀이라 말할 수 없어.