NLP lab/논문 정리
PaLM: Scaling Language Modeling with Pathways
내 코멘트 2022년 4월에 구글에서 나온 따끈따끈한 거대 언어 모델 논문이다. 성능 향상을 위해 모델의 크기를 늘리는 방법이 어떤 결과를 가져오는지 알 수 있다. 또한 프롬프트를 이용한 단계적 추론으로 마치 모델이 사람처럼 생각하는 듯한 모습 또한 볼 수 있다. 실험 결과 파라미터의 개수를 늘리는 방식으로 성능을 더 높일 수 있을 것으로 예측된다. 하지만 강력한 성능의 거대 언어 모델도 한계가 있었다. 모델이 너무 많은 웹 상의 데이터를 가지고 학습했기 때문에 벤치마크 시 성능이 과장됐다는 지적도 받을 수 있다. 이 때문에 벤치마크 결과를 정당화하기 위한 챕터도 흥미롭다. 기존 논문의 4, 5장은 거대한 언어 모델을 어떻게 효율적으로 훈련했는지에 대한 최적화 방법을 논하고 있기 때문에 여기서는 필요없을..