OpenAI GPT-4 VS Google PaLM 2

2023 년 공학작문과발표 과제물 #3. Survey 보고서

OpenAI GPT-4 VS Google PaLM 2

요약 - 본 보고서는 GPT-4와 PaLM 2의 성능을 다국어 능력과 추론 능력 두 가지 측면에서 비교하여 다음 결론을 도출하였다: GPT-4는 다국어 능력에서 PaLM 2보다 우수하며, 추론 능력에서는 두 모델의 성능이 비슷하다. 따라서 종합적으로 GPT-4의 성능이 PaLM 2보다 우수하다.

서론

OpenAI가 개발한 LLM ChatGPT-3.5는 출시된 지 단 두 달 만에 2023년 1월 말 현재의 월간 활성 사용자가 1억 명을 돌파하여, 역사상 가장 빠른 사용자 증가 속도를 기록하며 소비자용 응용 프로그램으로서 또 다른 AI 열풍을 일으켰다.

LLM은 딥 러닝 기술을 기반으로 한 인공 지능 모델로, 자연어 처리 작업에 사용되도록 훈련되었다. 이러한 모델은 대규모 텍스트 데이터를 사용하여 언어의 통계적 구조와 문법 규칙을 학습함으로써 자연어 텍스트를 이해하고 생성할 수 있다.

본 보고서에서는 GPT-4와 PaLM 2의 성능을 공개된 데이터를 통해 비교하였다. GPT-4는 2023년 3월에 오픈AI에서 최신 LLM으로 출시된 것입니다. PaLM 2는 Google에서 개발한 LLM으로, 본 논문에서 사용된 데이터는 PaLM 2의 가장 큰 버전인 PaLM 2-L을 사용하였다.

본론

본 보고서는 LLM의 다국어 및 논리 능력을 측정하기 위해 인간 시험 문제를 사용하여 LLM의 성능을 비교하는 주요 목적을 갖고 있다. 시험 문제는 공개 정보에서 가져왔으며, 다중 선택 및 자유 응답 형식의 문제가 포함되어 있으며, 각 형식에 대한 별도의 안내가 제공되며, 이미지가 필요한 문제에는 이미지 입력이 추가되었다. 평가 설정은 검증 시험 그룹의 성적을 기반으로 설계되었으며, 보고서는 테스트 시험의 최종 결과를 보고다. 총 점수는 다중 선택 문항과 자유 응답 문항의 점수를 결합하여 공개 방법을 사용하여 결정되었다. 또한 각 총점에 해당하는 백분위수를 추정하고 보고한다.

LLM의 다국어 능력을 평가하기 위해 Azure Translate를 사용하여 MMLU 벤치마크(57 과목을 포함하는 다중 선택 문항 세트)를 여러 언어로 번역한 후 LLM에 입력하여 다음과 같은 결과를 얻었다.

다국어 능력 비교    
  GPT-4 PaLM 2
English 85.5 72.4
Korean 77.0 73.3
Russian 82.7 58.1
Arabic 80.0 72.8
Swahili 78.5 82.5
Telugu 62.0 77.3

대형 모델의 추론 능력, 여러 정보를 종합적으로 이해하는 능력, 그리고 논리적 추론 능력은 그 중요한 능력 중 하나입니다. LLM의 추론 능력을 평가하기 위해 영어 기반의 인간 시험 문제를 LLM에 입력하여 테스트를 진행했다.

추론 능력 비교    
  GPT-4 PaLM 2
WinoGrande 87.5 90.9
ARC-C 96.3 95.1
DROP 80.9 85.0
GSM8K 92.0 80.7/91.0
MATH 42.5 34.3/48.8
HellaSwag 95.3 86.8

MATH 데이터셋에는 고등학교 경시대회 문제 12,500개가 포함되어 있으며, GSM8K 데이터셋에는 초등학교 수학 단어 문제 8,500개가 포함되어 있습니다. MATH 데이터셋에 대해서는 Lewkowycz 등 (2022)의 방법을 따라 4회의 추론 체인 힌트를 사용하고, Wang 등 (2023)의 연구에서와 같이 64개의 샘플 경로를 결합하여 사용하였다. GSM8K 데이터셋에 대해서는 Wei 등 (2022)의 연구와 동일하게 8회의 추론 체인 힌트를 사용하고, 40개의 샘플 경로를 사용하였다. 답안 비교를 위해 SymPy 라이브러리 (Meurer 등, 2017)를 사용하여 가짜 음성을 방지하였다. 왜냐하면 가짜 음성은 형식이 다른 동등한 답안으로 인해 발생할 수 있기 때문이다。

결론

` `다국어 능력 측면에서, GPT-4이 PaLM 2보다 뛰어나다. 테스트한 6개 언어 중에서 GPT-4은 영어, 한국어, 아랍어 등 사용자가 많은 언어에서 PaLM 2보다 뛰어나다. 심지어 러시아어에서도 GPT-4의 점수가 PaLM 2보다 42% 높다. 반면에 PaLM 2는 스와힐리어와 텔루구어와 같이 사용자가 적은 언어에서만 GPT-4보다 높은 성적을 기록한다.

추론 능력 측면에서는 GPT-4과 PaLM 2가 비슷한 성적을 보인다. GPT-4은 ARC-C, GSM8K, HellaSwag에서 PaLM 2보다 우수한 성적을 기록하고, PaLM 2는 WinoGrande, DROP, MATH에서 GPT-4보다 뛰어난 성적을 보인다. 따라서 종합적으로 GPT-4의 성능이 PaLM 2보다 우수하다.

참고문현

[1] ChatGPT Users: ChatGPT witnesses massive rise, Chatbot gains 100 million users in two months - The Economic Times (indiatimes.com)

[2] OpenAI,” GPT-4 Technical Report”, arXiv:2303.08774

[3] Google,” PaLM 2 Technical Report”

Written on November 11, 2024