어제 발표한 네이버 인공지능 클로바X를 chatGPT-4 대비 어떤 성능을 갖고 있는지 비교해봤습니다. 결론적으로는 좀 더 성장을 지켜봐야겠다는 생각입니다.
1. 클로바X 레이아웃
클로바X의 레이아웃은 기존 chatGPT와 매우 유사합니다. 다만 두 가지 차이점이 있었습니다.
출처 표기 기능도 일부 작동하는 걸로 보입니다.
저 원안의 출처는 네이버 블로그의 내용이었습니다. 구글도 출처로 삼는지는 확인하지 못했습니다.
1) Plug-in (쇼핑, 예약)
1번 표시가 된 부분을 토글On 하면 네이버 쇼핑과 예약의 정보를 불러옵니다. 앞선 글에서도 언급했지만 네이버가 예약이나 쇼핑은 타 서비스 대비 강점이 있는 서비스이기 때문에 어떻게 활용할지가 매우 궁금했던 부분입니다.
(참고 : 네이버 인공지능 클로바X 등 공개, 과연 성공할까? 부정적 의견)
2) 대화내용 북마크 (디스커버리)
2번 표시가 된 부분은 대화 중 북마크 표시를 누르면 따로 모이는 폴더와 같은 곳입니다. 아무래도 대화 기반이다보니 내용이 길게 이어지는 경우가 많아서 결론만 모아놓고 나중을 위해 본다면 좋은 UI 일 수도 있겠습니다.
2. 본격적인 검증
본 검증은 클로바X와 GPT-4를 비교한 내용이며, GPT는 뤼튼을 사용하였습니다.
1) 클로바X의 학습 데이터에 대한 질문
이 질문을 했던 이유는 자명합니다. 네이버, 카카오가 주장하는 국산 AI의 강점은 한국어에 능통하다는 것인데, 한국어에 능통하려면 데이터 셋이 네이버 수준에 갇혀있어야 하고, 데이터 셋을 고품질로 가져가려면 구글 데이터를 대량 학습할 수 밖에 없는데, 그렇게 되면 한국어에 능통하다는 기존 주장에 어폐가 되기 때문입니다.
클로바X의 답변에 의하면 구글 데이터를 일부 사용하지만 대부분 네이버 데이터를 위주로 하고 있다고 합니다.
가장 최신 데이터가 언제인지 궁금하여 질문하였으나 답을 하지 않습니다.
참고로 1주일 전 기사를 질문했을 땐 답을 하지 못했습니다.
2) 언어 대응 능력
한국어에는 능통하다고 했으니 영어로 질문하면 어떻게 답변하는지 봤습니다.
영어로 질문했지만 답변을 한글로 합니다. 이 부분은 좀 아쉬웠습니다. 글로벌 플랫폼들은 질문 언어로 답변을 하는데, 클로바X는 한글 답변이 기본 세팅으로 보여집니다.
3) 해외 정보에 대한 답변 능력
해외 정보를 어떻게 답변하는지 보았습니다.
아주 기본 정보인데요. 답변 내용을 보면 이상하죠? 앞에는 제대로 답변하고 뒤에는 이상한 답을 합니다.
이것은 앞에 제가 트랜스포머가 뭐냐고 질문했을 때에도 했던 답변을 기억하고 덧붙이는 걸로 보여집니다. 즉, 대화의 맥락과 기존 대화가 사용자로부터 거절 됐다는 것에 대해서 인지하지 못하는 걸로 보여집니다.
4) 에러 발생
우연히 발견한 것인데요. 트랜스포머 질문을 이어가자 이상반응이 나타났습니다.
문법도 틀리고, 말을 반복하더니, text 창이 나타나서 같은 답변을 3번 반복했습니다.
트랜스포머에 대해서 다소 민감한 반응처럼 보여져서 이상하게 생각 됐습니다.
5) 트랜스포머에 대한 질문 이어가기
분명 트랜스포머를 유사하게 참조한 모델일거라 생각했는데, 클로바X는 하이퍼클로바를 기반으로 했고 트랜스포머를 절대 참조하지 않았다고 답변을 했습니다.
그러나 GPT의 답변과는 차이가 있습니다.
GPT는 하이퍼클로바도 트랜스포머의 변형 형태라고 하는반면 클로바X는 절대 유사하지 않다고 강조하고 있습니다.
나무위키에 검색해보니 트랜스포머가 기반이 된 모델이 맞습니다.
6) 전문적인 질문에 대한 답변
상당히 실망스러웠습니다. 전문적인 지식에는 아예 답변을 하지 못하는 모습입니다. 신기한건 LLM 특성상 할루시네이션이 나올법도 한데 모르겠다고 한 부분입니다.
7) 한국어 능력
네이버에서 강조했던 부분이기 때문에 한국어에서 지시하는 내용을 충실하게 이행하는지에 대한 부분입니다.
동일한 프롬프트를 입력했던 결과입니다.
물론 모든 프롬프트에 대해 클로바X가 더 떨어진다고 말할 수야 없겠지만 저는 일반적인 정보를 물은게 아니라 ‘캐릭터로 만들었을때’ 라는 가정을 했음에도 클로바X는 아주 일반적인 정보의 카테고리만 말해주는걸 볼 수 있습니다.
즉, 사용자의 의도에 충실하게 2차적인 정보 가공까지 수행하는 것이 다소 버거운가 하는 생각이 들었습니다.
8) 쇼핑, 예약 연계 서비스
가장 기대했던 부분입니다.
연계 서비스를 쓰려면 위의 레이아웃에서 1번 토글 스위치를 On 해주셔야 합니다.
좌측 답변은 일반 답변이고, 우측은 토글을 On 했을 때 답변입니다.
상단 답변은 동일하고 구체적인 제품명을 말해준다는 차이가 있습니다.
그러나 실제 구매 페이지가 연결되거나, 하지는 않았으며, 이건 앞에 다른 글에서도 지적한대로 오픈 마켓을 지향하는 네이버가 검색 결과에 얼만큼의 판매자 정보를 노출시켜줄건가에 대한 딜레마가 있을거라 생각합니다.
예약기능은 사실 잘 구현되면 매우 편리할텐데 쇼핑과 동일한 수준이었습니다.
리스트에 뜰 수 있는 정보를 나열하는 정도입니다.
3. 총평
- 한국어 : 지시를 충실하게 수행하지 않으며 해외 모델대비 더 나은 한국어 구사에 대한 차별점을 찾지 못했습니다.
- 언어 유창성 : 매우 틀에 박힌 답변을 많이 합니다. GPT는 때론 사람처럼 느껴질 정도의 다양한 대화 패턴을 보여주는데 클로바X는 과거 머신러닝 챗봇 같은 느낌입니다.
- 데이터 최신성 : 정확한 학습 일자를 답하지 않아 알 수 없었습니다.
- 데이터 전문성 : 데이터 셋이 네이버에 한정되다보니 생긴 문제로 보입니다. 전문적 답변은 기대 이하였습니다.
- 쇼핑, 예약 등 연동 : 현재는 구체적인 목록 정도를 제시하는 수준으로 체감할만한 편의성은 안보입니다.
대화는 3시간 당 30개로 제한되어 있습니다.
이 부분은 차차 나아질거라 생각합니다만 기대했던 만큼의 차별점이나 한글에서의 유창성을 두드러지게 보여주지 못한 부분은 아쉽습니다.
역시 LLM은 데이터의 품질과 양이 중요한 것이지 학습 언어의 문제는 아니지 않을까 하는 기존 가설을 뒤짚지 못한 것 같습니다.
블로거나 지식인에 글을 쓰는 창작자들이 클로바X를 쓸지 GPT를 쓸지 궁금합니다만 글의 품질을 위해서라면 현재의 수준에서는 당연히 GPT를 쓸 것 같습니다.
앞으로도 클로바X가 잘 발전하기를 기대해보겠습니다.