클로바X(네이버 인공지능), 영혼없는 태도 너무한거 아닌가

클로바X에게 조금 더 다양한 업무를 시켜봤습니다. 한국어에 특화됐다는 네이버의 주장에 전혀 설득되지 않고 있는 가운데 조금 더 다양한 질문에 어떻게 대응하는지 보시죠

(참고 : 클로바X(네이버 인공지능) 폭주시키기. GPT4와 비교)
(참고 : 네이버 인공지능 클로바X, GPT4와 비교해보니 아직 갈 길이)

텍스트 배열로 그림 그리기

LLM은 언어모델과 그림 그리는 모델이 별도이지만 정해진 역할에 한정되지 않고 여러 기능을 조합하여 사용자에게 맞추는 LLM의 특성상 GPT에게 텍스트 배열로 특정 형상을 만들라고 시키면 잘 해왔습니다.

한국어를 더 잘 이해하는 클로바X이니 당연히 이해할 거라 생각했습니다만 결과는 아쉬웠습니다.

1) 클로바X

클로바X 답변

2) GPT4

꿈 해몽 시키기

한국 사람은 꿈에 민감합니다. 하지만 서양인들은 꿈 해몽에 대한 문화 자체가 거의 없습니다. 그래도 GPT는 꿈 해몽을 해주는걸 알고 있기에 네이버를 기반으로 하는 클로바X는 더 잘 하지 않을까 기대를 가지고 시켜봤습니다.

1) 클로바X

2) GPT4

번역시키기

일반적인 번역에는 당연히 잘 할거라 생각합니다. 하지만 전달하는 톤은 매우 다를 것 같은데요. 한번 비교해보시죠. 영어는 너무 쉬우니 라틴어로 해보겠습니다.

1) 클로바X

2) GPT4

둘의 어순이 살짝 다릅니다. 누가 맞냐를 떠나 클로바X의 경우에는 그냥 번역만 제공하지만 GPT의 경우 번역을 할 뿐 아니라 문법적으로 고려했던 내용까지 설명하고 있습니다.

어떤 방식이 더 한국 언어에 적합해 보이시나요?

작문 시키기

일부러 GPT가 못하는 영역을 포함해서 작문을 시켜봤습니다. 아시다시피 GPT는 21년 자료까지만 학습이 되었는데요. 22년도 발생한 러시아 우크라이나 전쟁을 주제로 글을 시켜봤습니다.

1) GPT4

알지도 못하는 22년도 전쟁이지만 일반적인 접근법 내에서 전쟁을 바라보는 시야를 담아낸 글을 제법 잘 썼습니다. 아마 전쟁 자체의 fact가 크게 중요하다기 보다는 전쟁 당사국들과 한국의 관계에 대한 자신의 이해도를 바탕으로 글을 썼다는걸 알 수 있습니다.

2) 클로바X

또다시 영혼없는 답변, 그리고 폭주가 시작됩니다. 왜 자꾸 했던 말을 무한 반복하는걸까요?

실시간 검색 : 클로바X, GPT, Bing

당연히 GPT는 22년도 뉴스를 모릅니다. 이걸 저희도 이해한 채로 업무를 주어줬습니다. 보통 이런 실시간성 업무를 할 때에는 GPT가 아니라 Bing 이 더 유용합니다. 그래서 이번엔 클로바, GPT, Bing 비교합니다.

1) 클로바X

출처까지 넣고 제대로 된 최근 뉴스를 반영합니다. 하지만 저와 대화를 하는 느낌보다는.. 누가봐도 로봇같은 답변 방식이죠?

2) GPT4

정보가 없음을 솔직하게 말하고, 이전에 학습된 것에서도 충분히 추정할 수 있는 정보를 저에게 최선을 다해 전달하려는 노력이 보여집니다.

3) Bing

원래 실시간 검색은 GPT가 아니라 Bing을 주로 사용하기 때문에 당연히 비교대상이 Bing이 맞습니다. Bing 역시 GPT를 기반으로 하기도 하구요. 출처가 훨씬 다양하고 기존에도 존재하던 긴장이 왜 이번에 더 주목받는지를 알 수 있는 멘트도 들어갑니다.

자료 정리시키기

여러가지 내용을 정리하도록 시켜보았습니다. 데이터에 쌓인 것만 그대로 나열하면 무가치하기 때문에 비교하도록 시켰습니다.

1) 클로바X

표로 정리하라고 지시했으나 한 줄만 표고 나머지는 불렛 포인트로 정리했습니다. 게다가 비교하라고 지시했는데 비교가 아니라 아는 내용을 그대로 나열만 했습니다. 심지어 뭘 근거로 말하는지도 와닿지가 않습니다. 죄다 자연어 처리에서 높은 성능이고 대화형이다. Bing은 검색 위주의 서비스이기 때문에 맞지도 않습니다. 참 실망스럽네요

2) GPT4

제가 지시한 지시문을 그대로 이행했습니다. 심지어 GPT는 클로바X가 나오기 한참 전 모델이므로 2년전 기준에서 자신이 알고 있는 네이버라는 회사와 클로바X에 대한 정보를 추론한 것으로 보여집니다.

맺으며

재미있는 비교였던 것 같습니다. 이번에는 클로버X의 특징을 조금은 이해한 것 같기도 합니다. 과거 Rule based 챗봇보다 진화한 것은 맞지만 누가 봐도 챗봇임을 확신할 수 있는 수준의 성능입니다. 게다가 자신이 잘못 알고 있거나 책임 소재가 염려되는 부분은 영혼없는 말투로 일관하며, 트랜스포머 때처럼 폭주하는 모습을 보여줍니다.

분명한건 네이버가 한국어에 더 특화되었다. 이 말은 완전 틀린 것입니다. 대화의 자연스러움도 지시자의 지시를 이행하는 것도 모두 GPT 모델이 훨씬 앞서있습니다.

다른 비교도 원하시는 분이 계시다면 댓글로 달아주시면 시도해보겠습니다.

Leave a Comment