OpenAI의 인공 지능 기반 챗봇 챗GPT는 출시와 함께 폭발적인 인기를 얻었다. 무엇보다 그동안 전문가들의 영역으로만 여겨지던 인공 지능 산업을 일반 소비자들도 접하고 활용할 수 있다는 사실에서 그 반향은 가히 메가톤급이라 할 수 있다.
이에 따라 관련 기업들은 경쟁적으로 챗GPT의 대항마를 개발하는 데 전력을 기울이는가 하면 일각에서는 챗GPT 활용에 따른 발생 가능한 부작용에 대한 논쟁이 벌어지는 등 인공 지능은 말 그대로 전 세계적인 화두로 부상하고 있다.
◆완벽 대명사인공 지능…장기간 반복 작업 시 기능 저하
이처럼 인공 지능과 챗GPT가 세계적인 관심의 중심에 서 있는 가운데 최근 챗GPT도 출시 후 시간이 경과 할수록 기능이 저하된다는 연구 결과가 나와 주목을 받고 있다.
이는 곧 인공 지능 만능 주의를 부르짖을 만큼 완벽할 것으로 인식되던 인공 지능도 시간이 지나면 노화된다는 사실이 드러난 것으로 업계와 학계는 물론 전문가들로부터도 관심이 집중되고 있다.
해외 블록체인 전문 매체 코인텔레그래프(Cointelegraph)는 최근 미국 스탠포드대학교와 UC 버클리 연구원들의 연구 결과를 인용해 OpenAI의 인공 지능 기반 챗봇 챗GPT가 시간이 지남에 따라 정확도가 떨어지는 등 갈수록 악화되는 모양새를 하고 있으며 다만 연구원들은 아직 그 이유를 파악하지 못하고 있다고 밝혔다.
이러한 주장은 지난 7월 18일 미국 스탠포드 대학교와 UC 버클리의 연구원들이 발표한 챗GPT와 관련한 연구 결과에 근거하고 있다.
이들 연구원들은 챗GPT의 최신 모델이 출시 이후 몇 달 안에 동일한 일련의 질문에 대한 정확한 답변을 제공할 수 있는 능력이 훨씬 저하됐다는 사실을 발견했다.
다만 이 연구를 주도한 연구원들도 인공 지능 챗봇의 기능이 시간이 경과함에 따라 저하되는 이유에 대해서는 명확한 답변을 제시하지 못했다.
앞서 Lingjiao Chen, Matei Zaharia, James Zou 등의 연구원들은 챗GPT의 다양한 모델들을 얼마나 신뢰할 수 있는지 여부를 테스트하기 위해 챗GPT-3.5와 챗GPT-4 모델에 일련의 수학 문제를 풀고 민감한 질문에 대답하며 새로운 코드 줄을 작성하고 프롬프트에서 공간 추론을 수행하도록 요청했다.
연구 결과에 따르면 3월에 챗GPT-4는 97.6%의 정확도로 소수를 식별할 수 있었다. 하지만 지난 6월 실시한 같은 실험에서 GPT-4의 정확도는 2.4%로 곤두박질쳤다.
◆챗봇 유지보수·모니터링…인공 지능 성능 유지 관건
반면, 이와는 대조적으로 이전의 챗GPT-3.5 모델은 동일한 시간 범위 내에서 소수 식별이 개선된 것으로 나타났다.
또한 새로운 코드 라인을 생성하는 것과 관련해서는 챗GPT-3.5와 챗GPT-4 두 모델의 기능은 3월과 6월 사이에 크게 저하됐다.
이번 연구는 또한 인종과 성별에 초점을 맞춘 일부 민감한 질문에 대한 챗GPT의 응답이 나중에 답변을 거부하는 데 더 간결해졌다는 것을 발견했다.
또 챗봇의 초기 반복이 왜 특정하고 민감한 질문에 대답할 수 없는지 그 이유에 대한 광범위한 추론을 제공했다. 하지만 6월에 이들 모델들은 단순히 사용자에게 사과하고 답변을 거부했다.
연구원들은 “동일한 대규모 언어 모델 서비스의 동작은 비교적 짧은 시간 내에 크게 변경될 가능성이 있다”며 “따라서 인공 지능 모델 품질에 대한 지속적인 모니터링이 필요하다”고 지적했다.
이와 관련해 연구원들은 워크플로우의 구성 요소로 LLM 서비스에 의존하는 사용자들과 기업들은 챗GPT와 같은 챗봇이 최신 상태를 유지하도록 보장하기 위해 어떤 형태로든 모니터링 분석을 구현할 것을 권장했다.
학계와 전문가들은 이번 스탠포드 대학교와 UC 버클리의 연구원들의 연구 결과가 어느 정도 발생 가능한 일로 인식하고 있다. 완벽할 것으로 예상되는 인공 지능의 경우도 여타 기기들의 경우처럼 기계적 결함 또는 장기간 반복적인 작업 진행 시 성능 저하 상황이 발생할 가능성은 충분히 있다는 판단에서다.
따라서 전문가들은 이번 연구 결과는 챗GPT를 출시한 OpenAI는 물론 현재 인공 지능 챗봇의 개발을 진행 중인 인공 지능 기술 개발 기업들에게 챗봇의 유지 보수 및 사후 모니터링 실시의 중요성에 대한 메시지를 던져주고 있으며 이러한 사후 조치가 실행되지 못해 기능 저하 상황이 반복적으로 이어질 경우 인공 지능에 대한 선풍적인 인기는 어느 순간 신기루처럼 사라질 가능성도 배제할 수 없다고 지적하고 있다. [뉴스드림]