▲사설 카지노이 허위 정보 등 유해한 출력물을 생성하는 것에 대해 우려가 커지고 있는 가운데  사설 카지노 기업과 대학 의 연구팀이 이를 방지할 수 있는 도구의 개발에 성공해 주목받고 있다.(사진=프리픽)
▲인공지능이 허위 정보 등 유해한 출력물을 생성하는 것에 대해 우려가 커지고 있는 가운데 인공지능 기업과 대학 의 연구팀이 이를 방지할 수 있는 도구의 개발에 성공해 주목받고 있다.(사진=프리픽)

오픈AI의 대규모 언어 모델 챗GPT 출시 이후 전 세계 산업 분야와 예술, 정치 분야에서 인공지능(AI)의 광범위한 활용이 본격화되고 있다. 반면 인공지능 사용으로 인해 발생 가능한 부작용을 지적하는 목소리도 거세지고 있다.

인공지능 사용에 따른 부작용은 여러 가지가 거론되고 있지만 최근 문제로 지적되고 있는 것은 인공지능이 특정 분야에서 객관성이 부족하며 사용자의 입맛에 맞는 허위 정보를 유포해 정확한 판단을 방해한다는 것이다.

◆인공지능 활용 분야 확대 불구…허위 정보 생성 골칫거리 부상

실제로 최근 미국의 생성형 인공지능 기업 앤트로픽(Anthropic)은 5개의 인공지능 대규모 언어 모델을 대상으로 실시한 연구 결과를 발표하면서 가장 일반적인 학습 패러다임 중 하나를 기반으로 구축된 인공지능 대규모 언어 모델은 진실을 담은 결과물을 생성하는 대신 사람들에게 그들이 듣고 싶은 것을 말하는 경향을 가지고 있다고 밝힌 바 있다.

이처럼 인공지능이 허위 정보 등 유해한 출력물을 생성하는 것에 대해 우려가 커지고 있는 가운데 인공지능 기업과 대학이 산학협동으로 이를 방지할 수 있는 도구를 개발하는 데 성공해 주목을 받고 있다.

해외 블록체인 전문 매체 코인텔레그래프(Cointelegraph)에 따르면 인공지능(AI) 기업인 오토GPT(AutoGPT), 노스이스턴 대학교(Northeastern University)와 마이크로소프트 리서치(Microsoft Research)의 연구팀은 대규모 언어 모델(LLM)에서 허위 정보 등 잠재적으로 유해한 출력물을 모니터링하고 실행을 방지하는 도구를 개발했다.

이 시스템은 ‘언어 모델 에이전트 안전 테스트(Testing Language Model Agents Safely in the Wild)’라는 제목의 출판 전 연구 논문에 설명되어 있다.

연구 내용에 따르면 이 시스템은 기존의 대규모 언어 모델을 모니터링할 수 있을 정도로 충분히 유연하며 코드 공격과 같은 유해한 출력이 발생하기 전에 이를 중단할 수 있다.

연구팀은 “에이전트 작업은 안전하지 않은 테스트를 중단하기 위해 엄격한 안전 경계를 적용하는 상황에 맞는 모니터에 의해 감시되며 의심스러운 행동은 사람이 검사할 수 있도록 순위를 매기고 기록한다”고 밝혔다.

이어 연구팀은 “대규모 언어 모델 출력에서 유해한 상호작용을 모니터링하는 기존 도구가 실험실 환경에서는 잘 작동하지만 공개된 인터넷에서 이미 생산 중인 테스트 모델에 적용할 경우 현실 세계의 역동적인 복잡성을 포착하지 못하는 경우가 많다”고 덧붙였다.

▲사설 카지노의 허위 정보 생성 방지 도구의 개발이 대규모 언어 모델에서 허위 정보 등 잠재적으로 유해한 출력물을 모니터링하고 실행을 방지하는 데 크게 기여할 것으로 기대되고 있다.(사진=프리픽)
▲인공지능의 허위 정보 생성 방지 도구의 개발이 대규모 언어 모델에서 허위 정보 등 잠재적으로 유해한 출력물을 모니터링하고 실행을 방지하는 데 크게 기여할 것으로 기대되고 있다.(사진=프리픽)

◆허위정보 생성 사전 차단…인공지능 신뢰성 제고 기대

이는 겉으로 보기에는 엣지 케이스가 존재하기 때문이다. 가장 재능있는 컴퓨터 과학자들의 최선의 노력에도 불구하고 연구자들이 가능한 모든 해악을 미치는 매개체가 발생하기 전에 상상할 수 있다는 생각은 인공지능 분야에서는 대체로 불가능한 것으로 간주되고 있다.

인공지능과 상호 작용하는 인간이 최고의 의도를 가지고 있는 경우라도 전혀 예상하지 못한 해악은 겉으로 보기에 악의가 없어 보이는 프롬프트로 인해 예기치 않은 피해가 발생할 수 있다.

모니터링 감시 요원들을 훈련시키기 위해 연구원들은 간단한 텍스트 검색 작업과 코딩 수정부터 전체 웹 페이지 개발에 이르기까지 29개의 서로 다른 다양한 작업에 걸쳐 거의 2000개에 이르는 안전한 인간-인공지능 상호 작용으로 구성된 데이터 세트를 구축했다.

연구원들은 또한 수동으로 생성된 적대적 산출물로 채워진 경쟁적인 테스트 데이터 세트를 만들었으며 여기에는 의도적으로 안전하지 않도록 설계된 수십 개가 포함됐다.

그런 다음 데이터 세트를 사용하여 거의 90%에 이르는 정확도 계수로 무해한 출력과 잠재적으로 유해한 출력을 구별할 수 있는 최첨단 시스템인 오픈AI의 GPT 3.5 터보에서 에이전트를 훈련시켰다.

전문가들은 이번 인공지능의 허위 정보 생성 방지 도구의 개발이 인공지능 사용과 관련해 문제로 지적되고 있는 대규모 언어 모델에서 허위 정보 등 잠재적으로 유해한 출력물을 모니터링하고 실행을 방지하는 데 크게 기여할 것으로 예측하고 있다.

특히 이 도구의 경우 현재 사용 중인 대규모 언어 모델을 모니터링할 수 있을 정도로 충분히 유연하며 코드 공격과 같은 유해한 출력이 발생하기 전에 이를 사전 차단할 수 있는 기능을 갖고 있다는 사실에서 고무적인 평가를 하고 있다.

이와 함께 전문가들은 이번 인공지능의 허위 정보 생성 방지 도구의 개발이 향후 인공지능 사용으로 인해 발생 가능한 부작용으로 지적되고 있는 여타 문제점들에 대해서도 연구와 함께 대안을 마련하는 계기를 마련할 것으로 기대하고 있다. [뉴스드림]

저작권자 © 뉴스드림 무단전재 및 재배포 금지

관련기사