인공지능(AI)은 스스로 대화함으로써 이익을 얻을 수 있다

과학 연구원 2024. 1. 21. 17:33

2024. 1. 21. 17:33

내부 독백은 기계가 복잡한 작업을 더욱 안정적으로 수행하는 방법을 배우는 데 도움이 될 수 있습니다. 이제 인공지능(AI)은 인간 내면의 독백을 모방함으로써 이익을 얻을 수도 있을 것 같습니다. 실험실 실험에서 언어를 행동에 연결하면 복잡한 작업을 학습하는 인공지능 프로그램의 능력이 향상되었다고 연구원들은 지난달 신경 정보 처리 시스템 컨퍼런스에서 보고했습니다. 이러한 발전을 통해 인공지능은 유튜브 교육 비디오 등을 통해 학습할 수 있습니다.

인지와 언어를 연구하고 실험에는 참여하지 않은 로마 사피엔자 대학교의 심리학자 안나 보르기는 "정말 마음에 들었습니다. 가장 흥미로운 점은 언어의 존재가 유연성을 부여한다는 것입니다. 복잡한 작업도 더 쉽게 수행할 수 있습니다"라고 말했습니다.

개념 증명으로 브리티시 컬럼비아 대학의 컴퓨터 과학자인 성란 후와 제프 클룬은 20x20 그리드로 구성된 가상 2D 세계에서 임무를 수행할 수 있는 인공지능 에이전트를 설계했습니다. 여러 번의 시도를 통해 그리드는 9개의 방으로 나누어졌고, 때로는 잠기기도 하는 문으로 다양하게 구성되고 분리되었습니다. AI는 하나의 특정 개체를 찾아 다른 개체 옆에 배치해야 할 수 있으며, 이를 위해서는 열쇠 잡기, 문 잠금 해제 등 수백 단계가 필요할 수 있습니다.

에이전트에는 두 가지 구성 요소가 있으며 각 구성 요소에는 신경망(뇌 학습 방식을 모방한 소프트웨어 아키텍처)이 포함되어 있습니다. 에이전트는 자신이 향하고 있는 방향으로 그리드의 일부를 볼 수 있었고 첫 번째 구성 요소는 해당 시각적 정보와 미션 및 에이전트의 이전 생각을 사용하여 탐색하려면 '파란색 문을 열어라'와 같은 새로운 생각을 생성했습니다. 또는 보라색 상자로 가세요. 두 번째 구성 요소는 행동을 선택하기 위해 생각과 임무 및 관찰을 결합했습니다. 하나의 생각을 실행하려면 몇 단계에서 100단계 이상이 필요할 수 있습니다.

인공지능은 훈련을 받아야 했고, 이를 위해 연구원들은 이러한 문제를 해결하고 수행 중인 작업을 단계별로 설명하는 텍스트를 생성하기 위해 특별히 설계된 봇이 완료한 임무의 대규모 데이터 세트에 의존했습니다. 비교를 위해 그들은 행동 복제라는 기존 기술을 사용하여 에이전트를 교육했습니다. 명확한 생각의 이점 없이 임무와 관찰을 기반으로 행동을 예측하는 방법을 배웠습니다.

훈련받은 요원에게는 새로운 미로에서 새로운 임무가 할당되었습니다. 가장 복잡한 임무에서 행동과 생각을 모두 모방하도록 훈련된 에이전트는 약 80%의 성공률을 보였지만, 행동만 모방하도록 훈련된 에이전트는 약 30%의 성공률을 보였습니다. Hu는 언어가 다양한 추상화 수준에서 개념을 학습하고 이를 새로운 방식으로 결합하는 데 도움이 된다고 설명합니다. 고급 요원은 예상치 못한 장애물에 부딪힌 후에도 계획을 다시 생각할 수 있었는데, 후씨는 이것이 "멋지다"라고 생각했습니다.

성능 향상 외에도 후와 클룬이 사고 복제라고 부르는 방법을 사용하여 훈련된 인공지능은 사용자에게 신경망 세계에서는 보기 드문 기능, 즉 에이전트가 무엇을 생각하고 있는지 확인할 수 있는 기회를 제공합니다. 연구원들은 이것이 시스템 디버깅에 도움이 되고 안전에도 도움이 될 것이라고 말합니다. 인공지능이 위험한 것을 계획하고 있다면 인간 운영자가 이를 알리고 개입할 수 있습니다. 후는 기존의 무음 시스템에서는 "상담원이 은행으로 달려가는 것을 보면 그 직원이 은행을 털려고 할지 아니면 단지 현금을 얻으려고 할지 알 수 없습니다"라고 말합니다.

이러한 범죄 전 개입 테스트에서 연구원들은 에이전트가 빨간색 항목을 만지는 등 금지된 행동을 수행하기 전에 에이전트를 중지할 수 있음을 보여주었습니다. 모델을 재교육할 필요 없이 생각에 따라 실행되는 규칙을 추가하기만 하면 됩니다. 클룬은 이 접근 방식이 얼마나 효과적인지 보고 놀랐습니다. 그는 "아마도 '칼을 집어 들겠다'라는 말이 머릿속에 떠오르지 않은 채 항상 칼을 집어들게 될 것입니다"라고 말했습니다. 그러나 에이전트는 지속적으로 계획을 세워 안전장치가 작동하도록 했습니다.

연구원들은 시스템을 처음부터 훈련했습니다. 후는 앞으로 이미 일반 지식과 추론 요소가 포함되어 있는 OpenAI의 GPT-4 Vision과 같은 사전 훈련된 모델에 내부 독백 구성 요소를 추가하려고 시도할 것이라고 말했습니다. 궁극적으로 그들은 사고 복제 에이전트가 내레이터가 각 단계를 설명하는 유튜브 비디오와 같은 소스의 대량 정보로부터 유용한 기술을 배우기를 바랍니다. 클룬은 "누군가가 '이제 크루아상 만드는 법을 보여주겠다'고 말하는 동영상, 사그 파니르 요리하는 법, 오래된 쉐보레의 기화기 교체하는 법, 펑크 난 타이어 수리하는 법, 포토샵에서 사진 편집하는 법, 책을 읽는 장면 익스피디아에서 비행기를 타거나 마인크래프트에서 집을 짓는 등 모든 것이 학습의 먹이가 될 것"이라고 말했습니다.

최근 추론과 행동을 위한 또 다른 시스템인 ReAct를 개발한 프린스턴 대학의 컴퓨터 과학자 야오 순유는 "유튜브 동영상 아이디어는 매우 흥미롭다고 생각합니다"라고 말했습니다. 그는 "연구원들에게 OpenAI 수준의 리소스가 제공된다면, 그러한 접근 방식이 가능할 수도 있다"라고 말합니다. 그러나 이는 인공지능 개발자가 자신이 만들지 않은 콘텐츠로 이익을 얻는 것에 대한 새로운 우려로 이어질 수도 있습니다.

인공지능이 우리의 추상화 및 적응 능력을 복제할 수 있는 세상에서 "우리는 인간의 지능과 명확하고 강력한 사고 과정을 인공지능 에이전트에 바로 주입할 수 있습니다"라고 클룬은 말합니다. 인간에게는 단순한 작업이지만 인공지능 종류에게는 큰 도약이라고 할 수 있습니다.

'과학 정보' 카테고리의 다른 글

우주는 왜 진공 상태일까요? (0)	2024.01.22
진공상태의 우주에서 인간의 몸은 어떻게 될까요? (0)	2024.01.21
세계 최대 중력파 관측소, 양자 한계 너머로 빛을 쥐어짜다 (0)	2024.01.21
일부 갑각류는 실크를 만드는 방법을 진화시켰다 (1)	2024.01.20
인간은 서로의 감정을 냄새로 맡을 수 있지만, 어떻게 느끼는지는 모른다 (0)	2024.01.20

우주 과학 정보

인공지능(AI)은 스스로 대화함으로써 이익을 얻을 수 있다

'과학 정보' 카테고리의 다른 글

+ Recent posts

티스토리툴바