들어가기전
이 레포트는 2024년 4월 석사 1학년에 인지 감성과 AI 수업(이상원 교수님)에서 작성한 레포트이다. 이 레포트는 Intelligence Personal Assistant 디바이스인 Rabbit r1의 Large Action Model을 기반으로 한 Action teach mode를 Human Information Processing 과정으로 분석하고 여기서 나온 문제점을 해결하기 위해 새로운 teach mode 인터페이스를 제안한다.
1. Product/System Overview
이번 CES 2024에서 아주 큰 화제 중 하나였던 새로운 AI 에이전트 기기, Rabbit r1에 대해 소개하려고 한다. 이 장치는 전통적인 스마트폰 개념을 넘어서는 혁신적인 AI 중심의 디바이스로 개인화된 AI 경험을 제공한다는 것이 가장 큰 특징이다. Rabbit r1은 아이언맨의 ‘자비스’처럼 사람의 일상을 도와주는 생성형 AI 비서로 일정 관리, 번역, 이미지 생성, 검색 등 다양한 역할을 수행할 수 있다. 스마트폰이 아닌 별도의 독립된 디바이스로 <그림 1>과 같이 오른쪽 PTT (Push-to-Talk)버튼을 눌러 사용자는 말을 통해 프롬프트를 입력할 수 있다. 프롬프트가 디바이스에 인식이 되면 대화형 인터페이스를 통해 생성 문장들을 출력하며 사용자의 요구를 수행한다. 또한 우측 상단에 위치한 360° 카메라를 통해 실제 환경에서 보이는 것을 비전으로 입력하고 입력된 비전 데이터에 대한 행동을 제시할 수 있다.
Rabbit r1의 가장 큰 특징은 바로 자체 운용 체제인 Rabbit OS를 기반으로 동작들을 수행한다. 아래는 Rabbit OS의 특징들이다.
① LAM(Large Action Model): Rabbit OS의 핵심에는 장치가 광범위한 사용자 작업을 이해하고 수행할 수 있는 AI 모델인 LAM이 있다.
② 클라우드 기반 앱 실행: Rabbit OS는 보안 클라우드에서 앱을 운영하므로 온보드 앱이나 외부 API 연결이 필요하지 않다. 사용자는 기본 설정을 관리하고 R1 장치를 연결하는 중앙 허브 역할을 하는 Rabbit Hole 웹 포털을 통해 Rabbit이 사용하기를 원하는 앱에 로그인할 수 있다.
③ 개인 정보 보호 및 보안: Rabbit OS는 개인 정보의 개인 정보 보호 및 보안을 보장하면서 사용자 의도를 이해한다. 이름, 전화번호, 이메일 주소와 같은 개인 식별 정보는 어떤 목적으로도 사용되지 않는다.
이를 통해 사용자 상호 작용 및 앱 실행에 대한 혁신적인 접근 방식을 통해 독특한 사용자 경험을 제공하고 다양한 기능을 활성화하도록 설계되었다.
2. Typical User Situation
Rabbit r1 디바이스를 통해 다양한 기능들을 제공한다. LAM(Large Action Model)을 통해 검색, 노래 재생, 이미지 생성, 실시간 번역 등 다양한 작업을 수행할 수 있다.
특히, Rabbit r1의 가장 주목할 만한 특징 중 하나는 LAM(Large Action Model)을 통해 사용자의 행동을 학습할 수 있다는 것이다. 이는 스마트폰과의 주요 차별점 중 하나이다. 스마트폰에서는 많은 앱을 다운로드하고, 각 앱마다 다른 동작을 수행해야 하는 불편함이 있다. 그러나 Rabbit r1은 'Teach mode'를 통해 사용자의 의도 혹은 행동 패턴을 학습하고 웹과 앱을 직접 작동시킨다. 예를 들면 ‘Spotify’에 들어가 ‘Search’에서 ‘Ed Sheeran – Photograph’를 검색한 후 플레이리스트에 추가하는 동작을 'Teach mode'에서 녹화하였다고 한다. 이 경우 <그림 3>과 같이 LAM(Large Action Model)에서 ‘어플 진입’ ▶ ‘검색창’ ▶ ‘노래 검색’ ▶ ‘플레이리스트 추가’의 패턴을 학습한 후 Rabbit r1 디바이스에서 “Spotify에서 ‘NewJeans’의 ‘Ditto’를 플레이리스트에 추가해줘” 라는 프롬프트가 들어왔을 때 학습된 패턴을 바탕으로 동작을 수행해준다.
이를 통해 음성 기반으로 작동하며, 앱에 들어가지 않고도 사용자의 요구를 처리할 수 있다. 이를 통해 Rabbit r1은 스마트폰과는 다른 사용자 경험을 제공하며, 사용자가 편리하고 쉽게 기기를 활용할 수 있다.
3. Use Scenario
앞서 언급한 것처럼 Rabbit r1의 가장 큰 특징은 행동을 학습한 다음 앱에 접근하지 않고 패턴대로 행동을 한다는 것이다. 이때 녹화를 통해 녹화된 행동들을 LAM(Large Action Model)에 넣어서 패턴들을 학습한다. 본 과제에서는 Rabbit에서의 LAM(Large Action Model) 학습 부분에 중점을 두고 사용 시나리오를 설정하겠다. 사용자는 우선 해외여행을 가기 위해 ‘에어비앤비’에서 숙소를 예약하려는 상황이다. 사용자는 LAM(Large Action Model)을 학습시키기 위해 <그림 4>와 같이 행동할 것이다.
이를 통해 사용자는 ‘숙소 예약’에 대한 동작들을 학습시키고 Rabbit r1 디바이스를 통해 학습된 동작을 명령할 수 있게 된다.
4. Stimuli in the Scenario
위에서 정의한 사용 시나리오는 LAM(Large Action Model)을 학습시키는 웹 포털인 ‘Rabbit Hole’의 'Teach mode'에서 진행된다. 이런 시스템 때문에 시나리오에 대한 자극은 오직 시각적인 자극에만 의존한다. 사용자는 ‘Rabbit Hole’에 들어가 'Teach mode'에 대한 설명이 적힌 창의 간단한 텍스트, 색상, 도형 등 시각적 정보를 받는다. 이 후 ‘에어비앤비’ 사이트에 들어가 User Interface의 사진, 텍스트, 날짜 정보 등을 보며 숙소 예약에 대한 행동을 취한다. 이 후 행동이 완료되었다고 판단하면 좌측 하단에 빨간색으로 되어 있는 ‘Stop recoding’ 버튼을 보고 누르게 된다. 이처럼 LAM(Large Action Model)을 학습시키는 과정을 'Teach mode' 인터페이스, ‘에어비앤비’ 인터페이스 두가지 측면으로 볼 수 있으며 이때 자극은 두 과정 모두 시각적 자극으로 텍스트, 색상, 도형 정보들을 포함하게 된다.
5. Information Processing Analysis
현재 시나리오에 대한 System Environment는 학습하고자 하는 사이트를 행동으로 녹화하여 학습하려하는 상황으로 <표 1>과 같은 Human Information Processing을 따를 것이다.
Aspect | Each stage of Human Information Processing | |
'Teach mode' Interface |
Stimuli | - 시각적으로 대쉬보드에 대한 정보를 봄 - 녹화하기를 누르는 버튼 정보 - 레코딩 종료를 하고 업로드 창 대쉬보드 정보 |
Sensing & Perception | - 학습 대쉬보드 인터페이스 시각적 정보(녹화 버튼, 녹화 전 화면) - 녹화가 시작되었구나 정도 지각 |
|
Working Memory | - 녹화 시 주의할 정보를 메모리에 저장 - “녹화중이구나”라는 정보 메모리에 저장 |
|
Cognition | - 학습을 수행하며 다음 행동에 대해 생각하고 인지함 | |
Response | - 녹화에 대한 설명 정보를 보고 학습 때 주의할 부분에 대해 생각함 - 행동이 완료되면 녹화 종료를 함 |
|
‘Air B&B’ Interface |
Stimuli | - 내가 알고 있는 시스템의 시각적 인터페이스가 나옴 |
Sensing & Perception | - 웹 홈페이지에 접속함 지각 | |
Working Memory | - 웹에서 해야할 동작에 대한 기억을 LTM에서 불러옴 | |
Long Term Memory | - 학습하고자 하는 사이트가 어디인가? - 학습하고자 하는 동작을 하기 위해 어떤 행동들을 해야하는가? |
|
Cognition | - 다음 동작으로 어떤 행동을 해야할 지 인지 - 어떤 호텔을 선택할 지 인지 |
|
Response | - 학습할 사이트에 접속하여 행동을 취함 |
<표 1> Human Information Processing in LAM(Large Action Model)
우선 'Teach mode' Interface 측면부터 살펴보자면 여기서는 <그림 5>처럼 녹화 전 간단한 설명과 녹화 후 화면에서 녹화 종료 버튼이 보여준다. 그 후 녹화하는 도중 녹화 종료에 대한 버튼만 보이며 녹화 종료한 후 업로드 과정까지 보여준다. 이 시각적 정보를 통해 사용자는 어떻게 학습해야 하는지에 대한 녹화 정보를 받아 Human Information Processing을 거치게 된다.
다음 ‘Air B&B’ Interface 에서는 시나리오에서 설정한 각 단계들을 거치며 각 단계에 해당하는 User Interface가 시각적 정보로 들어오게 된다. 이 정보들을 바탕으로 사용자는 내가 학습하고자 하는 행동패턴에 대해 생각을 하며 다음 동작으로 계속 이어 나간다. 이때 행동하고자 하는 정보를 과거 Long Term Memory에서 불러와 Human Information Processing을 거치게 된다.
6. Concerns/Problems in Information Processing
현재 LAM(Large Action Model)은 단순히 사용자 행동의 녹화를 기준으로 사용자 개입이나 피드백 메커니즘을 제공하지 않고 녹화된 동작을 알고리즘에 전적으로 맡긴다. 이때 녹화 전 'Teach mode' Interface를 통해 녹화 시작, 멈춤, 종료에 대한 버튼 설명 밖에 제공하고 있지 않다. 이런 현 시스템은 사용자와 인공지능 모두에게 문제점이 될 수 있다. 현재 단순 녹화 기반 학습 시스템에 대한 5가지 문제점을 아래 제시하고자 한다.
① 사용자 개입 부재:
현재 시스템은 사용자의 개입이나 피드백을 제공하지 않고, 녹화된 동작을 알고리즘에 전적으로 맡기고 있다.
② 학습 과정 중에 효과적인 대화형 피드백 부재:
‘Teach mode’에서 사용자가 작업을 기록하는 동안, 학습이 효과적으로 진행되고 있는지에 대한 실시간 피드백이 부족하다. 이로 인해 사용자는 자신의 행동의 정확성에 대해 불안해할 수 있을 것이다. Nielsen Norman Group의 10 Usability Heuristics for User Interface Design (Nielsen, 2024) 중 첫번째 조건인 'Visibility of System Status'에 의하면 시스템은 항상 적절한 시간 내에 피드백을 통해 사용자가 진행되고 있는 일에 대해 정보를 지속적으로 제공해야 한다. 사용자에게 가시성을 제공하는 인터페이스를 통해 문제를 해결하고자 한다.
③ 녹화 중 사용자의 불필요한 동작의 영향:
‘Teach mode’에서 녹화 중에 사용자의 불필요한 동작이 발생할 경우, 이러한 동작이 학습 프로세스에 부정적인 영향을 미칠 것을 우려된다. AI의 맥락에서의 Behaviorism(Trajkovski, 2024)을 보다 활성화하기 위해 효과적인 프롬프트 작성을 강조하였다. AI 동작을 미세 조정하여 시스템이 실수로부터 학습하고 시간이 지남에 따라 개선되도록 하는 데 중요한 것이다. 이 때문에 ‘Teach mode’에서는 녹화 영상이 프롬프트 부분에 해당할 것이므로 사용자의 불필요한 동작을 제외하기 위한 녹화 후 편집 기능이 필요하다.
④ 사용자의 자신의 행동에 대한 불확실성:
Air B&B 인터페이스에서 사용자는 자신의 행동이 학습 목표와 일치하는지를 식별하는 데 어려움을 겪을 수 있다. 불확실성은 원하는 다음 동작의 효과적인 수행에 방해가 될 수 있다. 이를 Probabilistic Decision Theory 관점으로 본다면 x는 ‘나의 이전 동작’, a는 ‘확실성을 가질 경우 나의 다음 동작’, b는 ‘불확실성을 가질 경우 나의 다음 동작’, prior을 ‘모델이 학습되어 원하는 동작을 수행할 확률’이라고 하겠다. 이때 Decision Making은 a일 때 다음 동작에 대한 학습이 잘 될 확률이 더 높을 것이다. 이 때문에 우리는 b에 대한 불확실성을 낮추고 a에 대한 확실성을 높여 misclassification을 줄일 필요가 있다.
⑤ 인공지능 모델 성능에 대한 초점:
Rabbit OS 개발팀은 주로 LAM(Large Action Model)의 성능 향상에 초점을 맞추고 패턴에 대한 추론을 하고자 한다. 그러나 사용자의 피드백을 학습 프로세스에 통합하면 정확도를 더욱 향상시킬 수 있을 것으로 예상된다. 이에 대한 예시로 ChatGPT에서도 사람의 피드백을 통한 강화학습이 효과가 있다는 연구(Ouyang, 2022)가 있는 것처럼 이 시스템도 사람의 개입으로 Adaptive Learning(Tulsiani, 2024)이 된다면 더 효과적일 것이다.
이러한 문제점을 해결하기 위해서는 사용자와의 상호작용을 강화하고, 사용자의 피드백을 적극적으로 수용하는 AI 모델을 개발하는 것이 필요하다. 사용자의 불확실성을 최소화하고 인공지능 모델의 성능을 향상시키는 데에 중점을 두는 방법을 제시하고자 한다.
7. Addressing Concerns/Problems with AI Development Strategies
위에서 제시한 것처럼 현재 녹화만을 통한 LAM(Large Action Model)에 의존하는 시스템은 개선할 필요가 있다. 문제점들을 해결하기 위해 'Teach mode' Interface에 대한 프로토타입을 만들어보았다.
우선 문제점 ①과 ②에서는 사용자와 인공지능의 상호작용에서 문제가 발생한다. 이 때문에 사용자에게 영상 녹화 중 동작을 구분 짓는 포인트를 실시간으로 보여주어 모델링이 잘 되고 있는지를 보여주어 이 문제점을 해결하고자 하였다. 아래 <그림 6>의 하단 부분과 같이 실시간으로 녹화되는 영상의 동작들을 AI가 판단한 Label을 붙여주어 내가 하는 동작과 AI가 추론한 동작이 어떤지 보며 실시간으로 상호작용을 할 수 있게 된다.
다음으로 문제점 ③은 사용자가 자신의 동작 중 불필요한 동작을 할 경우 인공지능 학습에 영향을 주어 패턴 추론에 부정적인 영향을 미칠 것이다. 이 때문에 <그림 7>의 하단 부분과 같이 사용자가 녹화를 마치고 난 후 영상 편집 기능을 통해 자신이 녹화 중 잘못 수행한 동작 부분을 삭제할 수 있다. 이를 통해 보다 더 효과적인 LAM(Large Action Model) 학습이 가능 할 것이다.
이어서 문제점 ④는 자신의 행동이 LAM(Large Action Model)에서 이해한 부분과 비슷할 것인지 다를 것인지 모르기 때문에 발생하는 불확실성 문제이다. <그림 8> 하단 부분의 장면마다 사용자가 동작한 것을 AI가 Labeling을 하여 실제로 내 의도와 모델이 이해한 것이 일치하는지 알 수 있게 되어 불확실성을 덜어줄 것이다.
마지막으로 문제점 ⑤는 LAM(Large Action Model)이 추론을 잘 못 했을 경우 사람의 개입이 어느정도 필요한 문제점이다. <그림 9>의 하단에 보면 사용자가 행동한 4번째 행동이 AI 모델에서는 “가격 선택”을 하는 행동이라고 판단하였지만 실제로는 “사람 수 선택”을 하는 행동일 경우 사람이 직접 보고 수정이 가능하다. 이를 통해 학습 과정에서 사람의 개입으로 Labeling을 수정하여 사용자의 의도에 맞는 학습이 가능할 것이며 LAM(Large Action Model) 성능 또한 좋아질 것이다.
이렇게 제시한 프로토타입 인터페이스를 통해 LAM(Large Action Model)의 성능을 개선할 뿐만 아니라 상호작용을 통한 사용자의 경험을 보다 더 개선할 수 있을 것이다.
8. References
Rabbit. (2024). Rabbit™. Retrieved from https://www.rabbit.tech/
Rabbit. (2024). Rabbit™ R1 Reviewer's Guide.
Pierce, D. (2024, April 24). A morning with the Rabbit R1: a fun, funky, unfinished AI gadget. The Verge. https://www.theverge.com/24138746/rabbit-r1-hands-on-ai-gadget-chatgpt
Nielsen, J. (10). Usability heuristics for user interface design.
Tulsiani, R. (2024, January 8). Creating Adaptive Learning With ChatGPT (AI). eLearning Industry. https://elearningindustry.com/creating-adaptive-learning-with-chatgpt-ai
Trajkovski, G. (2023). A More Beautiful Prompt: The Art of Human-Centered Prompt Engineering.
Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., ... & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35, 27730-27744.
'기술 > UX' 카테고리의 다른 글
Enhancing Credibility in Intelligent Personal Assistants: The Role of User Interaction in Learning Systems (0) | 2024.07.02 |
---|---|
UI Design Guidelines (0) | 2024.06.03 |
Finda 앱 UX측면의 역기획 (0) | 2024.06.03 |