개요
AI Human Unity SDK
AI Human 기본 개념 (Video Conversation or AILive)
AI Human(화상대화 또는 AILive; AILive는 AI Human 예전의 명칭임) SDK는 학습된 AI를 화면에 실제 사람처럼 라이브(Live)로 표시할 수 있다. 그러나 화면만 라이브로 표시하는 것을 뛰어 넘어, 마치 영상 통화를 하듯이 AI가 자연스럽게 말을 할 수 있게 한다. 이 SDK의 가장 핵심적인 클래스가 AIPlayer이다.
AIPlayer는 AI 모델이 실시간으로 나오는 View(UserControl) 컴포넌트로써, 자유롭게 배치할수 있다. AIPlayer에 나오는 AI는 실제 사람의 목소리와 얼굴을 학습하여 만들어져서 기존의 TTS가 가진 기계적인 느낌이 없으며, 더욱 친숙하고 자연스러운 서비스를 구현할 수 있다.
또한 AIPlayer는 한가지 모델뿐만 아니라 다른 여러 AI 모델들을 선택할 수 있으며, 하나의 AI 모델을 선택하게 되면 일련의 로딩(사용자 인증과 리소스 로딩) 과정 후에 위와 같이 화면에 선택한 AI 모델이 보이며 대기 상태가 시작된다.
AI의 대기(Idle) 상태란 AI가 말을 하기 전 상대방의 말을 듣고 있는 상태라고 할수 있다. 이 대기 상태는 위 스크린샷처럼 정지된 상태가 아니라 실제 사람처럼 눈을 깜빡인다든가 고개를 살짝 끄덕이는 등의 행동을 하며 실제 사람처럼 자연스럽게 대기하도록 구현되어 있다. 이러한 모든 과정이 간단한 설정만으로 자동으로 이루어지는 심플한 구조를 가지고 있다.
그리고 사용자는 이렇게 대기 상태에 있는 클라이언트(AIPlayer)에게 어떤 말을 하도록(발화) 명령할 수 있다(예, "안녕하세요" 등). 이 명령을 받아 AI는 자연스럽게 말을 하기 시작하고 발화를 마치면 자연스럽게 다시 대기 상태로 돌아가게 된다.
발화 기능외에도 AI의 위치를 조정한다든가 말하기 속도 등을 바꿀수 있으며 추가로 다양한 기능을 제공한다. 이를 활용하여 유연하게 서비스를 구현할 수 있다. 또한 한국어 뿐 아니라 영어, 일본어, 중국어 AI 모델도 있으며 다국어 지원도 가능하다.