본 논문에서는 Mediapipe와 OpenCV, 그리고 딥러닝 모델인 Long Short-Term Memory(LSTM)을 활용하여 저비용의 웹캠과 오픈소스 소프트웨어로 실시간 포즈 및 제스처 인식 시스템을 구현하였다. 제안된 시스템은 사용자의 신체 동작과 손 제스처를 실시간으로 분석하고 시스템에 명령으로 전달할 수 있는 기능을 제공한다. 실험 결과, 본 시스템은 높은 정확도와 실시간 처리 능력을 입증하였으며, 저비용으로도 딥러닝 기반의 고성능 모션 인식이 가능함을 보여주었다. 이러한 기술은 VR/AR 콘텐츠, 게임, 스포츠 분석 등 다양한 응용 분야에서 활용될 수 있으며, 사용자에게 직관적이고 자연스러운 상호작용 경험을 제공한다. 향후 연구에서는 성능 개선과 복잡한 동작 인식 기능의 확장을 통해 더욱 넓은 범용성을 갖춘 인터페이스로 발전시키는 방안을 모색할 것이다.
In this paper, a real-time pose and gesture recognition system was implemented with a low-cost webcam and open-source software using Mediapipe, OpenCV, and Long Short-Term Memory (LSTM), a deep learning model. The proposed system provides the ability to analyze a user's body movements and hand gestures in real time and deliver them to the system as commands. As a result of the experiment, this system proved high accuracy and real-time processing power, and showed that deep learning-based high-performance motion recognition is possible at low cost. These technologies can be used in various application fields such as VR/AR content, game, and sports analysis, and provide users with an intuitive and natural interaction experience. Future research will seek ways to develop an interface with wider versatility by improving performance and expanding complex motion recognition functions.