1. Introduction
์ปดํจํฐ ๋น์ ๋ถ์ผ์๋ ๋ฌผ์ฒด์ ์์น๋ฅผ ์ฐพ๋ Object Detection, ํฝ์ ๋จ์๋ก ์ด๋ฏธ์ง๋ฅผ ๋ฒ์ฃผํํ๋ Image Segmentation, ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ๋ง๋๋ Image Generation ๋ฑ ๋ค์ํ Task๊ฐ ์์ต๋๋ค. ์ปค๋นํ์ ์ด ์ค์์ ์ฌ๋ ์ ์์ธ๋ฅผ ์ถ์ ํด ๋์์ ์ธ์ํ๋ Hand Pose Estimation์ ์ง์คํ์ต๋๋ค.
1.1. Hand Pose Estimaton์ ์ ํํ ์ด์
์ฐ๋ฆฌ๊ฐ ์ธ์๊ณผ ์ํธ์์ฉ ํ๋ ๋ฐฉ์์ ๋ค์ํฉ๋๋ค. ์ธ์ด์ ์ ์ค์ฒ๋ฅผ ํตํด ๋ค๋ฅธ ์ฌ๋๋ค๊ณผ ์์ฌ์ํตํ๊ฑฐ๋ ํค๋ณด๋๋ ๋ง์ฐ์ค๋ฅผ ์ฌ์ฉํด ์ปดํจํฐ๋ฅผ ๋ค๋ฃจ๊ธฐ๋ ํฉ๋๋ค. AI ์๋์ ์ ์ด๋ค๋ฉด์ ์ธ์๊ณผ ์ํธ์์ฉ ํ๋ ๋ฐฉ์์ ๋ ๋ค์ํด์ก์ต๋๋ค. ํนํ, ์ต๊ทผ ๋ช ๋ ์ฌ์ด ์ ๊ด์ ์ ์์น๋ฅผ ์ถ์ธกํ์ฌ ์ด๋ฅผ ๋ฐํ์ผ๋ก ์๋์์ ์ธ์ํ๋ Hand Pose Estimation ๊ธฐ์ ์ด ํฌ๊ฒ ๋ฐ์ ํ์ต๋๋ค. ์ด์ ์ฐ๋ฆฌ๋ ๋จ์ํ ๋ฒํผ์ ๋๋ฅด๊ฑฐ๋ ์คํฌ๋ฆฐ์ ํฐ์นํ๋ ๊ฒ์ ๋์ด์, ์ ๋์๋ง์ผ๋ก ๊ธฐ๊ธฐ๋ฅผ ์ ์ดํ ์ ์๋ ์๋์ ์ด๊ณ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊ฐ๋จํ ์ ๋์๋ง์ผ๋ก ํ๋ฉด์ ์คํฌ๋กค ํ๊ฑฐ๋ ์ด๋ฏธ์ง๋ฅผ ํธ์งํ๋ ์์ ์ด ๊ฐ๋ฅํด์ก๊ณ , ์ด๋ ๊ฒ์, VR(๊ฐ์ ํ์ค), AR(์ฆ๊ฐ ํ์ค) ๋ฑ์์ ๋ ํ๋ถํ ์ํธ์์ฉ ๋ฐฉ์์ ์ ๊ณตํฉ๋๋ค. ๋ํ ์ด๋ฌํ ๊ธฐ์ ์ ์ฅ์ ์ธ์ ์ํ ์ ๊ทผ์ฑ์ ๊ฐ์ ํ๊ณ ์ฌ๋๊ณผ ๊ธฐ๊ณ ์ฌ์ด์ ์ํต์ ๋ ์ ๊ธฐ์ ์ผ๋ก ์ฐ๊ฒฐํ๋ ๋ฐ ์ค์ํ ์ญํ ์ ํฉ๋๋ค. 2024๋ 11์, ์ ํ์ด ์ถ์ํ Vision Pro๋ Hand Pose Estimation ๊ธฐ์ ์ ์ ํ์ฉํ ๋ํ์ ์ธ ์ฌ๋ก๋ก ๋ณผ ์ ์์ต๋๋ค. Meta Quest 3S์ ์ ์ฌํ VR ๊ธฐ๊ธฐ์ด์ง๋ง ์ปจํธ๋กค๋ฌ ์์ด ์ฌ์ฉ์์ ์์ ์ฌ์ฉํ๋ค๋ ์ฐจ์ด์ ์ด ์์ต๋๋ค. ์๊ฐ๋ฝ์ ๋ฏธ์ธํ ์์ง์๊ณผ ์ ์ค์ฒ๋ฅผ ์ค์๊ฐ์ผ๋ก ์ธ์ํ๊ณ ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ธฐ๊ธฐ๋ฅผ ์กฐ์ํ ์ ์๋ ๋ฐฉ์์ด๋ฉฐ, ๋๋ถ์ ์ฌ์ฉ์๋ ๋จ์ํ ํ๋ฉด์ ๋ณด๋ ๋ฐ ๊ทธ์น์ง ์๊ณ ๋์งํธ ์ธ๊ณ์ ์์ฐ์ค๋ฝ๊ฒ ์ํธ์์ฉํ ์ ์์ต๋๋ค[1]. ์๋ฅผ ๋ค์ด, ์ ๊ทธ๋ฆผ์ฒ๋ผ ์๊ฐ๋ฝ์ ๊ผฌ์ง๋ ๋์ ๋ง์ผ๋ก ๋ฉ๋ด๋ฅผ ์ ํํ๊ฑฐ๋ ํค๋ณด๋๋ฅผ ์น ์ ์์ต๋๋ค. ๊ทธ๋ ๋ค๋ฉด ์ด ๊ธฐ์ ์ ๋ค๋ฅธ ๋ฐ์๋ ์ ์ฉํ ์ ์์ง ์์๊น์? ์ด๋ฅผ ์กฐ๊ธ ๋ ๋๊ฒ ๋ณด๋ฉด ๋จ์ํ๊ฒ ๊ธฐ๊ธฐ๋ฅผ ์กฐ์ํ๋ ๊ฒ์ ๋์ด์ ์ธ๋ฐํ ์ ์ด ๋๋ ๊ฐ์ ํ๊ฒฝ์ด ํ์ํ ์์ ์์ ์ค์ํ๊ฒ ์ฌ์ฉ๋ฉ๋๋ค. ํนํ, ์๋ฃ๋ ๊ต์ก ๊ฐ์ ๋ถ์ผ์์ ํฐ ์ญํ ์ ํ ๊ฒ์ ๋๋ค. ์๋ฃ ๋ถ์ผ์์๋ ์ธ๊ณผ ์์ฌ๊ฐ ๊ฐ์ ์์ ์๋ฎฌ๋ ์ด์ ์ ํตํด ์ฐ์ตํ ์ ์๊ณ , ๊ต์ก์์๋ ํ์๋ค์ด ์๋์์ผ๋ก ๊ณผํ ์คํ์ ์๋ฎฌ๋ ์ด์ ํ๊ฑฐ๋ ๊ฐ์ ํ์ค์์ ๊ธฐ๊ณ๋ฅผ ์กฐ๋ฆฝํด ๋ณด๋ ๋ฑ ๋ค์ํ ๊ฒฝํ์ ํ ์ ์์ต๋๋ค. ๊ทธ๋ฟ๋ง ์๋๋ผ, Hand Pose Estimation ๊ธฐ์ ์ ๋ฐ์ ์ ๋ก๋ด ์๊ฒฉ ์กฐ์(Robot Teleoperation) ๋ถ์ผ์์ ํ์ ์ ์ธ ๋ณํ๋ฅผ ์ผ์ผํค๊ณ ์์ต๋๋ค. Hand Pose Estimation์ ํตํด ์ฌ์ฉ์์ ์๋์์ ๋ก๋ด์ ๊ทธ๋๋ก ๋ฐ์ํ ์ ์์ต๋๋ค[3]. ์ด๋ ๋ง์น ์์ ์ ์์ฒ๋ผ ๋ก๋ด์ ๋ค๋ฃฐ ์ ์๊ฒ ํ๋ค๋ ๋ป์ ๋๋ค. ์ด๋ ๊ฒ ๋๋ฉด ์ฌ๋์ด ์ ๊ทผํ๊ธฐ ์ด๋ ค์ด ์ํํ ํ๊ฒฝ์์๋ ๋ก๋ด์ด ๋์ ์์ ํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ๋ ๊ตฌ์กฐ ํ์ฅ์์ ๊ตฌ์กฐ ๋์์ด ์์ ํ ๊ฑฐ๋ฆฌ์์ ๋ก๋ด์ ์กฐ์ํด ๋ฌด๋์ง ๊ฑด๋ฌผ์ ํ์ํ๊ฑฐ๋ ํผํด์๋ฅผ ๊ตฌํ ์ ์๊ณ , ์๋ฃ ํ์ฅ์์๋ ์์ฌ๊ฐ ๋จผ ๊ฑฐ๋ฆฌ์์ ๋ก๋ด ํ์ ์ด์ฉํด ์์ ํ ์ ์์ต๋๋ค. ๋์๊ฐ ๋ฏธ๋์๋ ํ์ฑ ๊ฐ์ ์ฐ์ฃผ ํ๊ฒฝ์์ ๋ก๋ด์ด ํ์ฌ๋ฅผ ์งํํ๊ณ , ๊ธฐ์ง ๊ฑด์ค๊ณผ ๊ฐ์ ์ค์ํ ์์ ์ ๋์ ํ๊ฒ ๋ ์๋ ์์ต๋๋ค.
1.2. Virtual Instrument(๊ฐ์ ์ ๊ธฐ)๋ฅผ ์ ํํ ์ด์

VR ๋ด์์, ๋๋ AR์ ํตํด ์ ๊ธฐ๋ฅผ ์ฐ์ฃผํ๋ Virtual Instrument ๊ธฐ์ ์ ์ด์ฉ์๊ฐ ๋ฌผ๋ฆฌ์ ์ธ๊ณ์ ์ ์ฝ์์ ๋ฒ์ด๋ ์ ๊ธฐ์ ์ํธ์์ฉ์ ํ ์ ์๋ ํ์ ์ ์ธ ์๋จ์ ๋๋ค. 2023๋ Virtual Instrument ์์ฅ ๊ท๋ชจ๋ ์ฝ 5์ต ๋ฌ๋ฌ๋ก ํ๊ฐ๋์์ผ๋ฉฐ, 2032๋ ๊น์ง 10์ต ๋ฌ๋ฌ์ ์ด๋ฅผ ๊ฒ์ผ๋ก ์์๋๋ ์ ๋งํ ๋ถ์ผ์ ๋๋ค[4]. Virtual Instrument ๊ธฐ์ ์ ํ์ค๊ณผ ๊ฐ์ ์ธ๊ณ์ ๊ฒฝ๊ณ๋ฅผ ๋ชจํธํ๊ฒ ๋ง๋ค์ด ๋์งํธ ์๋์ ์์ ์ ํํ๊ณผ ์ํฐํ ์ธ๋จผํธ์ ๊ฐ๋ฅ์ฑ์ ํ์ฅํ๊ณ , ์์ ์ ๊ธฐ์ ๊ณผ ์์ฒญ๊ฐ ๊ธฐ์ ์ ๊ฒฐํฉํ์ฌ ์ด์ฉ์์๊ฒ ๊ฐ๊ฐ์ ์ฐธ์ฌ๋ฅผ ๊ฐํํ๋ค๋ ํน์ง์ ๊ฐ์ง๋๋ค. ํ์ง๋ง Virtual Instrument ํ๋ก๊ทธ๋จ์ ์ ์ํ๋ ๋ฐ์๋ ๋ช ๊ฐ์ง ํ๊ณ๊ฐ ์กด์ฌํฉ๋๋ค. ๊ฐ์ ์ ๊ธฐ๋ผ๋ ์ฐ์ฃผ์์ ๋ฐ๋ผ ์คํ์ผ์ด ๋ฌ๋ผ์ง๋ฉฐ, ์ ๊ธฐ ์ฐ์ฃผ์ ์์ง์์ด ๋ณต์กํ๊ณ ์ฌ์ธํ์ฌ ๋ถ์์ด ๋ณธ์ง์ ์ผ๋ก ๊น๋ค๋กญ์ต๋๋ค. ๋ํ ์ ๊ธฐ๋ฅผ ์ฐ์ฃผํ๋ ๋์ ์์ Occlusion(ํ์, ๋ฌผ์ฒด์ ์ํด ๊ฐ๋ ค์ง) ๋ฌธ์ ๊ฐ ์์ฃผ ๋ฐ์ํฉ๋๋ค. ์ ๊ธฐ๋ณ ํน์ง์ ์ฒ๋ฆฌํ๋ ๊ฒ๋ ์ค์ํ ๊ณผ์ ์ค ํ๋์ ๋๋ค. ๋๋ถ์ด Virtual Instrument ํ๋ก๊ทธ๋จ์ ์ ๊ธฐ ์ฐ์ฃผ ์๋ฆฌ๋ฅผ ์ค์๊ฐ์ผ๋ก ์ถ๋ ฅํด์ผ ํ๋ฉฐ, ๋ณต์กํ ์ ๊ธฐ ์ฐ์ฃผ ์๋ฆฌ๋ฅผ ์ ํํ๊ฒ ์ถ๋ ฅํด์ผ ํฉ๋๋ค.

๊ฒฐ๋ก ์ ์ผ๋ก, Virtual Instrument ํ๋ก๊ทธ๋จ์ ๊ตฌํํ๊ธฐ ์ํด์๋ ์ต์ฒจ๋จ ๋์ ์ธ์ ํ๋ก๊ทธ๋จ, ์ํฅ ๋ชจ๋ธ๋ง ๊ธฐ์ , ๊ทธ๋ฆฌ๊ณ ๊ณ ๊ธ AI ์๊ณ ๋ฆฌ์ฆ์ด ํ์ํฉ๋๋ค. ์ด๋ฌํ ์ด์ ๋ก AI ๊ธฐ๋ฐ Virtual Instrument์ ๋ถ์์ด Virtual Instrument ์์ฅ ์ฑ์ฅ์ ๊ฒฌ์ธํ ๊ฒ์ด๋ผ ํ๊ฐ๋ฐ๊ณ ์์ต๋๋ค.
๋ฐ๋ผ์ ์ ํฌ๋ ๋จ์ํ ๊ธฐ์ ์ ์ง๋ณด๋ฅผ ๋์ด ์ฐ๋ฆฌ๊ฐ ์ธ์๊ณผ ์ํธ์์ฉ์ ํ๋ ๋ฐฉ์์ ํ์ ์ ์ผ๋ก ๋ณํ์ํค๊ณ ์๋ Hand Pose Estimation ๊ธฐ์ ๊ณผ ์ ๊ธฐ๋ฅผ ํตํด ๋ฌผ๋ฆฌ์ ์ธ๊ณ์ ๋์งํธ ์ธ๊ณ๋ฅผ ์ฐ๊ฒฐํ๋ฉฐ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ด์ด๊ฐ๋ Virtual Instrument ๊ธฐ์ ์ ๊ตฌํํ๊ธฐ ์ํด, Pose Estimation์ ํตํ Virtual Instrument ํ๋ก์ ํธ๋ฅผ ์งํํ์ต๋๋ค.
2. Task
Hand Pose Estimation์ด๋ผ๋ Task์ ๊ดํด ์ค๋ช ํ๊ธฐ ์ํด, Pose Estimation์ ๊ดํด ์ค๋ช ํ๊ฒ ์ต๋๋ค.
2.1. Pose Estimation(์์ธ ์ถ์ )
Pose Estimation์ ์ด๋ฏธ์ง ๋ฐ ๋น๋์ค์ ๊ฐ์ ์ ๋ ฅ ๋ฐ์ดํฐ์์ ์ธ์ฒด ๋ถ์๋ฅผ ์ฐพ๊ณ ์ ์ฒด ๊ณจ๊ฒฉ๊ณผ ๊ฐ์ ์ธ์ฒด ํํ์ ๊ตฌ์ถํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ๊ทธ์ค ์ธ๊ฐ์ ํฌ์ฆ๋ฅผ ์ถ์ ํ๋ ๊ฒ์ Human Pose Estimation(HPE)์ด๋ผ๊ณ ํฉ๋๋ค. Pose Estimation์ ์ฌ๋ฌ ๊ฐ์ง ๋ถ๋ฅ ๊ธฐ์ค์ด ์กด์ฌํฉ๋๋ค. ๊ด์ , ์ฃผ์ ์ ์ฒด ๋ถ์ ๋ฑ์ ๋ํ๋ด๋ Landmark์ ์์น๋ฅผ ์ถ์ ํ ์ขํ์ ๋ฐ๋ผ 2D, 3D๋ก ๋๋๊ธฐ๋ ํ๋ฉฐ, ํ ๋ฒ์ ์ถ์ ํ๋ ์ฌ๋ ์์ ๋ฐ๋ผ Single-Person, Multi-Person์ผ๋ก ๋ถ๋ฅ๋๊ธฐ๋ ํฉ๋๋ค. ํนํ 3D Pose Estimation์ ๊ฒฝ์ฐ์๋ ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ ํ์ ๋ฐ๋ผ ๋จ์ RGB(Monocular RGB) ์นด๋ฉ๋ผ ๋ฐ ๋น๋์ค ๋๋ ๊ด์ฑ ์ผ์ ๋ฑ์ ์ผ์ ๋ฐ์ดํฐ, ๋ค์ค ์นด๋ฉ๋ผ(Multiple Views)๋ก ๋๋์ด์ง๊ธฐ๋ ํฉ๋๋ค.

Landmark๋ฅผ ํ์งํ๋ ๋ฐฉ๋ฒ์์๋ ๊ทธ ๋ฐฉ๋ฒ์ด ๋๋์ด์ง๋๋ค. Heatmap์ ์์ฑํ์ฌ ์ด๋ฅผ ๋ฐํ์ผ๋ก Landmark์ ์์น๋ฅผ ์ฐพ๋ Detection-based Methods(ํ์ง ๊ธฐ๋ฐ ๋ฐฉ๋ฒ)์ Landmark์ ์์น๋ฅผ ์ง์ ์ ์ผ๋ก ์ถ์ ํ๋ Regression-based Methods(ํ๊ท ๊ธฐ๋ฐ ๋ฐฉ๋ฒ)๊ฐ ์์ต๋๋ค.

Detection-based Methods์์ ๋ชจ๋ธ์ ๊ฐ ๊ด์ ์ ๋ํ Heatmap์ ์์ฑํฉ๋๋ค. ์ฆ, ์ถ์ ํ๋ ๊ด์ ์๋งํผ์ Heatmap์ ํ์ฑํ ๋ค, ํจ์๋ฅผ ์ ์ฉํ์ฌ ๊ฐ ๊ด์ ์ ์ ํํ ์์น๋ฅผ ์ถ์ ํฉ๋๋ค. ์ด ๋ฐฉ์์ ์ฌ์ฉํ ๋ํ์ ์ธ ์ฌ๋ก๋ก Convolutional Pose Machine(CPM)์ด ์์ต๋๋ค. CPM์ CNN์ ์ฌ์ฉํ์ฌ ์ถ์ ํ๊ธฐ ์ฌ์ด Landmark(์: ๋จธ๋ฆฌ)๋ฅผ ๋จผ์ ์ถ์ ํ ๋ค, ์์ญ์ ์ขํ๊ฐ๋ฉด์ ์ถ์ ํ๊ธฐ ์ด๋ ค์ด Landmark๋ฅผ ์ถ์ ํฉ๋๋ค.

Regression-based Methods๋ ๊ฐ ๊ด์ ์ขํ๋ฅผ ์ง์ ์ถ์ ํฉ๋๋ค. ์ด๋ฏธ์ง์์ ๊ด์ ์ขํ๋ฅผ ์์ธกํ์ฌ ์งํํ๋ ๋ฐฉ์์ด๋ฉฐ, ๋ ์ข์ ํน์ง ์ ๋ณด๋ฅผ ํ์ตํ๊ธฐ ์ํด Multi-task Learning์ ์ ์ฉํ๊ธฐ๋ ํฉ๋๋ค. ์ง์ ์ถ์ ํ๊ธฐ ๋๋ฌธ์ 21๊ฐ Landmark ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ์ ๋ง์ง๋ง Layer๊ฐ ์์ธก์ ์ํํ๊ธฐ ์ํด 3(x, y, z)x21(Landmark ๊ฐ์)์ด ์กด์ฌํด์ผ ํ๋ฉฐ, ๋ํ์ ์ธ ๋ชจ๋ธ๋ก Deep Pose๊ฐ ์์ต๋๋ค. Regression-based Methods๋ Non-linear ํ Landmark๋ฅผ ์ถ์ ํด์ผ ํ๋ฏ๋ก, ๋ ๋ง์ ๋ฐ์ดํฐ์ Epoch(๋ชจ๋ธ ๋ฐ๋ณต ํ์)๊ฐ ํ์ํฉ๋๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ 2D ์ถ์ ์ ์์ด์ Detection-based Methods๋ฅผ ์ฃผ๋ก ์ฌ์ฉํฉ๋๋ค. ํ์ง๋ง, ๊ฐ Landmark์ ๋ํ 3D Heatmap์ ์์ฑํ๋ ๊ฒ์ ๋ฌด๊ฑฐ์ด ์ผ์ด๋ฏ๋ก Regression-based Methods๋ 3D ์ถ์ ์ ์ฃผ๋ก ์ฌ์ฉ๋ฉ๋๋ค. ์ ํฌ๋ ํ๋ก์ ํธ์์ 2.5D ์ถ์ ์ ์งํํ๊ธฐ ๋๋ฌธ์ ์ด์ค์์ Regression-based Methods๋ฅผ ์ ์ฉํ์์ต๋๋ค.
2.2. Hand Pose Estimation(์ ์์ธ ์ถ์ )


Hand Pose Estimation์ Pose Estimation์ ํ์ ๋ถ์ผ๋ก, ์ธ๊ฐ์ ์์ ์ด๋ค ๋ถ๋ถ(์: ์๋ฐ๋ฅ๊ณผ ์๊ฐ๋ฝ)์ ์งํฉ์ผ๋ก ๋ชจ๋ธ๋งํ๊ณ ์ ์ด๋ฏธ์ง์์ ํด๋น ์์น(2D)๋ฅผ ์ฐพ๋ ํ๋ก์ธ์ค, ๋๋ 3D ๊ณต๊ฐ์์ ์ ๋ถ๋ถ์ ์์น๋ฅผ ์๋ฎฌ๋ ์ด์ ํ๋ ํ๋ก์ธ์ค์ ๋๋ค[10].

์: NYU dataset

์: ICVL dataset

์: MSRA dataset
๋ฐ์ดํฐ ์ธํธ์์ ์์ ๋ชจ๋ธ๋งํ๋๋ฐ ์ฌ์ฉ๋๋ ๊ด์ ์์ ๊ด๋ จ๋ ๊ท์น์ ์์ต๋๋ค. ํ์ง๋ง, ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ ๊ฒ์ 21๊ฐ ๊ด์ ๋ชจ๋ธ์ด๋ฉฐ, ๋๋ถ๋ถ์ ๋ฐ์ดํฐ ์ธํธ์ Pretrained(์ฌ์ ํ์ต๋) ๋ชจ๋ธ์์ ์ด ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค. Hand Pose Estimation์ Depth Map์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๋ฐฉ๋ฒ๊ณผ RGB ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๋ฐฉ๋ฒ, ๊ทธ๋ฆฌ๊ณ ์ด ๋ ๊ฐ์ง๋ฅผ ๋ชจ๋ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด ์์ต๋๋ค. Depth Map์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๊ฒฝ์ฐ์๋ ๊น์ด๋ฅผ ์ถ์ ํ๋ ๋ฐฉ์์ ๋์ ํ์ฌ 2.5D Landmark ์ขํ๋ฅผ ์์ธกํฉ๋๋ค. RGB ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐํ๋ ๊ฒฝ์ฐ๋ Depth Map์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๊ฒฝ์ฐ๋ณด๋ค ๊ฒฝํฅ์ฑ์ ํ์ตํ๋ ๋ฐ ํ์ํ ๋ฐ์ดํฐ๊ฐ ๋ ๋ง์ต๋๋ค.
3. Method

Hand Pose Estimation์ ๋ฐํ์ผ๋ก Virtual Instrument๋ฅผ AR๋ก ์ฐ์ฃผํ๋ ํ๋ก์ ํธ๋ฅผ ์งํํ๊ธฐ ์ํ ๋๋ต์ ์ธ Pipeline์ ์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ต๋๋ค.
Project ์๊ฐ ์์
- Hand Pose Estimation ๐๐ป
- ์ ๊ธฐ AR ๐น
- ์๊ณผ ์ ๊ธฐ AR ์ฌ์ด์ Interaction ๐ค๐ป
- Play Sound ๐
์์ ์๊ฐํ ์์์ ๋ฐ๋ผ Project Method๋ฅผ ์ค๋ช ํ๊ฒ ์ต๋๋ค.
3.1. Hand Pipeline: Mediapipe Hands ๐๐ป

(์ผ์ชฝ): ์๋์ ๊น์ด๊ฐ ๋ค๋ฅธ ์์์ผ๋ก ํํ๋ ์ ๋๋๋งํฌ. ์์ด ๋ฐ๊ณ ํด์๋ก ์นด๋ฉ๋ผ์ ๋๋๋งํฌ๊ฐ ๊ฐ๊น์ต๋๋ค. (์ค๋ฅธ์ชฝ): Pixel3(Android ๊ธฐ๊ธฐ)์์ ์ค์๊ฐ ๋ค์ค ์ ์์ธ ์ถ์ . ์์ ํตํด ์ ๊ธฐ๋ฅผ ์ฐ์ฃผํ๊ธฐ ์ํด์, Hand Pose Estimation์ ํตํด ์์ ์ฃผ์ Landmark๋ฅผ ์์ธกํ๋ ๊ฒ์ด ํ์ํฉ๋๋ค.

์ธ์ ์ด๋์ ์๋ ์ ๊ธฐ๋ฅผ ์ฐ์ฃผํ ์ ์๋ ํ๋ก์ ํธ๋ฅผ ๊ตฌํํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ 3๊ฐ์ง์ ์กฐ๊ฑด์ ๋จผ์ ์๊ฐํ์์ต๋๋ค. ๋ฐ๋ก ๋ชจ๋ฐ์ผ ๊ธฐ๊ธฐ์์ ๋์์ด ๊ฐ๋ฅํ๋ฉฐ ์ค์๊ฐ์ผ๋ก ๋์ํ๋ฉฐ ๋์ ์ ํ๋๋ฅผ ๊ฐ์ง ๋ชจ๋ธ์ ๋ง๋ค์ด์ผ ํ๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ฌํ ์กฐ๊ฑด์ ๋ฌ์ฑํ๊ธฐ ์ํด Mediapipe Hands[11]๋ผ๋ Framework๋ฅผ ์ ํํ์์ต๋๋ค.
Mediapipe Hands๋ ์ํํ ์์ Landmark ์ถ์ ์ ์ํด ์๋์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ Pipeline์ ์ ์ํฉ๋๋ค.

Mediapipe Hand๋ ๋จ์ผ RGB ์นด๋ฉ๋ผ์์ ์ฌ๋์ ์ ๊ณจ๊ฒฉ์ ์์ธกํ๋ Real time, On-device Hand Pose Estimation Pipeline์ ์ ์ํฉ๋๋ค. ์ ์ํ Pipeline์ 1๏ธโฃ์์ ์์น๋ฅผ ํ์งํ๊ณ , 2๏ธโฃ์์ ์ฃผ์ ๊ด์ ์ธ Landmark ์์น๋ฅผ ์ถ์ ํ๋ ๋ชจ๋ธ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.

์ด๋ฏธ์ง์์ ๋ฐ๋ก Landmark๋ฅผ ์ถ์ ํ๋ ๊ฒ์ด ์๋๋ผ 2 Stage๋ก ์งํ๋๋ ์ด์ ๋ก๋ 2๊ฐ์ง๊ฐ ์์ต๋๋ค. ์ฒซ ๋ฒ์งธ๋ก, ์ ํํ๊ฒ ์๋ฅธ ์ ์ด๋ฏธ์ง๋ฅผ ์๋ณธ ์ด๋ฏธ์ง ๋์ ์ฌ์ฉํ๋ค๋ฉด, Data Augmentation(๋ฐ์ดํฐ ์ฆ๊ฐ, ์: ํ์ , ๋ณํ ๋ฐ ํฌ๊ธฐ ์กฐ์ )์ ํ์์ฑ์ด ํฌ๊ฒ ์ค์ด๋ค๊ณ ๋์ Landmark ์ขํ ์์ธก์ ์ ๋ ํ ์ ์์ต๋๋ค.

๋ํ, ์ ์์ธก์ด ๋งค Frame ์งํ๋์ง ์์ต๋๋ค. ์ด์ Frame์์ ์๋ณ๋ ์ Landmark๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์ ์ถ์ ํ๋ฉฐ, Landmark ๋ชจ๋ธ์ด ๋ ์ด์ ์ ์กด์ฌ๋ฅผ ํ์ธํ ์ ์๋ ๊ฒฝ์ฐ์๋ง ์์ ๊ฐ์งํ์ฌ ์์ ๋ค์ ์์น ํํฉ๋๋ค. ๋ฐ๋ผ์, ๋ชจ๋ Frame์ ์ฌ์ฉํ์ง ์๊ธฐ ๋๋ฌธ์ ๋ ํจ์จ์ ์ด๊ณ ๋น ๋ฅธ ์ฑ๋ฅ์ ๋ณด์ฅํ ์ ์์ต๋๋ค.
3.1.1. Hand Detector: BlazePalm ๐


์์ ํ์งํ๋ ๋ชจ๋ธ๋ก, BlazeFace๋ผ๋ Face Detection ๋ชจ๋ธ์ ์๋ฐ๋ฅ์ ์ ์ฉํ BlazePalm ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค.

BlazeBlock์ MobileNet์์ ์ฌ์ฉ๋ ๊น์ด๋ณ ๋ถ๋ฆฌํ ํฉ์ฑ๊ณฑ(Depthwise Separable Convolutional)์ ๊ตฌ์กฐ๋ฅผ ์ ์ฉํ์ฌ ๊ฒฝ๋ํ์ ํน์ง ์ถ์ถ์ด ๊ฐ๋ฅํ Block์ ๋๋ค. ๊ฒฝ๋ํ๋ฅผ ์ํด BlazeBlock์ ์ ๋ ฅ์ ๊น์ด๊ฐ ์ ์ง๋๋ ์ฒซ ๋ฒ์งธ ๋ถ๋ถ๊ณผ, ๊ณต๊ฐ ์ฐจ์์ด ์ ์ง๋๋ ๋ ๋ฒ์งธ ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑํ์ฌ ๊น์ด๋ณ ๋ถ๋ฆฌํ ํฉ์ฑ๊ณฑ์ ๊ตฌ์ฑํ์์ต๋๋ค. ๋ํ, ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ 3x3 Kernel ๋์ 5x5 Kernel์ ์ฌ์ฉํ์ฌ Bottleneck ์ง์ ์ ์๋ฅผ ์ค์์ต๋๋ค. ์ด๋ฅผ ํตํด ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ์ค์ด๊ณ ์๋ ์ฑ๋ฅ์ ๊ฐ์ ํ์์ต๋๋ค.



๊น์ด๋ณ ๋ถ๋ฆฌํ ํฉ์ฑ๊ณฑ์ด๋ ๊น์ด ๋ฐฉํฅ ํฉ์ฑ๊ณฑ(Depthwise Convolution) ์ดํ์ 1x1 ํฉ์ฑ๊ณฑ(Pointwise Convolution)์ ๊ฒฐํฉํ ๊ฒ์ ๋๋ค. ๊น์ด ๋ฐฉํฅ ํฉ์ฑ๊ณฑ์ ์ฑ๋๋ง๋ค ๋ ๋ฆฝ์ ์ผ๋ก ์ฐ์ฐ์ ์ํํ์ฌ ๊ณต๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ๊ณ์ฐํ๋ฉฐ, 1x1 ํฉ์ฑ๊ณฑ์ ๊น์ด ๋ฐฉํฅ ํฉ์ฑ๊ณฑ์ด ์์ฑํ ํน์ง๋งต๋ค์ ์ฑ๋ ์๋ฅผ ์กฐ์ ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๊น์ด๋ณ ๋ถ๋ฆฌํ ํฉ์ฑ๊ณฑ์ ๊ณต๊ฐ๊ณผ ์ฑ๋์ ์ฐจ์์ ๋ถ๋ฆฌํ ์ ์์์ผ๋ฉฐ, ์ต์ข ์ ์ผ๋ก ๋ชจ๋ธ์ ์ฐ์ฐ๋์ ์ค์ผ ์ ์์์ต๋๋ค.

(์ผ์ชฝ) BlazePalm ์ ์ฉ ๊ฒฐ๊ณผ. (์ค๋ฅธ์ชฝ) ROI ๊ธฐ๋ฐ ์ ์์น ์ถ์ถ ๊ฒฐ๊ณผ. BlazePalm์ ํตํด ์๋ฐ๋ฅ์ ๊ฐ์งํ ๋ค์, ์๋ฐ๋ฅ์ ๊ธฐ์ค ์ค์ฌ์ผ๋ก๋ถํฐ 1.4๋ฐฐ ๋์ ์์ญ์ ์๋ผ ์์ ํฌํจํ ์์ญ์ Landmark ์ถ์ถ ๋ชจ๋ธ์ ์ ๋ ฅํฉ๋๋ค. 1.4๋ฐฐ๋ผ๋ ๊ฐ์ ์๋ฐ๋ฅ์ ์ค์ฌ์ผ๋ก ์ด๋ ๋ฐฉํฅ์ผ๋ก๋ ์ ์ ์ฒด๋ฅผ ํฌํจํ ์ ์๋ ์์ญ์ ๋์ด๋ฅผ ๊ฒฝํ์ ์ผ๋ก ๊ตฌํ ๊ฒ์ ๋๋ค.

BlazePalm์ BlazeBlock์ ์๋ ๋ฐฉ์์ ์์ด FPN(Feature Pyramid Network)์ ์ ์ฌํ ์ธ์ฝ๋-๋์ฝ๋ ๋ฐฉ์์ ์ฌ์ฉํด ์์ ๊ฐ์ฒด๋ฅผ ํ์งํ ๋, ๋ ๋์ ์์ญ์ ๋ฐํ์ผ๋ก ํ๋๋ก ํฉ๋๋ค. ์ด๋ฅผ ํตํด ํจ๊ณผ์ ์ผ๋ก ์์ ์์น๋ฅผ ํ์งํ ์ ์์ต๋๋ค.
3.1.2. Landmark Detector: Regression Method ๐ฆพ

๋ชจ๋ธ์ ํน์ง ์ถ์ถ๊ธฐ๋ฅผ ๊ณต์ ํ๋ ์ธ ๊ฐ์ ์ถ๋ ฅ์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ๊ฐ ํค๋๋ ๊ฐ์ ์์์ผ๋ก ํ์๋ ํด๋น ๋ฐ์ดํฐ์ ์ ์ํด ํ๋ จ๋ฉ๋๋ค.
- 21 3D Landmarks: x, y, ์๋์ ๊น์ด๋ก ๊ตฌ์ฑ๋ 21๊ฐ์ ์ Landmark.
- Hand Presence: ์ ๋ ฅ ์ด๋ฏธ์ง์ ์์ด ์กด์ฌํ ํ๋ฅ ์ ๋ํ๋ด๋ ํ๋๊ทธ.
- Handedness: ์์ ์ด์ง ๋ถ๋ฅ(์: ์ผ์, ์ค๋ฅธ์).
๊ฐ๊ฐ์ ๋ฐฉ์์ ๋ค๋ฅธ ๋ฐ์ดํฐ ์ธํธ์ ๋ฐฉ์์ ์ฌ์ฉํ์ง๋ง, ๊ณตํต์ผ๋ก Regression ๋ฐฉ์์ ๋ฐํ์ผ๋ก ํ๊ณ ์์ต๋๋ค. 21๊ฐ์ ์ขํ๋ฅผ ์ถ์ ํ๋ Hand Pose Estimation๊ณผ ๊ฐ์ ๋ฐฉ์์ ์ฌ์ฉํ์ฌ Landmark๋ฅผ ํ์ตํฉ๋๋ค. 2D ์ขํ๋ ์ค์ ์ด๋ฏธ์ง์ ํฉ์ฑ๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ ์ธํธ ๋ชจ๋์์ ํ์ต๋๋ฉฐ, ์๋ชฉ์ ์์น์ ๋ํ ์๋์ ๊น์ด๋ ํฉ์ฑ ์ด๋ฏธ์ง์์๋ง ํ์ต๋ฉ๋๋ค. ์๋ฐ๋ฅ ์ถ์ ์คํจ๋ฅผ ํ์ธํ๊ธฐ ์ํด, ํด๋น ์ด๋ฏธ์ง์ ์๋ฐ๋ฅ์ด ์์ ๊ฐ๋ฅ์ฑ์ ํ์ธํฉ๋๋ค. ๊ฐ๋ฅ์ฑ์ด ์์ผ๋ฉด, ๊ฐ์ง๊ธฐ๊ฐ ๋ค์ ์๋ฐ๋ฅ์ ์ถ์ ํฉ๋๋ค. VR/AR์์ ์์ ์ฌ์ฉํ ํจ๊ณผ์ ์ธ ์ํธ ์์ฉ์ ์ค์ํ ์์์ธ๋ฐ์, ์ด๋ฅผ ์ํด ์ ์ด์ง ๋ถ๋ฅ๊ธฐ๋ฅผ ์ด์ฉํด ์ค๋ฅธ์๊ณผ ์ผ์์ ๋ถ๋ฅํฉ๋๋ค.

3.2. AR: Open CV
Virtual Instrument ํ๋ก๊ทธ๋จ์ ํธ์๋ฅผ ๋์ด๊ธฐ ์ํด ์ข ์ด๋ฅผ ์ธ์ํ์ฌ ์ ๊ธฐ AR์ ๋์ฐ๋ ๋ฐฉ์์ ์ ํํ์ต๋๋ค. ์ด์ , ์ข ์ด๋ง ์๋ค๋ฉด ์ธ์ , ์ด๋์๋ ์ ๊ธฐ๋ฅผ ์ฐ์ฃผํ ์ ์์ต๋๋ค! ์ ๊ธฐ AR์ ๋์ฐ๊ธฐ ์ํด Python์ Open CV ๋ผ์ด๋ธ๋ฌ๋ฆฌ[17]๋ฅผ ์ด์ฉํ์ต๋๋ค. Open CV๋ Open Source Computer Vision Library์ ์ฝ์๋ก, ์๋ฐฑ ๊ฐ์ ์ปดํจํฐ ๋น์ ์๊ณ ๋ฆฌ์ฆ์ ํฌํจํ๋ ์คํ ์์ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๋๋ค. ํ๋ก์ ํธ์์๋ ์ ๊ธฐ ์ด๋ฏธ์ง ํ์ผ ์ฝ๊ธฐ ๋ฐ ์ ์ฒ๋ฆฌ, ์ข ์ด Edge ๊ฒ์ถ ๋ฐ ์ด๋ฏธ์ง ๋ณํ์ ๋ชจ๋ Open CV๋ฅผ ์ด์ฉํ์์ต๋๋ค.
AR์ ๋์ฐ๋ ๊ณผ์
- ์ข ์ด ์ธ์ํ๊ธฐ ๐
- ์ ๊ธฐ ์ด๋ฏธ์ง๋ฅผ ์ธ์ํ ์ข ์ด ๋ชจ์์ ๋ง๊ฒ ๋ณํํ๊ธฐ ๐
- ์ข ์ด์ ์ ๊ธฐ ์ด๋ฏธ์ง ์ฝ์ ํ๊ธฐ ๐น
์์ ์ ์ํ ์์์ ๋ฐ๋ผ ์ ๊ธฐ ์ด๋ฏธ์ง๋ฅผ AR๋ก ๋์ด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
3.2.1. ์ข ์ด ์ธ์ํ๊ธฐ
์ข
์ด๋ฅผ ์ธ์ํ๊ธฐ ์ํด์๋ Webcam์ผ๋ก ์
๋ ฅ๋ฐ์ ์ด๋ฏธ์ง์์ ์ง์ ์ ํํ๋ฅผ ๋ ๊ณ ์๋ ์ข
์ด ์์ญ์ ๊ฒ์ถํ๋ ์์
์ด ํ์ํ์ต๋๋ค. ์ด๋ฅผ ์ํด Contour(๊ฒฝ๊ณ ๊ฐ)๋ฅผ ์ถ์ถํ ์ ์๋ ์ฌ๋ฌ ํจ์์ ๋ํด ์์๋ณด์๊ณ , ์ต์ข
์ ์ผ๋ก Canny Edge Detection์ ์ ์ฉํ์์ต๋๋ค. ์ด๋, ์๊ณ๊ฐ์ min=30, max=150์ผ๋ก ์ค์ ํ์์ต๋๋ค.


์ด๋์ Contour ๊ฐ์ ์ป์ด๋ด๋ ๋ฐ ์์ด, ์ค์ ๋ก Contour ๊ฐ์ธ์ง ์๋์ง๋ฅผ ๊ฒฐ์ ํ๋ ์ต๋ ์ต์๊ฐ์ ์ค์ ํ๊ฒ ๋๋๋ฐ, ์ด๊ฒ์ Hysteresis Thresholding(ํ์คํ ๋ฆฌ์์ค ์๊ณ ๊ฐ)์ด๋ผ๊ณ ํฉ๋๋ค. minVal์์ maxVal๊น์ง์ ๊ฐ์ด ์๋ ๊ฒ์ Edge ๊ฐ์ด ์๋๋ผ๊ณ ์ธ์ํ๋ ๊ฒ์ด๋ฏ๋ก, ์๋์ ๊ทธ๋ฆผ์์ A ์ง์ ์ ๊ฐ์ Edge๊ฐ ์๋๊ณ , B์ C๋ Edge๋ก ์ธ์ํฉ๋๋ค.

Canny Edge Detection์ ์๋์ ๋จ๊ณ๋ก ์งํ๋ฉ๋๋ค.
- Noise Reduction
Edge Detection์ Noise์ ์ทจ์ฝํจ์ผ๋ก 5x5 Gaussian Kernel์ ์ด๋ฏธ์ง ์ ์ฒด์ ์ ์ฉํฉ๋๋ค. ์ด๋ฅผ ํตํด Noise๋ฅผ ์ ๊ฑฐํฉ๋๋ค.
- Finding Intensity Gradient of the Image

์ด๋ฏธ์ง๋ฅผ ์ํ ๋ฐ ์์ง ๋ฐฉํฅ ๋ชจ๋์์ Sobel Kernel๋ก ํํฐ๋งํ์ฌ ์ํ ๋ฐฉํฅ์ 1์ฐจ ๋ํจ์ , ๋ฅผ ๊ตฌํฉ๋๋ค. ์ด๋ฅผ ํตํด ๊ฐ ํฝ์ ์ Edge Gradient์ ๋ฐฉํฅ์ ์ฐพ์ ์ ์์ต๋๋ค.
Gradient ๋ฐฉํฅ์ ํญ์ Contour์ ์์ง ๋ฐฉํฅ์ด๊ธฐ ๋๋ฌธ์, ์ด๋ฅผ ํตํด Contour ๋ฐฉํฅ์ ๊ฐ ํฝ์ ๋น ๊ตฌํ ์ ์์ต๋๋ค.

- Non-maximum Suppression(NMS, ๋น์ต๋ ์ต์ )
Gradient ํฌ๊ธฐ์ ๋ฐฉํฅ์ ๊ฐ ํฝ์ ๋น ์ป์ ๋ค์์, ์ด๋ฏธ์ง์ ์ ์ฒด๋ฅผ ํ์ธํ์ฌ Gradient ๋ฐฉํฅ์ด ๊ฐ์ ํฝ์ ๋ผ๋ฆฌ Local Maximum ๊ฐ์ธ์ง ํ์ธํฉ๋๋ค. ์ด๋ฅผ ํตํด Contour์ ๋๊ป๋ฅผ ๊ฒฐ์ ํ๊ธฐ๋ ํฉ๋๋ค[20].
Canny Edge Detection์ ํตํด Contour๋ฅผ ์ถ๋ ฅํ ์ ์์์ง๋ง, Contour์ ์ ์ด ์์ ๋๊ธฐ๋ ์ง์ ์ด ์๊ธฐ๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ์์ต๋๋ค. ๊ทธ๋์, Morphological Transformation์์ Dilation(ํฝ์ฐฝ)์ ์ ์ฉํ์ฌ Contour๋ฅผ ๋ ๋๊ฒ ์ฐ๊ฒฐํ์์ต๋๋ค. ๋จ, ํ์งํด์ผ ํ๋ ์์ญ์ด ์ข
์ด์ ๊ฐ์ฅ์๋ฆฌ๋ผ๋ ์ง์ ์์ญ์ด์๊ธฐ ๋๋ฌธ์ cv2.MORPH_RECT๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ๊ฐํ์ ํํ๋ก ๋ ๋ํ๋ ๋ฐฉ์์ ์ฌ์ฉํ์์ต๋๋ค.

Contour ์ค์์, ์ข ์ด๋ก ์ธ์ํ๋ ๊ณต๊ฐ์ ์ด๋ก์ Box์ ํํ๋ก ์ธ์ํ๊ณ ์๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. ์ด๋ Contour๋ก ์ธก์ ํ ๊ณต๊ฐ์์ ๋ซํ ๊ณต๊ฐ์ ๋ฉด์ ์ด ํฐ ์์๋๋ก ์์ 5๊ฐ๋ฅผ ๋ชฉ๋กํํ ๋ค์, ์์๋๋ก ์ฌ๊ฐํ์ ์ต์ ๊ฐ๋๊ฐ 30ยฐ๋ณด๋ค ํฐ ์ฌ๊ฐํ์ ์ข ์ด๋ก ์ธ์ํ๋ ๊ณต๊ฐ์ผ๋ก ํฉ๋๋ค. ์ด๋, 30ยฐ๋ Virtual Instrument๋ฅผ ์ฐ์ฃผํ๊ธฐ์ ์ ์ ํ ์ข ์ด์ ๊ฐ๋๋ก ์ง์ ํ ๊ฒ์ ๋๋ค. ๊ฐ๋๋ ๋ด์ ์ ์ฌ์๊ฐ ๊ณต์ ์ ํตํด ๊ตฌํ์ต๋๋ค.
3.2.2. ์ ๊ธฐ ์ด๋ฏธ์ง๋ฅผ ์ธ์ํ ์ข ์ด ๋ชจ์์ ๋ง๊ฒ ๋ณํํ๊ธฐ
AR Virtual Instrument๋ฅผ ํ๋ฉด์ ๋ํ๋ด๊ธฐ ์ํด์๋ ์ง์ฌ๊ฐํ ํํ์ธ ์ ๊ธฐ ์ด๋ฏธ์ง๋ฅผ ๊ฒ์ถํ ์ข ์ด ์์ญ์ ๋ง๊ฒ ๋ณํํ๋ ๊ณผ์ ์ด ํ์ํฉ๋๋ค. ์ด๋ฅผ ์ํด Perspective Transformation์ ์ ์ฉํ์์ต๋๋ค.

๊ฒ์ถํ ์ข ์ด ์์ญ์ด ์ง์ฌ๊ฐํ์ ํํ๋ฅผ ๋ ์ง ์์, ์ฌ๋ค๋ฆฌ๊ผด ๋๋ ํํ์ฌ๋ณํ ํํ๋ฅผ ๋ ๊ธฐ ๋๋ฌธ์ ์ ๊ธฐ ์ด๋ฏธ์ง์ 4๊ฐ์ ๊ผญ์ง์ ๊ณผ ๊ฒ์ถ๋ ์ข ์ด ์์ญ์ 4๊ฐ์ ๊ผญ์ง์ ์ ๋์ํ์์ต๋๋ค.
3.2.3. ๋ณํ๋ ๊ฑด๋ฐ ์ด๋ฏธ์ง๋ฅผ AR

๋์ผํ ์ ๊ธฐ ์ด๋ฏธ์ง๋ฅผ ์ฝ์ ํ๊ธฐ ์ํ์ฌ ์ข ์ด๋ฅผ ๊ฐ์งํ์ฌ ์ป์ ๋ชจ์๋ฆฌ๋ฅผ ์ผ๊ด๋ ์์์ ๋ง๊ฒ ์ ๋ ฌํ ๋ค, ๋ชจ์๋ฆฌ์ ์์์ ๋ง๊ฒ ์ ๊ธฐ ์ด๋ฏธ์ง์ ํฌ๋ช ๋๋ฅผ ์กฐ์ ํ์ฌ ์ฝ์ ํ๋ฉด ์ ๊ธฐ ์ด๋ฏธ์ง ์ฝ์ ์ด ์์ฑ๋ฉ๋๋ค.

(์ผ์ชฝ) ์ด๋ฏธ์ง์ Contour ์ถ์ถ (๊ฐ์ด๋ฐ) Corner์ ์์น ํน์ (์ค๋ฅธ์ชฝ) AR ๊ตฌํ
3.3. Interaction

Hand Pose Estimation์ ์ฌ์ฉํด ์์ ๊ฐ์งํ๊ณ , ๊ฐ์์ ๊ฑด๋ฐ์ Open CV๋ฅผ ํตํด ๋์ฐ๋ ๊ฒ์ ๊ฐ๋ฅํ์ง๋ง, Virtual Instrument๋ฅผ ์ฐ์ฃผํ๋ ๋ฐ ์์ด ๊ฐ์ฅ ์ค์ํ ์๊ณผ Virtual Instrument ์ฌ์ด์ ์ํธ์์ฉ์ ์ฌ๋ฌ ์๋๋ฅผ ๊ฑฐ์ณค์ต๋๋ค. ์ด ์ค์์ โ์ด์ ํ๋ ์๊ณผ y๊ฐ ๋ณํ๋ ๋น๊ตโ ๋ฐฉ์๊ณผ โ์ด๊ธฐ y๊ฐ์ ์ค์ ํ์ฌ ๋ณํ๋ ๋น๊ตโ ๋ฐฉ์์ ์กฐํฉํ์ฌ ์ฌ์ฉํ์์ต๋๋ค. ๐ก ์๋ํ ๋ชจ๋ ๋ฐฉ์์ ๊ฒ์ง์ ์ค์ง๋ฅผ ์ฌ์ฉํ๋ ๋น๋์ค๋ฅผ ์ฌ์ฉํด ๋น๊ตํด ๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
3.3.1. ์ด์ ํ๋ ์๊ณผ y๊ฐ ๋ณํ๋ ๋น๊ต

์ด์ ํ๋ ์๊ณผ ๋น๊ตํ์ฌ, ์๋ Landmark์ ์์ง ์ขํฏ๊ฐ์ด ํ๋ฝํ ๊ฒฝ์ฐ์ ๋๋ฅธ๋ค๊ณ ์ธ์ํ ๋ฐฉ๋ฒ์ ๋๋ค. ๊ฐ Landmark์ ๊ตฌ๋ถ์ด ์ค์ํ๊ธฐ ๋๋ฌธ์, ์ค๋ฅธ์๊ณผ ์ผ์์ ๊ตฌ๋ถํ์ฌ Landmark ์ขํ๋ฅผ ๊ธฐ๋กํ์์ต๋๋ค. ์ด์ ํ๋ ์๊ณผ ๋น๊ตํ๋ค๋ ๊ฒ์์ ์ ์ ์๋ฏ์ด, ์๋์ ์ฌ์ฉํ ๋ฐฉ๋ฒ์ ๋๋ค.
ํ์ง๋ง ์์ ๋น๋์ค์์ ํ์ธํ ์ ์๋ฏ์ด, ์์ ๊ฐ๋งํ ํ์ฌ๋ ์ถ์ ํ Landmark๊ฐ ํ๋ค๋ฆฌ๋ ๊ฒ์ ํ์ธํ ์ ์์์ต๋๋ค. ๊ทธ๋์ ๋จ์ํ ํ๋ค๋ฆฌ๋ ๊ฒ ๋ฟ๋ง ์๋๋ผ, ์ธก์ ํ ๊ฐ 10์ ๋์ด์ผ ๋๋ ๋ค๊ณ ์ธ์ํ์์ต๋๋ค.


Threshold=10์ ์ค์ ํ์ฌ๋ ์ ์ฌํ ๋ฌธ์ ๊ฐ ๋ฐ์ํ์ต๋๋ค. ๊ทธ๋์, ์์ ์ธ๊ธํ Landmark์ ์์น ์ฐจ์ด๋ฅผ ์ด์ฉํ๋ ๋ฐฉ๋ฒ์์ ๋
ธ์ด์ฆ๋ฅผ ๋ณด์ ํ๋ ๋ถ๋ถ์ ์ถ๊ฐํ์์ต๋๋ค. ์ค์๊ฐ ์น์บ ์ผ๋ก ์๊ฐ๋ฝ์ Landmark ๊ฐ์ ๊ณ์ฐํด์ผ ํ๋ฏ๋ก ์์ด ๊ฐ๋งํ ์๋๋ผ๋ ์ฝ๊ฐ์ ๋จ๋ฆผ์ด ๋ฐ์ํ๋ ๋ฑ์ ๋
ธ์ด์ฆ๊ฐ ๋ฐ์ํ์๋๋ฐ์, ์ด๋ฌํ ๋
ธ์ด์ฆ๋ก ์ธํ Landmark์ ์์น ๋ณํ๊ฐ ๋๋ฆผ ๊ฐ์ง์ ์ํฅ์ ์ฃผ์๊ธฐ ๋๋ฌธ์ ๋
ธ์ด์ฆ๋ฅผ ๋ณด์ ํ๋ ๋ถ๋ถ์ ์ถ๊ฐํ์์ต๋๋ค. ํ์ง๋ง ์ฌ์ ํ ํ ์๊ฐ๋ฝ์ด ์์ง์ผ ๋ ์์ ์๋ ์๊ฐ๋ฝ์ด ํจ๊ป ์์ง์ฌ ๋์์ ๋๋ฆฐ ๊ฒ์ผ๋ก ํ๋จํ๊ฑฐ๋, ์์ง์์ด ์์ ์๊ฐ๋ฝ์ ์ ๋๋ก ๋๋ฆผ์ ํ์งํ์ง ๋ชปํ๋ ๋ฑ์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ์์ต๋๋ค.
3.3.2. ์ ์ ๊ทธ๋ ค ์ ์ด ๊ฐ๋ ค์ง๋์ง ํ์ธ
๊ทธ๋ ๋ค๋ฉด, ๋จ์ํ ๋๋ฅด๋ ๊ฒ์ด ์๋๋ผ โ์ข ์ด์ ๊ทธ๋ ค์ง ์ ์ ๊ฐ๋ฆฌ๋ ๊ฒ์ ์ด๋ ํ ๊นโ๋ผ๋ ์๊ฐํ๊ฒ ๋์์ต๋๋ค. ์ปค๋นํ์ด Virtual Instrument๋ฅผ ์ฐ์ฃผํ๊ธฐ ์ํด ์ ์ํ Webcam ๊ฐ๋์์๋ ์์ด ์ข ์ด ์์ ๊ทธ๋ ค์ง ์ ๋ณด๋ค ์์ผ๋ก ๋๊ฐ์ง ์์ผ๋ฉฐ, ์ ์ ๋๋ฅด๋ ๊ฒ์ด ๊ณง ์ ๊ธฐ๋ฅผ ๋๋ฅด๋ ๊ฒ์์ ๊นจ๋ฌ์์ต๋๋ค.


์ ์ด ๋๊ธฐ๋์ง ์ฌ๋ถ๋ฅผ ํ์ธํ๋ค๋ฉด, ์๋ Landmark์ ์ขํ๊ฐ ์ ์์ ์๋์ง๋ง ํ์ธํ๋ฉด ๋๊ธฐ ๋๋ฌธ์ ๋ ๊ฐ๋จํ๊ฒ ๊ตฌํํ ์ ์๊ฒ ๋ค๊ณ ์๊ฐํ์ต๋๋ค. ๋ํ, ์์ผ๋ก ๋ ๋ง์ ์ ๊ธฐ๋ฅผ ์ถ๊ฐํ๊ณ ์ถ์ ์ ์ฅ์์, ๊ธฐํ์ ๊ฐ์ ํ์ ๊ธฐ ๊ตฌํ์ ์์ด ๋ ์์๊ฐ ๋ฐฉ๋ฒ์ด๋ผ ์๊ฐํ์ต๋๋ค. ํ์ง๋ง, ์ด ๊ฒฝ์ฐ์๋ ์ข ์ด ์์ ์ ์ ์ผ์ ํ๊ฒ ์ธ์ํ๋ ๊ฒ์ด ์ด๋ ค์ ์ต๋๋ค. ์ธ์ํ ์ ์ด ๊ณ์ ๋ฐ๋๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ๊ฒ์ ๋๋ค.
3.3.3. ๊ฐ์์ ๊ธฐ์ค์ ์ ํต๊ณผํ๋์ง ํ์ธ

๊ทธ๋์ ์ด๋ฒ์๋ ๊ฐ์์ ์ ์ ๊ทธ๋ฆฌ๊ณ , ์ด๋ฅผ ์ค์ฌ์ผ๋ก ๋๋ฆผ ๊ฐ์ง๋ฅผ ์งํํ๊ณ ์ ํ์์ต๋๋ค. ํ์ง๋ง, ์ข ์ด ์์ ๊ทธ๋ ค์ง ์ ๊ณผ ๋ค๋ฅด๊ฒ ๊ฐ์์ ์ ์ ์ ๋ณด๋ค Landmark๊ฐ ์๋๋ก ๋ด๋ ค์ค๋ ๊ฒฝ์ฐ๊ฐ ์์ด, ์คํ์ง ๋๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ์์ต๋๋ค. ์ด ๋ฐฉ๋ฒ์ผ๋ก๋ ์์ ์์ง์์ ์ ๋๋ก ๋ฐ์ํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ ๋๋ฆผ ํ์ง ๋ฐฉ๋ฒ์ผ๋ก ์ ์ ํ์ง ์๋ค๊ณ ํ๋จํ๊ฒ ๋์์ต๋๋ค.
3.3.4. ์ด๊ธฐ y๊ฐ์ ์ค์ ํ์ฌ ๋ณํ ๋น๊ต

ํผ์๋ ธ ๊ฑด๋ฐ์ด ๋๋ฆฌ๋ ๋ฐฉ์์์ ๊ณ ์ํ ์์ด๋์ด์ ๋๋ค. ๋ชจ๋ ์๋ Landmark์ ์์ง ์ขํฏ๊ฐ์ธ y์ขํ๋ฅผ ํน์ ๊ฐ์ผ๋ก ์ด๊ธฐํํ๊ณ y์ขํ์ ๋ณํ๋์ ์ฌ์ฉํด ๊ฑด๋ฐ์ ๋๋ฆผ์ ๋ชจ๋ฐฉํ๋ ์๋ฆฌ์ ๋๋ค. ์ค์ ๊ฑด๋ฐ์ ์ผ์ ํ์ด ๊ฐํด์ ธ์ผ ๋๋ฅผ ์ ์๊ธฐ ๋๋ฌธ์ ์ด์ ๋น์ทํ๊ฒ ๋ณํ๋์ด ์ผ์ ๊ฐ k๋ณด๋ค ํฐ ๊ฒฝ์ฐ์๋ง ๋ณํ๋์ด ๋ฐ์๋์ด ๋๋ฆผ์ ํ์งํ๋๋ก ํ์์ผ๋ฉฐ, ๋ณํ๋์ด ์์์ด๊ฑฐ๋ k๋ณด๋ค ์๋ค๋ฉด 0์ผ๋ก ์ค์ ํ์ต๋๋ค. ์ถ๊ฐ๋ก, ํ์์ ๊ตฌํํ๊ธฐ ์ํด ์๊ฐ๋ฝ์ y์ขํ๊ฐ ์ด๊ธฐ ์ํ๋ก ๋์์์ผ๋ง ๋๋ ธ๋ค๊ณ ์ ์ํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋-๋ฏธ-์ ํ์์ ์น ๋ ๊ฒ์ง์ ์ฝ์ง๋ ๊ฑด๋ฐ์ ๋๋ฅด์ง ์๊ธฐ ๋๋ฌธ์ ์ด๊ธฐ ์ขํ๋ก ๋์์ค์ง ์์ต๋๋ค. ๋ฐ๋ผ์ ํ๋ก๊ทธ๋จ์ด ์คํ๋๊ณ 3์ด ์ดํ ์๊ฐ๋ฝ์ ์ด๊ธฐ ์ํ๋ฅผ ์ ์ฅํ ํ, ์ด์ ๋น๊ตํด ์๊ฐ๋ฝ์ด ์๋ ์์น๊ฐ ์๋๋ผ๋ฉด ์ฌ๋ ์ฆ, ์๊ฐ๋ฝ์ด ์์ง์๋ค ํ๋๋ผ๋ ๋๋ฆฌ์ง ์๊ฒ ๋ฉ๋๋ค.

๊ฒฐ๋ก ์ ์ผ๋ก ์ด์ ํ๋ ์๊ณผ y๊ฐ ๋ณํ๋์ ๋น๊ตํ๋ ์ฒซ ๋ฒ์งธ ๋ฐฉ๋ฒ๊ณผ ์ด๊ธฐ y๊ฐ์ ์ค์ ํ์ฌ ๋ณํ๋์ ๋น๊ตํ๋ ๋ง์ง๋ง ๋ฐฉ๋ฒ์ ํฉํ์ฌ ๋๋ฅด๋ ๋์์ ์ ์ํ์์ต๋๋ค. ์ด๋ฅผ ํตํด ์ค์ ํผ์๋ ธ์ ๊ฐ์ด ์์ ์์ง ๋ฐฉํฅ ์๋๋ก ์์ง์์ ๋๋ง ํผ์๋ ธ๊ฐ ๋์ํ๊ฒ ํ ์ ์์๊ณ , ๊ฐ์ ์์ ์ฐ์ํ์ฌ ์น๋ ์ฐ์ ์ฐ์ฃผ๊ฐ ๊ฐ๋ฅํด์ก์ผ๋ฉฐ, ๋๋ฅด๋ ค๊ณ ์๋ํ์ง ์์ ์๊ฐ๋ฝ์ ๋๋ ๋ค๊ณ ํ๋จํ๋ ์คํ์ง๋ฅผ ์ค์ผ ์ ์์์ต๋๋ค.
3.4. Play Sound : Pygame

์
๊ธฐ ์๋ฆฌ๋ฅผ ์ถ๋ ฅํ๊ธฐ ์ํด Python์ Pygame[22] ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ด์ฉํ์ต๋๋ค. Pygame ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ์ด๋ฆ์์ ์ ์ ์๋ฏ์ด Python์ ํตํด ๊ฒ์๊ณผ ๋ฉํฐ๋ฏธ๋์ด ํ๋ก๊ทธ๋จ์ ์ ์ํ๊ธฐ ์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์
๋๋ค. ์ด ์ค์์ ์๋ฆฌ๋ฅผ ์ถ๋ ฅํ ์ ์๋ pygame.mixer ๋ชจ๋์ ์ด์ฉํ์ต๋๋ค. Playsound, Pygame, PyAudio, Sounddevice ๋ฑ ์๋ฆฌ๋ฅผ ์ถ๋ ฅํ๊ธฐ ์ํ ์ฌ๋ฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ค Pygame์ ์ ํํ ์ด์ ๋ ๊ฐ๋จํ ์ฝ๋๋ฅผ ํตํด ์ฝ๊ฒ ์๋ฆฌ ์ถ๋ ฅ์ด ๊ฐ๋ฅํ๋ค๋ ์ฅ์ ๊ณผ pygame.mixer.set_num_channels(channels)๋ฅผ ํตํด ์ถ๋ ฅํ ์ ์๋ ์ฑ๋ ์๋ฅผ ์ค์ ํ์ฌ ์ฌ๋ฌ ์๋ฆฌ๋ฅผ ํ ๋ฒ์ ์ถ๋ ฅํ๋ โํ์ ์ถ๋ ฅโ์ด ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์
๋๋ค.
4. Result
์์1. ๋์ โ๋๊ฐ์์โ๋ฅผ ์ฐ์ฃผํ๋ ๋์์ ์ด๋ ๊ฒ ๊ฐ๋จํ ์ฐ์ฃผ๋ฅผ ์งํํ ์ ์๋ ํ๋ก์ ํธ ๋ฐ๋ชจ๋ฅผ ์์ฑํ์์ต๋๋ค. ์ ์ฐฉ์์ผ๋ก ๊ฐ๋จํ ๊ธฐ๋ ํ๋ ๋ฐฐ๋ถํ๊ณ ์์ผ๋ ๋ฐ๋ชจ ์๊ฐ์ ๋ง์ด ์ฐพ์์์ฃผ์๊ธฐ๋ฅผ ๋ฐ๋๋๋ค.

5. Conclusion

Webcam์ ์ ๋ ฅ์ ๋ฐ์ Hand Pose Estimation๊ณผ AR ๊ธฐ์ ์ ์ํธ์์ฉ์ผ๋ก, ์ค์๊ฐ์ผ๋ก ์๋ํ๋ Virtual Instrument ํ๋ก์ ํธ๋ฅผ ๋ง๋ค์ด๋ด์์ต๋๋ค. ํ์ง๋ง, ๊ฒฐ๊ณผ๋ฌผ๊ณผ ๊ด๋ จํ ์์ ์์ฌ์์ด ์กด์ฌํฉ๋๋ค. Hand Pose Estimation์ ์ํํ๋ ๋ฐ ์์ด, ํน์ ๊ฐ๋์์๋ ์ ์งํ๋์ง ์๋ ๊ฒ์ ํ์ธํ์ต๋๋ค. ์ด๋ ์๊ฐ๋ฝ์ด ์๋ก ๋น์ทํ๊ธฐ ๋๋ฌธ์ ๋ฐ์ํ๋ ๋ฌธ์ ๋ก Hand Pose Estimation์ ๊ณ ์ง์ ์ธ ๋ฌธ์ ์ ๋๋ค. ์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด ๋ค๋ฅธ ๋ชจ๋ธ์ ์ ์ฉํด ๋ณด๊ธฐ๋ ํ์์ผ๋, ์ด๋ฒ์๋ ์ค์๊ฐ์ผ๋ก ๋์ํ์ง ์๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ์์ต๋๋ค. ๊ทธ๋์ ์ด๋ฅผ Webcam์ ๊ฐ๋ ์ ํ๊ณผ ํค๋ณด๋ ์ ๋ ฅ์ ํตํ ๊ฐ๋ ์์ ๋ฐฉ๋ฒ์ ์ ์ฉํด ํด๊ฒฐํ๊ณ ์ ํ์์ต๋๋ค. Webcam์ ๊ฐ๋ ์ ํ์ ์ข ์ด๋ฅผ ํ์งํ ๋ ์ ์ฉํ๋ ์ต์ ๊ฐ๋ ๊ฐ์ ์์ ํ์ฌ ์งํํ์๊ณ , ๊ฐ๋๋ ๊ฒฝํ์ ์ผ๋ก ์ ์ผ ์ ๋ ๊ฐ์ ๊ธฐ๋ณธ๊ฐ์ผ๋ก ํ์ฌ ์ผ์ ์์ค ์กฐ์ ํ ์ ์๊ฒ ํ์์ต๋๋ค. Interaction์ ์์ด์ ๋๋ฅด์ง ์์ ๋ค๋ฅธ ์๊ฐ๋ฝ์ด ๋๋ฅด๋ ๊ฒ์ผ๋ก ํ์ง๋๋ ๊ฒ ๋ํ ๋ฌธ์ ์์ต๋๋ค. ์ ๋์ ์ธ ๋ ธ๋ ฅ ๋์, ๋๋ฅด์ง ์์ ๋ค๋ฅธ ์๊ฐ๋ฝ์ด ๋ ์ธ์๋๋ Hyperpameter ๊ฐ(์ฌ์ ์ ์ค์ ํ๋ ๊ฐ)์ ์ฐพ์๋ด์์ต๋๋ค. ๊ทธ๋์ ์ด์ ์ ๋นํด ๋ค๋ฅธ ์๊ฐ๋ฝ์ด ๋ ์ธ์๋๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. ๋ค๋ง, ์์ ์ข ์ด ์์ ๋ถ์ธ ์ํ๋ก ์ฐ์ฃผํ๋ ๊ฒ์ด ๊ฐ์ฅ ์ ํํ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ง๊ณ ์ค๋ ๊ฒ ๋ํ ์ฌ์ค์ ๋๋ค. ์ ํฌ๋ Hand Pose Estimation ๊ธฐ์ ์ ๋ฐํ์ผ๋ก, ๋ค์ํ ์ํธ ์์ฉ์ด ์๊ตฌ๋๋ Virtual Instrument ํ๋ก์ ํธ๋ฅผ ์งํํ์์ต๋๋ค. ์ด ํ๋ก์ ํธ๋ฅผ ๋ฐํ์ผ๋ก, Pose Estimation ๊ธฐ์ ๊ณผ AR์ ๋ํด ์ ์ ์์์๊ณผ ๋์์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ํด๊ฒฐ ๋ฐฉ์์ ๋์ถํ๋ ๋ฅ๋ ฅ์ ํค์ธ ์ ์์์ต๋๋ค.
Reference
[1] https://www.apple.com/kr/newsroom/2024/10/apple-vision-pro-arrives-in-south-korea-beginning-friday-november-15/ [2] https://github.com/mirru-app [3] IEEE SENSORS JOURNAL, VOL. 22, NO. 18, 15 SEPTEMBER 2022 17421 Dynamic Hand Gesture Recognition Based on 3D Hand Pose Estimation for HumanโRobot Interaction Qing Gao, Member, IEEE, Yongquan Chen, Member, IEEE, Zhaojie Ju, Senior Member, IEEE, and Yi Liang [4] https://www.businessresearchinsights.com/market-reports/virtual-musical-instrument-market-117066 [5] https://onlinelibrary.wiley.com/doi/full/10.1111/cgf.15065 [6] https://www.researchgate.net/publication/338437347_Detecting_Hand_Posture_in_Piano_Playing_Using_Depth_Data [7] https://ar5iv.labs.arxiv.org/html/2012.13392 [8] https://ar5iv.labs.arxiv.org/html/2012.13392 [9] https://ar5iv.org/html/1312.4659 [10] https://ar5iv.org/html/1312.4659 [11] https://arxiv.org/abs/2006.10214 [12] https://research.google/blog/on-device-real-time-hand-tracking-with-mediapipe/ [13] BlazeFace [14] https://medium.com/@massimilianoriva96/blazeface-unveiling-the-power-of-optimizations-16d9aca7e0e9 [15] https://arxiv.org/pdf/1704.04861 [16] https://openaccess.thecvf.com/content_cvpr_2016/papers/Sinha_DeepHand_Robust_Hand_CVPR_2016_paper.pdf [17] https://docs.opencv.org/4.x/index.html [18] https://docs.opencv.org/4.x/da/d22/tutorial_py_canny.html [19] https://homepages.inf.ed.ac.uk/rbf/HIPR2/sobel.htm [20] ์ค์ผ์, ใ์ปดํจํฐ ๋น์ ๊ณผ ๋ฅ๋ฌ๋ใ (ํ๋น ์์นด๋ฐ๋ฏธ, 2013) [21] https://docs.opencv.org/3.4/d4/d76/tutorial_js_morphological_ops.html [22] pygame


