Human pose Estimation (HPE) merupakan salah satu hal dalam vision komputer dimana model yang digunakan mencoba untuk mengestimasi pose dari sebuah gambar atau video. Penelitian tentang HPE sudah banyak dilakukan sebelumnya dengan menggunakan Convolutional Neural Networks (CNN). Pada penelitian ini, dengan menggunakan Mediapipe akan membangun model sistem untuk melakukan estimasi aktivitas manusia berbasis vision dan mengklasifikasinya menggunakan random forest yang hasilnya akan dibandingkan dengan estimasi aktivitas berbasis sensor. Hasil penelitian ini mengungkapkan bahwa random forest dapat mencapai tingkat akurasi 47.2% dalam mengenali aktivitas berjalan. Namun, masih banyak kesalahan klasifikasi pada aktivitas jalan cepat dan berlari. Berbeda dengan estimasi pose aktivitas manusia berbasis sensor yang dapat mencapai akurasi 69% dalam mengenali aktivitas berlari. Ketidakseimbangan data latih, dengan distribusi terbesar pada kelas ‘walking’ sebesar 40%, menyebabkan model kurang baik dalam melakukan klasifikasi. Faktor lainnya seperti variasi gaya antar individu dan teknik pengambilan data juga mempengaruhi akurasi klasifikasi