Penggunaan ponsel sudah sangat erat dengan kehidupaan anak usia dini sehingga menimbulkan beberapa dampak negatif bagi anak usia dini terutama berkurangnya interaksi dengan dunia sekitarnya. Salah satu teknologi yang dapat dikembangkan pada ponsel adalah computer vision. Salah satu penggunaan computer vision adalah object recognition yang memberikan solusi untuk membantu mengenali objek. Pada penelitian ini dibangun sistem pengenalan objek benda di dalam rumah yang diaplikasikan pada ponsel yang diharapkan membantu anak usia dini mengenali benda disekitarnya. MobileNet merupakan salah satu feature extraction yang memiliki kinerja yang baik dan ringan digunakan pada perangkat ponsel. Arsitektur MobileNet terdiri dari layer depthwise convolution dan layer pointwise convolution dalam mengekstraksi fitur. Percobaan ini juga menggunakan arsitektur Single Shot Multibox Detector (SSD) sebagai metode dalam mendeteksi objek. Maka digunakan arsitektur MobileNet sebagai pre-trained model yang sebelumnya telah dilatih pada COCO dataset, yang kemudian dilakukan transfer learning untuk 20 jenis objek benda di dalam rumah dengan jumlah 4000 citra. Dari hasil yang diperoleh, menunjukkan bahwa MobileNetV2 dapat menghasilkan nilai mean Average Precision (mAP) sebesar 99,34% dibandingkan dengan MobileNetV1 dan InceptionV2 pada dataset baru yang telah dirancang untuk kebutuhan aplikasi edukasi anak usia dini mengenali objek.