Fenomena kerumunan sering terjadi di ruang publik seperti stasiun, pusat perbelanjaan, dan tempat wisata memerlukan sistem pengawasan untuk memastikan keselamatan dan ketertiban masyarakat. Sistem pengawasan konvensial menggunakan cctv masih bergantung pada pemantauan manual, sehingga kurang efisien dan rawan kesalahan manusia. Oleh karena itu, penelitian ini mengusulkan metode perhitungan individu dalam kerumunan berbasis deep learning menggunakan algoritma YOLO11 (You Only Look Once versi 11). Model dilatih dan diuji menggunakan dataset JHU-CROWD++, yang memiliki berbagai macam tingkat kepadatan, kondisi pencahayaan, sudut pandang kamera, dan degradasi cuaca. Proses optimasi model menggunakan transfer learning dan genetic algorithm untuk tuning hiperparameter. Berdasarkan hasil pengujian, varian YOLO11s menunjukkan performa terbaik dengan Mean Absolute Error (MAE) sebesar 64,61 dan Root Mean Square Error (RMSE) sebesar 107,21, serta waktu inferensi 410,57 milidetik, melampaui performa model DeTR dan Faster R-CNN. Temuan ini menunjukkan bahwa YOLO11 layak digunakan dalam sistem pengawasan kerumunan secara real-time untuk meningkatkan keamanan publik.