Penyandang tuna netra di Indonesia menghadapi kesulitan dalam mengenali nilai nominal uang kertas Rupiah. Mereka cenderung memerlukan bantuan orang lain untuk mengenali nilai nominal uang. Orang tuna netra umumnya mengandalkan perbedaan ukuran dan warna antar nominal. Namun, perbedaan ukuran pada uang kertas Rupiah sangat kecil dan warna cenderung serupa. Pemerintah menambahkan blind code sebagai solusi, tetapi efektivitasnya menurun seiring penurunan kualitas fisik uang. Penelitian sebelumnya telah mengusulkan penggunaan metode pemrosesan citra dan model deep learning berbasis Convolutional Neural Network untuk klasifikasi nominal uang kertas Rupiah. Namun, belum ada penelitian yang menerapkan model Vision Transformer (ViT) dan sebagian besar dataset tidak merepresentasikan kondisi uang di dunia nyata. Penelitian ini mengusulkan model berbasis ViT untuk mengenali nominal uang kertas Rupiah. Model dilatih menggunakan dataset campuran yang terdiri dari dataset publik dan dataset hasil pengambilan mandiri berupa citra uang kertas yang kusut. Pelatihan dilakukan sebanyak lima kali dengan inisialisasi seed yang berbeda. Hasil pengujian menunjukkan model memperoleh rata-rata skor 0.997 pada data uji campuran dan 0.990 pada data uji uang kusut berdasarkan accuracy, recall, precision, dan F1-Score. Temuan ini menunjukkan potensi ViT sebagai pendekatan yang efektif untuk mengenali nominal uang Rupiah dalam kondisi nyata.