Desain soal ujian merupakan salah satu faktor penting yang dapat meningkatkan kualitas pendidikan, yang dapat membantu guru dalam menganalisa pemahaman siswa. Merancang soal harus mempertimbangkan tingkat kesulitan, yang biasanya diklasifikasikan menjadi tiga jenis: mudah, sedang, sulit. Memprediksi tingkat kesulitan soal sangat penting untuk membantu guru dalam menyusun soal dan mengetahui tingkat kemampuan siswa. Dalam penelitian ini, kami menangani identifikasi tingkat kesulitan soal sebagai masalah klasifikasi. Kami menggunakan dataset soal bahasa Indonesia dan matematika dari kumpulan soal latihan SD dan SMP atau sekolah dan menggunakan beberapa metode machine learning untuk klasifikasi. Kami menggunakan Random Forest, Logistic Regression, SVM, Gaussian, dan Dense NN pada percobaan dengan fitur embedding, lexical, dan syntactic Hasil evaluasi menunjukkan bahwa metode terbaik dalam mengidentifikasi tingkat kesulitan soal pada mata pelajaran Bahasa Indonesia adalah Random Forest dengan akurasi 83%, sedangkan pada mata pelajaran matematika metode terbaik adalah Random Forest dengan akurasi 83%. Hasil analisis menunjukkan bahwa fitur embedding mempengaruhi akurasi model.