Memahami kerusakan pada permukaan jalan adalah hal yang penting dalam sistem autonomous driving untuk menjamin keselamatan penumpang. Sejumlah model segmentasi semantik telah diimplementasikan, namun model tersebut masih mengandalkan penerapan salah satu di antara arsitektur convolutional neural network atau transformer saja. Bahkan terdapat model di antaranya yang masih mengorbankan akurasi hasil segmentasi untuk meningkatan kecepatan inferensi. Hal ini membuka sebuah ruang untuk meningkatkan kinerja model melalui penerapan pendekatan yang berbeda pada arsitektur model yang digunakan. Penelitian ini bertujuan untuk mencari tahu potensi dari penggabungan dua arsitektur tersebut melalui implementasi dan analisis performa model yang menerapkan arsitektur LETNet untuk menghasilkan prediksi secepat dan seakurat mungkin. Dalam penelitian ini, model dilatih menggunakan dua dataset berbeda dan dibandingkan dengan model baseline. Hasil penelitian ini menunjukkan penggabungan kedua arsitektur tersebut memiliki potensi