Penyakit paru-paru merupakan penyakit pada manusia yang paling berbahaya di seluruh dunia. Pada tahun 2021, Covid-19 adalah penyakit dengan kasus terbanyak di dunia yang tergolong penyakit paru-paru. Teknik identifikasi penyakit paru-paru yang digunakan saat ini biasanya menggunakan RT-PCR atau diagnosis melalui citra X-ray yang hanya mengandalkan kemampuan dokter atau tenaga kesehatan. Lamanya waktu yang dibutuhkan untuk mendiagnosis pasien penderita penyakit pada paru-paru mengakibatkan kurangnya efisiensi waktu dan tenaga untuk penanganan pasien. Deep learning merupakan salah satu metode yang dapat diterapkan pada sistem identifikasi penyakit pada paru-paru agar diagnosis penyakit yang dapat dilihat pada citra X-ray terdeteksi secara otomatis. Pada penelitian ini, dataset terdiri dari lima kelas yaitu normal, Covid-19, Pneumonia bakteri, Pneumonia virus, dan Tuberculosis. Usulan utama yang dipaparkan pada sistem yaitu kombinasi Convolutional Neural Network (CNN) dan Vision Transformer untuk identifikasi penyakit paru-paru. Arsitektur model menggunakan EfficientNet-B1 sebagai backbone pertama dan Vision Transformer sebagai backbone kedua dengan penerapan image Relative Position Encoding (i-RPE) untuk meningkatkan keterkaitan antar bagian gambar. Citra yang diperoleh diolah menggunakan Real ESR-GAN untuk menghilangkan noise pada citra. Kemudian, weighted cross entropy diterapkan untuk mengatasi ketidakseimbangan data. Penerapan teknik yang diusulkan dapat meningkatkan performa model. Penambahan Vision Transformer dapat meningkatkan akurasi sebesar 4,793% menjadi 92,348%. Penerapan Real ESR-GAN memberikan peningkatan akurasi sebesar 1,064%. i-RPE pada Vision Transformer dapat memberikan peningkatan akurasi sebesar 0,314%. Performa terbaik diperoleh setelah penambahan weighted cross entropy dengan peningkatan akurasi sebesar 0,34%, sehingga akurasi yang diperoleh pada penelitian ini sebesar 93,942%.