Plankton merupakan komponen penting dalam ekosistem akuatik yang berperan dalam rantai makanan dan produksi oksigen global. Klasifikasi plankton secara manual memerlukan waktu lama dan rentan terhadap kesalahan akibat kemiripan visual antar spesies. Penelitian ini membandingkan performa tiga model berbasis arsitektur Transformer, yaitu Swin-T, DeiT, dan ConvNeXt, dalam tugas klasifikasi 24 jenis plankton krustasea. Data diperoleh dari platform EcoTaxa dan diproses melalui tahapan preprocessing, termasuk skenario dengan dan tanpa teknik oversampling. Model dioptimalisasi menggunakan pre-trained models dari ImageNet, fine-tuning parameter, dan optimizer AdamW. Hasil menunjukkan bahwa ConvNeXt memberikan performa terbaik dengan nilai macro F1-score sebesar 0,9231 pada data yang di-oversampling dan learning rate 0,00005. Oversampling terbukti meningkatkan performa Swin-T dan ConvNeXt, tetapi menurunkan kinerja DeiT, yang menunjukkan kerentanan arsitektur self-attention global terhadap duplikasi data. Faktor kuantitas dan kualitas citra juga memengaruhi performa klasifikasi, di mana kelas dengan data melimpah (Ostracoda) atau citra beresolusi tinggi (Mysida) menunjukkan hasil akurat, sedangkan kelas dengan kemiripan visual tinggi (Eucalanidae) cenderung mengalami kesalahan prediksi.