Terdapat banyak penelitian yang menyatakan bahwa algoritma Deep Reinforcement Learning memiliki performa yang baik dalam melakukan pengambilan keputusan jual beli saham. Selain itu, penelitian-penelitian menyatakan bahwa Deep Reinforcement Learning memiliki kemampuan yang baik dalam mengatasi data yang berubah dengan cepat atau volatile.
Namun, masih belum diketahui sejauh mana Deep Reinforcement Learning memiliki kinerja yang baik dalam pengambilan keputusan jual beli saham. Apakah algoritma Deep Reinforcement Learning memiliki stabilitas kinerja yang bagus untuk diterapkan pada kelima jenis fraksi saham? Apakah algoritma Deep Reinforcement Learning memiliki stabilitas kinerja yang baik meski diterapkan pada data saham yang terpengaruh kasus pandemi COVID-19? Hal ini akan dilakukan pengujian dengan menggunakan dua algoritma Deep Reinforcement Learning, antara lain, Proximal Policy Optimization, dan Deep Deterministic Policy Gradient.
Dari hasil pengujian didapatkan hasil bahwa algoritma Deep Reinforcement Learning tidak selalu menghasilkan kinerja yang baik di setiap environment. Pada penerapan algoritma Deep Reinforcement Learning pada kelima fraksi dan keempat kasus pengaruh data terdampak pandemi menunjukkan bahwa algoritma Proximal Policy Optimization memiliki stabilitas kinerja yang lebih baik daripada Deep Deterministic Policy Gradient dengan nilai rata-rata sharpe ratio untuk masing-masing algoritma tersebut adalah 0,172 dan 0,058. Sedangkan untuk environment terbaik yang bisa diproses oleh algoritma Deep Reinforcement Learning yaitu environment untuk fraksi 3 tanpa mengandung data saham yang terdampak pandemi COVID-19.
Kata Kunci: Deep Reinforcement Learning, Saham, Fraksi, Pandemi, Proximal Policy Optimization, Deep Deterministic Policy Gradient.