Validitas Internal Penelitian Experimental

Pretest pada penelitian experimental* sering digunakan untuk membandingkan selisih hasil posttest (O1) dan pretest (O0) dari kelompok Unit Analisis** (UA) yang diberi perlakuan yang diuji efikasinya (X1) dengan selisih hasil O1 dan O0 dari kelompok UA sepadan yang mendapat perlakuan biasanya/berbeda (X0). Peneliti menganggap selisih rerata skor (jika hasil test berskala sinambung, continuous), atau selisih proporsi UA (jika hasil test berskala kategoris), dari masing2 kelompok X1 dan kelompok X0 (yaitu, d1 dan d0) sebagai Outcome dan menyimpulkan Intervensi berhasil (bermakna secara substantif) jika ada perbedaan yang bermakna antara d1 dan d0 (D = d1 – d0; D ≥ DMin) atau jika ada hubungan yang bermakna antara Intervensi dan Outcome (r ≥ rMin). Kesimpulan berdasarkan D (selisih dari selisih) dapat dibuat pada penelitian experimental rancangan satu kelompok UA (One group pretest posttest Pre-experimental Design dan One group time series Quasi-experimental Design), karena pretest yang mendahului X1 merupakan posttest yang menyusul X0 pada kelompok UA yang sama.

Kesimpulan yang dibuat pada penelitian yang menggunakan rancangan experimental satu kelompok dapat kurang valid jika UA pasca O0 menjadi tidak sepadan. Jarak waktu antara Odan O1 yangterlalu lama dapat menimbulkan perubahan pada kondisi UA (Maturation), situasi UA (History), dan alat/cara pengukuran outcome (Instrumentation). Atau sebaliknya, jarak waktu yang terlalu dekat antar test memungkinkan test/hasil test sebelumnya mempengaruhi reaksi UA terhadap perlakuan dan test berikut*** (Testing). Sumber2 gangguan validitas internal akibat perjalanan waktu ini (yaitu, maturasi, histori, instrumentasi dan testing) dapat dikendalikan dengan meniadakan jarak waktu antara Odan O1. Hal ini hanya dapat dilakukan jika O0 dan O1 diadakan pada waktu yang sama pada dua (atau lebih) kelompok UA sepadan yang terpisah. Kelompok2 UA yang terpisah ini dibuat sepadan (untuk menghindari sumber invaliditas internal berupa Central Tendency dan Differential Selection)dengan cara menempatkan UA dari populasi (atau sampelnya) secara acak ke kelompok2 tersebut. Data moderator2 utama (variabel2 situasi dan kondisi UA yang berkaitan erat dengan Outcome) sebaiknya diperiksa untuk memastikan kesepadanan kelompok2 tersebut.

Experimen yang terlalu lama, terlebih yang rumit, juga dapat berkurang validitas internalnya akibat UA keluar dari kelompok X1 atau kelompok X0(karena mati, pindah, enggan melanjutkan, atau menyimpang dari protokol experimen). Sumber invaliditas ini, yang dinamakan Mortalitas, dapat merancukan penafsiran hubungan Intervensi-Outcome jika UA yang keluar menunjukkan moderator2 utama yang extrem lebih/kurang (misalnya, sangat rendah/tinggi kerentanan atau keterpaparannya terhadap agent penyakit yang berhubungan erat dengan Outcome) karena mereka mungkin berreaksi berbeda terhadap perlakuan atau terhadap posttest. Sumber gangguan validitas internal ini dapat dikendalikan jika ukuran moderator2 utama diketahui sebelumnya dan digunakan untuk mengidentifikasi UA yang keluar. Jika yang keluar adalah UA dengan moderator extrem, kespadanan dapat dipertahankan dengan mengeluarkan dari pengolahan data pasangan UA yang sepadan dengan yang keluar di kelompok pembanding. Mortalitas juga perlu dikendalikan jika pada awal experimen diadakan test inklusi ke populasi penelitian dengan cara yang sama seperti posttest. Misalnya, penelitian yang mengikutsertakan hanya orang lansia yang pre-dementia, sedangkan diagnosis pre-dementia dibuat berdasarkan hasil test yang sama seperti yang akan digunakan untuk posttest. UA dengan skor pra perlakuan yang extrem dapat berreaksi berbeda terhadap perlakukan atau test berikut. Mortalitas diabaikan pada Intention-to-Treat Analysis.

Pada penelitian rancangan pra-experimental dan experimental semu dua atau lebih kelompok kesimpulan dapat dibuat berdasarkan selisih rerata skor O1 (atau selisih proporsi UA pasca perlakuan) dari kelompok2 experimen yang disepadankan secara sistematis menurut moderator2 utama (matching) atau berdasarkan analisis kecenderungan (parallel trend analysis) dan analisis perbedaan selisih (difference in difference analysis) skor (atau rangkaian skor) O1 dan O0. Selisih hasil O1 juga digunakan untuk membuat kesimpulan tentang efikasi X1 pada penelitian rancangan experimental sejati. Jika O0 diadakan untuk inklusi UA ke populasi penelitian hasilnya dapat digunakan untuk mengendalikan mortalitas melalui rancangan experimental sejati Solomon yang menggunakan kelompok2 pembanding dengan dan tanpa pretest.

Keterangan:

*) Penelitian experimental: penelitian yang variabel prediktor-nya (Intervensi) dimanipulasi (ditentukan nilainya oleh peneliti, biasanya berskala kategoris), variabel kriterion-nya (Outcome) diamati (berskala sinambung atau kategoris) dan variabel2 moderator-nya dikendalikan atau diabaikan.

**) Unit Analisis dapat sama dengan Unit Pengamatan (subyek penelitian, peserta penelitian) jika data Outcome yang diperoleh dari subyek penelitian dianalisis di tingkat individu (bukan agregatnya).

***) Jika pretest dan posttest berupa test yang berisi soal2 yang harus dijawab responden, soal2 yang sama dari kedua test tersebut dapat diungkapkan dengan kalimat yang berbeda untuk mengurangi kemungkinan responden menjawab hasil perenungan pada posttest. Yang dipermasalahkan ialah kondisi responden yang berbeda pasca pretest karena pretest, atau hasilnya, dapat mempengaruhi reaksi UA terhadap intervensi dan posttest.    

Daftar Pustaka

Alshurafa, M., Briel, M., Akl, E. A., Haines, T., Moayyedi, P., Gentles, S. J., … & Walter, S. D. (2012). Inconsistent definitions for intention-to-treat in relation to missing outcome data: systematic review of the methods literature. PLoS One7(11), e49163.

Flannelly, K. J., Flannelly, L. T., & Jankowski, K. R. (2018). Threats to the internal validity of experimental and quasi-experimental research in healthcare. Journal of health care chaplaincy24(3), 107-130.

Wing, C., Simon, K., & Bello-Gomez, R. A. (2018). Designing difference in difference studies: best practices for public health policy research. Annual review of public health39.

 Diskusi

Burhannudin Ichsan: Terima kasih banyak dokter Rosi. Materi dan tambahan materi yang terkait.

Rossi Sanusi: Maaf pak Burhannudin (dan pembaca yang lain), judul yang benar “Validitas Internal Penelitian Experimental”.

Bhisma Murti: Dalam buku “Prinsip dan Metode Riset Epidemiologi” saya dan dalam berbagai workshop metodologi penelitian yang saya selenggarakan, saya selalu mengemukakan dan menegaskan bahwa jika peneliti ingin menentukan efektivitas intervensi, maka pilihlah dan lakukan randomized controlled trial (RCT), jangan eksperimen kuasi (yaitu, eksperimen tanpa randomisasi).

RCT memberikan bukti empiris kausal paling kuat tentang efektivitas intervensi, sehingga disebut desain gold standard untuk menentukan efek intervensi. Mengapa gold standard? Karena dalam menentukan subjek penelitian untuk masuk ke dalam kelompok eksperimen atau kelompok kontrol dilakukan dengan prosedur randomisasi (randomization, random allocation, random assignment). Dengan randomisasi (beda dengan random sampling), semua subjek pada sampel memiliki peluang yang sama untuk terpilih ke dalam kelompok eksperimen dan kelompok kontrol, dengan implikasi distribusi confounding factors, baik yang diketahui maupun tidak diketahui peneliti, akan terdistribusi secara sama/ serupa antara kedua kelompok. Karena distribusi alias sebaran confounding factors sudah sama antara kedua kelompok di awal penelitian (baseline), maka, perbandingan hasil pengukuran variabel dependen antara kedua kelompok di akhir penelitian memberikan bukti yang valid (validitas internal) tentang efek dari intervensi tersebut.

Apakah dalam analisis statistik peneliti perlu membandingkan keadaan sebelum dan sesuah intervensi untuk menentukan efektivitas intervensi? Tidak. Peneliti cukup membandingkan kelompok eksperimen dan kelompok kontrol SESUDAH intervensi, dengan menggunakan uji statistik yang tepat dan ukuran efek (ukuran hubungan) yang sesuai dengan skala pengukuran variabel dependen. Jika yang dibandingkan dari dua kelompok adalah data kontinu, lakukan uji t independen, dengan ukuran efek/ hubungan yang disebut EFFECT SIZE. Jika yang dibandingkan dari dua kelompok adalah data kategorikal (dikotomi), lakukan uji Chi Kuadrat, dengan ukuran efek/ hubungan RR (Risk Ratio), OR (Odds Ratio), atau HR (Hazard Ratio).

Apakah dalam RCT peneliti perlu melakukan restriksi (kriteria inklusi dan ekslusi) untuk mengontrol confounding factor tertentu? Tidak, peneliti tidak perlu latah melakukan kriteria inklusis dan eksklusi untuk tujuan mengontrol confounding factor, karena sudah saya sebutkan tadi, proses randomisasi telah mengontrol pengaruh SEMUA confounding factors, baik yang diketahui maupun tidak diketahui, baik yang diukur maupun tidak diukur oleh peneliti. Kriteria inklusi dan eksklusi dapat dilakukan peneliti untuk tujuan lainnya, misalnya menjaga keamanan/ keselamatan subjek penelitian tertentu (misal, ibu hamil dieksklusi dalam penelitian tentang efektivitas diazepam dalam menurunkan kecemasan), memudahkan peneliti dalam mengumpulkan data, dan sebagainya yang BUKAN untuk mengontrol confounding factor. Demikian juga peneliti tidak perlu latah melakukan analisis multivariat terhadap untuk menentukan efektivitas intervensi pada RCT.

Apakah semua aspek metodologis yang dijelaskan di atas berlaku untuk eksperimen kuasi? Tidak. Level hirarki bukti kausal eksperimen kuasi tidak lebih tinggi daripada studi observasional (kohor dan kasus kontrol). Sama dengan studi observasional, dalam eksperimen kuasi peneliti harus mengontrol confounding factor dengan analisis multivariat atau sebagai alternatif namun memberikan hasil yang lebih lemah membandingkan selisih sesudah dan sebelum intervensi antara kelompok eksperimen dan kelompok kontrol.

Ketika RCT dilakukan dengan baik, maka desain ini memberikan bukti kausal yang terkuat tentang efek intervensi pada populasi sasaran (target population), dengan kata lian memberikan bukti dengan validitas internal (internal validity) yang terkuat. Ketika hasil sejumlah RCT yang meneliti masalah penelitian yang sama dari berbagai populasi digabungkan menjadi satu secara sistematis dan secara kuantitatif dalam desain studi META-ANALISIS, maka hasilnya memberikan bukti yang lebih kuat tidak hanya dalam aspek validitas internal tetapi juga validitas eksternal (external validity).

Validitas internal adalah derajat kebenaran kesimpulan tentang hubungan variabel atau efek variabel satu terhadap variabel lainnya yang diamati dan dianalisis pada sampel ketika digunakan untuk menunjukkan hubungan atau efek variabel-variabel yang sama pada populasi sasaran (target population).

Validitas eksternal adalah derajat kebenaran kesimpulan tentang hubungan variabel atau efek variabel satu terhadap variabel lainnya yang diamati dan dianalisis pada sampel ketika digunakan untuk menunjukkan hubungan atau efek variabel-variabel yang sama pada populasi yang lebih luas, yaitu populasi umum (general population), yang terdiri atas populasi sasaran dan populasi eksternal (external population). Validitas eksternal disebut juga generalizability, yang maksudnya kemampuan kesimpulan penelitian untuk digeneralisasi kepada populasi yang lebih luas.

Semua keterangan saya di atas telah saya uraikan panjang lebar dan berulang kali dalam buku saya “Prinsip dan Metode Riset Epidemiologi” sampai edisi 7 sekarang ini. Demikian juga keterangan di atas telah saya sampaikan sampai bosan (karena membicarakan satu isu yang sama berulang-ulang tidak produktif) pada berbagai workshop offline (sebelum Covid-10) maupun online (selama Covid-19).

Rossi Sanusi: Kriterion utama dari kriteria kausalitas Bradford Hill ialah Kekuatan Hubungan. Makin besar Effect Size makin besar kriterion ini dipenuhi. Kekuatan hubungan antara X dan O yang ditunjukkan melalui penelitian experimental sejati adalah yang paling valid karena semua sumber invaliditas internal dikendalikan (dengan syarat masalah kebetulan karena sampel terlalu kecil dan bias2 pengumpulan dan pengolahan data sudah diatasi). Walaupun Effect Size kecil kausalitas masih dapat ditunjukkan jika makin banyak kriteria Hill dipenuhi. 

Jaelan Sulat: Sebagaimana ditekankan Prof. Bhisma Murti, bahwa penelitian experimental atau randomized controlled trial (RCT) merupakan rancangan terbaik untuk mengukur efikasi suatu intervensi. Dengan rancangan tersebut –dari catatan pak Rossi– memungkinkan peneliti mengendalikan sumber-sumber invaliditas internal, yaitu: maturasi, histori, instrumentasi, testing, central tendency, maupun differential selection; baik melalui randomisasi dalam penempatan subjek (random allocation) maupun penyepadanan (matching) antara subjek pada kelompok intervensi dan subjek pada kelompok kontrol. Dengan cara ini, maka kekuatan hubungan (effect size) yang ditunjukkan oleh rancangan RCT adalah yang paling valid karena semua sumber invaliditas internal dikendalikan.
Lalu bagaimana dengan penelitian-penelitian untuk menguji intervensi yang bersifat terbuka, luas, dan berskala komunitas sehingga berisiko tinggi terjadi kontaminasi informasi antar partisipan di kelompok intervensi dan kelompok kontrol –mengingat interaksi antar individu dalam komunitas yang sama?
Rancangan experimental lapangan atau cluster randomised controlled trials (CRT) yang sering disebut pula dengan istilah group randomised trials atau community randomised trials dikatakan cukup kuat dan sesuai untuk menguji intervensi yang bersifat terbuka, berskala luas, dan berisiko terjadi kontaminasi informasi. Dalam rancangan ini randomisasi penempatan subjek pada kelompok intervensi dan kelompok kontrol dilakukan pada tingkat kluster (wilayah), sedangkan pengukuran outcome dilakukan pada tingkat individu yang berada di dalam kluster.
Untuk mencegah bias seleksi (selection bias), pengambilan sampel pada tingkat kluster dilakukan menggunakan pendekatan alokasi terbatas (restricted allocation) dengan penyepadanan berpasangan (matched pair) dan kemudian ditempatkan pada kelompok penelitian secara acak. Dengan metode tersebut –secara metodologis– semua variabel luar (confounding factors) sebagai sumber invaliditas internal terdistribusi merata pada kelompok intervensi dan kelompok kontrol sehingga meminimalkan perbedaan dan meningkatkan keseimbangan dari variabel-variabel moderator yang kemungkinan berpengaruh.
Untuk mengurangi risiko bias pelaksanaan (performance bias) dan bias deteksi (detection bias), pelaksanaan intervensi dan pengukuran outcome dilakukan secara tertutup atau semi tertutup dengan mengupayakan semua partisipan dan petugas yang terlibat dalam penelitian –baik di kelompok intervensi maupun kelompok kontrol– tidak mengetahui bahwa mereka berada dalam situasi percobaan (blinding of participants and personnel serta blinding of outcome assesment).
Pengukuran outcome bisa menggunakan metode kohort longitudinal dengan melibatkan partisipan yang sama di kelompok intervensi maupun kelompok kontrol atau metode lain seperti repeated cross-sectional survey pada individu yang berbeda dalam kluster penelitian. Sebagian peneliti berargumen bahwa analisis cross sectional lebih tepat dibandingkan dengan analisis kohort untuk mengukur efektifitas intervensi berbasis masyarakat. Walau demikian –menurut peneliti lain– analisis kohort melalui sampel longitudinal secara teoritis dikatakan lebih baik dalam mengisolasi efek intervensi dan memiliki power statistik yang lebih besar untuk mendeteksi perbedaan dalam hipotesis.
Meski validitas internal rancangan CRT tetap tidak bisa dikatakan sama atau setara dengan rancangan RCT, namun rancangan ini memiliki validitas eksternal yang lebih tinggi karena situasi percobaannya lebih alamiah, khususnya untuk intervensi-intervensi program berbasis masyarakat.

Referensi:
Giraudeau, B., & Ravaud, P. (2009). Preventing bias in cluster randomised trials. Plos Medicine, 6(5). http://doi.org/10.1371/journal.pmed.1000065

Koepsell, T. D., Wagner, E. H., Cheadle, A. C., Patrick, D. L., Martin, D. C., Diehr, P. H., … & Dey, L. J. (1992). Selected methodological issues in evaluating community-based health promotion and disease prevention programs. Annual review of public health, 13(1), 31-57. http://doi.org/10.1146/annurev.pu. 13.050192.000335

Mazor, K. M., Sabin, J. E., Boudreau, D., Goodman, M. J., Gurwitz, J. H., Herrinton, L. J., … Platt, R. (2007). Cluster randomized trials opportunities and barriers identified by leaders of eight health plans. Medical Care, 45(10), 29–37. Retrieved from http://www.jstor.org/stable/40221554

McKenzie, J., Ryan, R., & Di Tanna, G. (2016). Cochrane consumers and communication review group: Cluster randomised controlled trials. Cochrane Consumers and Communication Review Group, (Agustus). Retrieved from http://cccrg.cochrane.org

Medical Reseach Council. (2002). Cluster randomised trials: Methodological and ethical consederations (MRC clinical trials series) (November 2). London: Medical Research Council. Retrieved from https://www.cebma.org/wp-content/uploads/Cluster-randomised-trials-Methodological-and-ethical-considerations.pdf.

Moberg, J., & Kramer, M. (2015). A brief history of the cluster randomised trial design. Tje Royal Society of Medicine, 108(5), 192–198. http://doi.org/10.1177/ 0141076815582303

3 thoughts on “Validitas Internal Penelitian Experimental

  1. Dalam buku “Prinsip dan Metode Riset Epidemiologi” saya dan dalam berbagai workshop metodologi penelitian yang saya selenggarakan, saya selalu mengemukakan dan menegaskan bahwa jika peneliti ingin menentukan efektivitas intervensi, maka pilihlah dan lakukan randomized controlled trial (RCT), jangan eksperimen kuasi (yaitu, eksperimen tanpa randomisasi).

    RCT memberikan bukti empiris kausal paling kuat tentang efektivitas intervensi, sehingga disebut desain gold standard untuk menentukan efek intervensi. Mengapa gold standard? Karena dalam menentukan subjek penelitian untuk masuk ke dalam kelompok eksperimen atau kelompok kontrol dilakukan dengan prosedur randomisasi (randomization, random allocation, random assignment). Dengan randomisasi (beda dengan random sampling), semua subjek pada sampel memiliki peluang yang sama untuk terpilih ke dalam kelompok eksperimen dan kelompok kontrol, dengan implikasi distribusi confounding factors, baik yang diketahui maupun tidak diketahui peneliti, akan terdistribusi secara sama/ serupa antara kedua kelompok. Karena distribusi alias sebaran confounding factors sudah sama antara kedua kelompok di awal penelitian (baseline), maka, perbandingan hasil pengukuran variabel dependen antara kedua kelompok di akhir penelitian memberikan bukti yang valid (validitas internal) tentang efek dari intervensi tersebut.

    Apakah dalam analisis statistik peneliti perlu membandingkan keadaan sebelum dan sesuah intervensi untuk menentukan efektivitas intervensi? Tidak. Peneliti cukup membandingkan kelompok eksperimen dan kelompok kontrol SESUDAH intervensi, dengan menggunakan uji statistik yang tepat dan ukuran efek (ukuran hubungan) yang sesuai dengan skala pengukuran variabel dependen. Jika yang dibandingkan dari dua kelompok adalah data kontinu, lakukan uji t independen, dengan ukuran efek/ hubungan yang disebut EFFECT SIZE. Jika yang dibandingkan dari dua kelompok adalah data kategorikal (dikotomi), lakukan uji Chi Kuadrat, dengan ukuran efek/ hubungan RR (Risk Ratio), OR (Odds Ratio), atau HR (Hazard Ratio).

    Apakah dalam RCT peneliti perlu melakukan restriksi (kriteria inklusi dan ekslusi) untuk mengontrol confounding factor tertentu? Tidak, peneliti tidak perlu latah melakukan kriteria inklusis dan eksklusi untuk tujuan mengontrol confounding factor, karena sudah saya sebutkan tadi, proses randomisasi telah mengontrol pengaruh SEMUA confounding factors, baik yang diketahui maupun tidak diketahui, baik yang diukur maupun tidak diukur oleh peneliti. Kriteria inklusi dan eksklusi dapat dilakukan peneliti untuk tujuan lainnya, misalnya menjaga keamanan/ keselamatan subjek penelitian tertentu (misal, ibu hamil dieksklusi dalam penelitian tentang efektivitas diazepam dalam menurunkan kecemasan), memudahkan peneliti dalam mengumpulkan data, dan sebagainya yang BUKAN untuk mengontrol confounding factor. Demikian juga peneliti tidak perlu latah melakukan analisis multivariat terhadap untuk menentukan efektivitas intervensi pada RCT.

    Apakah semua aspek metodologis yang dijelaskan di atas berlaku untuk eksperimen kuasi? Tidak. Level hirarki bukti kausal eksperimen kuasi tidak lebih tinggi daripada studi observasional (kohor dan kasus kontrol). Sama dengan studi observasional, dalam eksperimen kuasi peneliti harus mengontrol confounding factor dengan analisis multivariat atau sebagai alternatif namun memberikan hasil yang lebih lemah membandingkan selisih sesudah dan sebelum intervensi antara kelompok eksperimen dan kelompok kontrol.

    Ketika RCT dilakukan dengan baik, maka desain ini memberikan bukti kausal yang terkuat tentang efek intervensi pada populasi sasaran (target population), dengan kata lian memberikan bukti dengan validitas internal (internal validity) yang terkuat. Ketika hasil sejumlah RCT yang meneliti masalah penelitian yang sama dari berbagai populasi digabungkan menjadi satu secara sistematis dan secara kuantitatif dalam desain studi META-ANALISIS, maka hasilnya memberikan bukti yang lebih kuat tidak hanya dalam aspek validitas internal tetapi juga validitas eksternal (external validity).

    Validitas internal adalah derajat kebenaran kesimpulan tentang hubungan variabel atau efek variabel satu terhadap variabel lainnya yang diamati dan dianalisis pada sampel ketika digunakan untuk menunjukkan hubungan atau efek variabel-variabel yang sama pada populasi sasaran (target population).

    Validitas eksternal adalah derajat kebenaran kesimpulan tentang hubungan variabel atau efek variabel satu terhadap variabel lainnya yang diamati dan dianalisis pada sampel ketika digunakan untuk menunjukkan hubungan atau efek variabel-variabel yang sama pada populasi yang lebih luas, yaitu populasi umum (general population), yang terdiri atas populasi sasaran dan populasi eksternal (external population). Validitas eksternal disebut juga generalizability, yang maksudnya kemampuan kesimpulan penelitian untuk digeneralisasi kepada populasi yang lebih luas.

    Semua keterangan saya di atas telah saya uraikan panjang lebar dan berulang kali dalam buku saya “Prinsip dan Metode Riset Epidemiologi” sampai edisi 7 sekarang ini. Demikian juga keterangan di atas telah saya sampaikan sampai bosan (karena membicarakan satu isu yang sama berulang-ulang tidak produktif) pada berbagai workshop offline (sebelum Covid-10) maupun online (selama Covid-19).

    Bhisma Murti.

    1. Maaf pak Burhannudin (dan pembaca yang lain), judul yang benar “Validitas Internal Penelitian Experimental”.

Leave a comment