“I think, therefore I exist”

Sunday, October 9, 2011

Metode Penelitian Pendidikan Dasar (3)

Pengumpulan Data Penelitian dengan Pengujian dan Laporan Tindakan diri

Ikhtisar
Memberikan tes dan laporan tindakan diri ini adalah salah satu cara utama di mana peneliti mengumpulkan data tentang individu. Instrumen ini dapat mengungkapkan tentang bakat informasi, prestasi akademik, dan berbagai aspek kepribadian. Kita mulai bab ini dengan menggambarkan karakteristik dari tes yang baik dari laporan diri yaitu mengukur, menekankan validitas dan reability kriteria. Kami kemudian mendiskusikan berbagai langkah yang tersedia dan bagaimana untuk mendapatkan informasi tentang keduanya. Teknologi komputer telah memiliki dampak yang besar dalam pengujian, dan kita termasuk bagian dai perkembangan dibidang ini. Pada bagian terakhir dari bab ini, kami akan menjelaskan bagaimana cara mengembangkan tes kita sendiri dan diri-laporan tindakan dan cara efektif mengelola tes tersebut dalam studi penelitian.
Tujuan
Setelah mempelajari bab ini Anda harus dapat:
1. Menjelaskan lima karakteristik sebuah test yang baik.
2. Menjelaskan apa artinya sebuah tes untuk menghasilkan interpretasi yang valid dari nilai tes, dan menjelaskan lima pendekatan untuk menentukan bagaimana penafsiran yang valid.
3. Menjelaskan tentang tes untuk menghasilkan skor yang dapat diandalkan, dan menjelaskan empat pendekatan untuk uji reliabilitas menentukan nilai.
4. Menjelaskan informasi tentang uji reliabilitas nilai yang disediakan oleh teori generalisasi dan kesalahan standar pengukuran.
5. Menjelaskan keuntungan dariteori item respon yang lebih dari teorites klasik.
6. Menjelaskan keuntungan dari standar tes secara lokal yang dibangun Dalam studi penelitian.
7. Membandingkan keuntungan kriteria yang direferensikan, dan mengukur referensi individu.
8. Menjelaskan bagaimana teknologi komputer merubah pengembangan dan penggunaan tes.
9. Membandingkan keuntungan tes individua dan tes kelompok yang diberikan.
10. Mendaftarkan lima jenis tes kinerja, dan menggambarkan karakteristik utama dari masing-masingjenis.
11. Menjelaskan prosedur dan kriteria yang telah diusulkan untuk menentukan validitas dan reliabilitas penilaian kinerja.
12. Mendaftar tujuh jenis ukuran kepribadian, dan menjelaskan karakteristik utama dari masing-masing jenis.
13. Menjelaskan bagaimana locator dan uji untuk meninjau lokasi dapat digunakan untuk menemukan tes yang tersedia dan informasitentang lokasi yang dapat digunakan.
14. Menjelaskan bagaimana menggunakan manual tes, tes itu sendiri, dan kontak dengan pengembang tes untuk menentukan apakah tes adalah sesuai untuk tujuan penelitian Anda.
15. Menjelaskan tujuh langkah yang terlibat dalam mengembangkan tes untuk digunakan dalam penelitian.
16. Menjelaskan setidaknya tiga tindakan yang dapat Anda ambil jika Anda menghadapi perlawanan dengan tes yang ingin Anda kelola untuk studi penelitian publik atau profesional.
17. Menjelaskan beberapa prosedur yang bisa Anda ikuti untuk mendapatkan upaya maksimal individu pada tes kinerja atau tanggapan yang jujur pada ukuran kepsribadian.
diri dalam pengukuran untuk membantu mereka. Sebaliknya, peneliti perlu untuk menggunakan tes dalam studi mereka yang akan dinilai oleh praktisi untuk menjadi relevan dan suara. Oleh karena itu, mereka harus tetap mengikuti tren saat ini dalam praktek pengujian. Dalam bab ini, Anda akan menemukan referensi tidak hanya pengukuran penelitian dan teori, tetapi juga untuk pengujian praktek di sekolah.
Karakteristik Test yang Baik
Kriteria untuk menilai kualitas tes
Lima kriteria yang umum digunakan untuk menilai kualitas cukup untuk digunakan dalam
penelitian pendidikan. Akan dijelaskan di bawah ini.
1. Objectivitas. Objektivitas dari suatu utes untuk skornya yang terdistorsi oleh bias dari individu-individu yang mengelola dan skor itu. Bahkan, pengembangan suatu disiplin ilmu dapat ditelusuri oleh kemajuan yang telah dibuat dalam mengenali kemungkinan kesalahan pribadi dalam pengukuran dan railing mereka ke tingkat yang lebih besar. Tes tertentu, seperti tes noda tinta Rorschach memiliki objektivitas rendah karena kondisi administrasi dan scoring dan fleksibel. Tester Bias dapat terjadi dengan mudah di bawah kondisi ini. Sebaliknya, tes pilihan ganda umumnya jauh lebih objectifitas karena mereka kebanyakan dikeiola sendiri dan semua pencetak gol dapat menerapkan kunci penilaian dan setuju dengan sempurna. Untuk alasan ini, tes pilihan ganda sering disebut tes objektif.
2. Kondisi standar administrasi dan scoring. Seperti kita sarankan di atas, diinginkan untuk tes untuk memiliki kondisi standar administrasi dan penilaian karena kondisi ini meningkatkan objektivitas. Oleh karena itu, tes yang dikembangkan dengan baik akan menyertakan manual
yang menentukan prosedur yang harus diikuti untuk setiap situasi yang mungkin mempengaruhi kinerja individu tes. Sebagai contoh, pengembang akan menentukan berapa banyak waktu untuk memungkinkan individu untuk menyelesaikan tes, instruksi cuaca dapat
diulang, bagaimana untuk menjawab pertanyaan pembuat tes, dan berapa banyak interaksi pribadi yang diizinkan antara tester dan peserta tes. Para pengembang juga menetapkan prosedur scooring, termasuk untuk sikap sircum khusus, seperti ketika tanda individu untuk pilihan pada item pilihan ganda.
Sebuah tes yang memiliki prosedur untuk memastikan konsistensi dalam administrasi dan mencetak di semua situasi pengujian disebut uji Membakukan. Keuntungan penting dari tes Membakukana dalah bahwa mereka meminimalkan kesalahan pengukuran karena variasi dalam mengelola dan penilaian mereka. Keuntungan lain adalah bahwa jika Anda mendapatkan temuan yang signifikan dalam studi penelitian Anda, peneliti lain akan mampu meniru dan memperluas pada mereka karena mereka dapat menciptakan kondisi sama administrasi dan scooring dengan konsultasi manualtes.
3. Standar untuk interpretasi. Nilai tes obyektif tidak inheren ditafsirkan. Mereka biasanya diinterpretasikan relatif terhadap sesuatu yang eksternal untuk menguji: baik atau kriteria yang ditetapkan untuk norma-norma. Misalnya, dalam kriteria-direferensikan interpretasi, skor interoreted relatif terhadap standar kinerja mutlak, sedangkan dalam interpretasi mengacu-norma, nilai diinterpretasikan relatif terhadap kinerja individu othar dalam
kelompok didefinisikan. Standar untuk interpretasi dijelaskan secara lebih rinci kemudian dalam bab ini.

Pengukurandalam penelitian pendidikan
Prinsip-prinsip pengukuran yang dijelaskan dalam bab ini terutama berasal dari tradisi kuantitatif penelitian pendidikan. Dalam tradisi ini, peneliti mulai proses pengukuran dengan mendefinisikan cunstruct yang menarik bagi mereka. Misalnya, matematika prestasi. Mereka mendefinisikan membangun operasional. Yaitu dengan spesifikasi kegiatan untuk mengukurnya. Dengan demikian, matematika prestasi mungkin didefinisikan sebagai kinerja individu tertentu dari item tes dalam kondisi tertentu administrasi. Situasi pengujian dirancang sedemikian rupa sehingga kinerja masing-masing tanpa nama itu dapat diberi skor numerik, seperti skor 0 sampai 50 pada tes 50-item. Sebaliknya, peneliti kualitatif biasanya tidak ditempatkan dalam situasi kinerja individu terstruktur, tapi lebih ke dalam situasi yang alami. Tentu saja peneliti kualitatif mungkin merumuskan masalah yang pengumpulan data di kedua jenis situasi akan diinginkan. Dalam situasi ini, tes akan lengkap baik metode utama pengumpulan data dalam penelitian kualitatif, yaitu observasi (diuraikan dalam bab 8 dan 9).
Fokus dari bab ini adalah bagaimana mengukur perilaku individu dengan pemberian tes. Sebuah tes kinerja adalah situasi terstruktur yang dapat dianalisis untuk menghasilkan nilai numerik, dari mana kesimpulan dapat dibuat tentang bagaimana individu berbeda dalam membangun kinerja diukur dengan ujian. Contoh prestasi akademik, kinerja dalam studi komputer, kemampuan verbal, dan kecerdasan musik.
Suatu ukuran laporan diri adalah instrumen kertas dan pensil yang menghasilkan nilai numerik item darimana kesimpulan dapat dibuat tentang bagaimana individu berbeda dalam berbagai aspek diri, seperti kepribadian, konsep diri, gaya belajar, sikap, nilai, dan kepentingan. Tidak seperti tes, langkah-langkah tidak memerlukan individu untuk "melakukan." Sebaliknya, laporan diri langkah umumnya meminta individu untuk mengungkapkan apakah mereka memiliki sifat, pikiran, atau perasaan yang disebutkan dalam item. Meskipun perbedaan ini, langkah-langkah tes laporan diri dan sangat mirip dalam konstruksi dan administrasi. Oleh karena itu, meskipun kita sering menggunakan tes panjang ketika menjelaskan konsep dan praktek pengukuran berbagai penjelasan berlaku juga untuk ukuran laporan diri kecuali dinyatakan dibagian yang lain. Dalam melakukan kajian literatur, Anda akan membaca tentang penggunaan berbagai penelitian berbagai tes laporan diri tindakan. Oleh karena itu, Anda perlu memahami instrumen dan untuk membuat penilaian tentang kesehatan mereka. Bab ini menyediakan pengetahuan dasar yang Anda akan perlukan untuk tujuan ini. Pengetahuan ini juga akan membantu Anda memilih atau mengembangkan tes untuk studi Anda sendiri. Bahkan, beberapa studi penelitian berfokus sepenuhnya pada pengembangan tes atau menyelidiki tes kesehatan yang sudah dikembangkan. Jika ini adalah tujuan Anda, bab ini akan membantu Anda mempelajari dasar-dasar pengukuran dan pengujian, tetapi Anda akan perlu untuk mendapatkan pelatihan yang lebih luas di bidang ini. Kedua praktisi dan peneliti sangat bergantung pada tes dan pengujian. Untuk alasan ini, ada kolaborasi yang lebih antara mereka di daerah ini daripada dibanyak aspek lain dari pendidikan. Praktisi perlu terus meningkatkan tes mereka untuk melayani kepentingan terbaik dari mahasiswa dan berbagai kelompok stakeholder. Mereka sering beralih kepara peneliti yang mengkhususkan
4. Keadilan. Jika tes adalah adil, untuk kelompok yang sama kemampuan sehubungan dengan mengukur membangun dengan tes (membaca keseluruhan misalnya) harus memperoleh skor yang sama pada setiap item tes. Jika tes ini tidak adil, hal ini dikatakan menderita berfungsi diferensial item, yang berarti bahwa induviduals kemampuan yang sama tetapi dari sub kelompok yang berbeda (misalnya, laki-laki dan perempuan) tidak memiliki probabilitas yang sama untuk mendapatkan skor yang sama pada satu atau lebih dari item tes. Berbagai prosedur telah pengembangan untuk dideteksi dan menghilangkan item tes yang tidak adil sebagai bagian dari proses konstruksi tes.
5. 5 dan 6. Validitas dan reliabilitas. Tes hasil yang baik dapat diandalkan snilai tes dari mana kita dapat membuat interpretasi yang memiliki validitas yang kuat. Karena kompleksitas tes karakteristik, hal itu dibahas panjang lebar dalam bagian berikut.
Uji Validitas
Tahun 1999 standard untuk pengujian pendidikan dan pysicological (disini setelah disebut kita standar) adalah sebuah karya referensi otoritatif pada uji validitas dan hal-haltes lainnya. (Selain itu sebelumnya muncul pada tahun 1966, 1974, dan 1985.) ditulis oleh komite gabungan pada tes pendidikan dan pysicological, terdiri dari perwakilan dari asosiasi pysicological amerika, pada pendidikan amerika penelitiana sosiasi, dan dewan nasional pengukuran dalam pendidikan. Standar mendefinisikan validitas sebagai "sejauh mana bukti dan mendukung teori interpretasi skor tesentiailed oleh kegiatanyang diusulkan tes." Definisi ini menyoroti fakta bahwa skor tes yang tidak sah atau tidak valid. Ini adalah penafsiran kita tentang nilai yang baik valid atau tidak valid. Sebagai contoh, jika kita menambahkan manteri ulangan sejarah achievment kepada sekelompok siswa,setiap siswa mendapatkan skor pada tes. Kami kemudian mungkin menginterpretasikanskor ini sebagai mewakili berapa banyak setiap siswa telah belajart entang sejarah relatif terhadap siswa lain. Hal ini membantu untuk berpikir tentang hal ini interpretasi sebagai "klaim" yang kita buat tentang nilai ujian.
Bukti apa yang bisa kita berikan untuk mendukung penafsiran kita skor dihasilkan oleh pemberian tes? Standar mengakui lima jenis utama dari bukti-bukti untuk menunjukkan untuk uji validitas interpretasi-skor. Setiap jenis dijelaskan dalam bagian berikut ke dalam pikiran, meskipun, bahwa ini tidak lima jenis validitas. Validitas adalah kesatuan di alam, tetapi ada cara yang berbeda untuk bukti gathar tentang hal itu. Hal penting lainnya adalah bahwa edisi baru dari standar menggunakan istilah yang berbeda dari nomenklatur tradisional yang ditemukan laporan penelitian yang lebih tua penginapan dan buku tentang pengukuran. Persyaratan baru menekankan sifat kesatuan uji validitas dan fakta bahwa jenis differeent bukti empiris dapat disintesis untuk memperkuat kasus untuk validitas tes tertentu.
Bukti dari konten atau isi test
Interpretasi atau penafsiran dati hasil tes seringkali merujuk pada hubungan antara konten yang terdapat dalam sebuah test dengan konsep -konsep yang harus di ukur dalam test tersebut. Seperti yang sudah dijelaskan dalam bab 1, istilah 'construct' sendiri mempunyai makna yang khusus dalam bidang penelitian. Construct merupakan konsep yang di simpukan dari penggunaan komponen yang sama antara fenomena yang diamati. Sebagai contohnya, jika seorang guru memberikan sebuah tes bahasa Spanyol kepada murid - muridnya, kemungkinan besar dia akan
beranggapan bahwa materi tesnya akan menggambarkan konten atau bobot yang sesuai dengan apa yang sudah murid - murid dapatkan dari textbook, materi -materi kurikulum tambahan, dan persentasi - persentasi guru di kelas.
Konten yang berkaitan dengan bukti - bukti yang merujuk pada ke valid-an( keakuratan) dari sebuah test tidak akan di bingungkan oleh face validity yang hanya melibatkan sebuah kesederhanaan, pemeriksaan subjektif terhadap materi - materi yang terdapat pada test untuk menilai apakah materi - materi tersebut bisa mencakup semua isi atau konten pokok yang akan di ukur dalam test tersebut. Konten yang berkaitan dengan bukti - bukti khusus secara sistematis ditentukan oleh konten para ahli, yang mendefinisikan dalam istilah yang tepat seluruh bidang ( biasa di sebut domain) dari konten yang lebih khusus dari test diasumsikan untuk menggambarkan dan kemudian juga menentukan setepat apa konten secara keseluruhan di wakilkan oleh materi -materi yang ada di test. Sebuah test tidak harus meliputi seluruh konten yang tedapat dalam sebuah pembelajaran karena hasil belajar siswa menjadi konten yang valid, tetapi test ini harus meliputi sebuah gambaran sampel atau contoh dari konten domain.
Pentingnya pemeriksaan konten yang berkaitan dengan validitas atau keakuratan bukti - bukti diilustrasikan oleh sebuah studi yang membandingkan konten dari empat buah textbook matematika yang paling popular dengan empat buah test standard keberhasilan matematika yang paling sering digunakan. Analisa yang telah dilakukan menunjukkan bahwa hanya 21 sampai 50 persen ditemukan kecocokan antara konten yang terdapat dalam textbook dengan konten yang terdapat dalam tes. Itu berarti, dalam kasus yang terburuk pun, para siswa mempunyai sebuah kesempatan untuk belajar sebanyak 21 % dari apa yang sudah di teskan. Dengan konten yang berkaitan dengan validitas di minggu ini, tes keberhasilan ini menyediakan sebuah gambaran yang sangat tidak akurat dari apa yang sudah para siswa pelajari di dalam pelajaran matematikanya ( anggaplah bahwa guru mengajar berdasarkan textbook).
Standar Intruksi dasar merupakan sebuah terobosan baru yang sangat penting dalam bidang pendidikan. Instruksi jenis ini mensyaratkan kesetaraan antara konten dari kurikulum, ( biasanya di tentukan oleh standard yang sesuai dengan mandate perwilayah), instruksi guru, dan penilaian menggunakan tes yang memenuhi standard. Peneltian yang dilakukan oleh Gerald Tindal dan Victor nolet telah menemukan bahwa jenis penyetaraan ini akan menimbulkan banyak masalah bagi para guru. Menjadi hak para guru, untuk memasukkan atau tidak memasukkan konsep - konsep yang terdapat dalam kurikulum kedalam intruksi atau tes - tes. Masalah terbesar adalah situasi dimana kunci dari konsep - konsep itu di uji, tetapi tidak diajarkan dengan baik atau tidak cukup mewakili materi -materi yang ada didalam kurikulum. Penemuan penemuan ini menyimpulkan bahwa para peneliti mungkin tidak menemukan bukti yang bagus untuk mendukung validitas dari penafsiran hasil test yang mereka lakukan jika mereka menggunakan test pengumpulan data didalam situsi sekolah yang sebenarnya.
Konten yang berkaitan dengan bukti validitas sangat penting dalam menyeleksi tes yang digunakan dalam eksperimen ( percobaan) yang melibatkan efek dari metode instruksional dalam peningkatan prestasi. Sebagai contohnya, anggaplah bahwa kamu melakukan sebuah research atau penelitian untuk menentukan apakah metode kontrukstif dalam pembelajaran studi sosial adalah lebih mempunyai keunggulan dibandingkan dengan metode pengajaran tradisional. Untuk menemukan perbandingan yang cocok, tes keberhasilan yang dilakukan pada akhir pemberian instruksi akan menggambarkan konten yang ada selama pemberian instruksi. Jika hipotesa yang ada beranggapan bahwa pendekatan konstruktif akan mengarahkan pada pembelajaran yang superior akan tetapi konten - konten yang lebih spesifik yang di ajarkan oleh gum tidak diukur berdasarkan tes keberhasilan, penemuan ini tidak bisa digunakan baik untuk menerima atau pun menolak hipotesa dari penelitian tersebut.
Dalam banyak eksperimen, kondisi perbandingan dari uji coba yang dilakukan mempunyai objektif pembelajaran yang berbeda. Oleh karena itu sebaiknya untuk memilih tes - tes yang menghasilkan konten - penafsiran yang valid atau akurat pada setiap kondisi dari treatment ( uji coba) untuk mengatur semua tes untuk subjek - subjek di semua kondisi pada saat uji coba. Kita akan berharap bahwa partisipan dari penelitian ini melakukan yang terbaik pada tes yang mempunyai konten yang terbaik berkaitan dengan bukti - bukti untuk kondisi uji coba mereka, tetapi jika salah satu dari kondisi treatment (ujicoba) itu efektif, para partisipan dalam kondisi itu kemungkinan juga akan mengerjakan dengan baik test keakuratan yang mempunyai konten - konten yang kurang.
Evidence from response processes
Bukti dari proses merespon
Setiap orang yang dinilai berdasarkan sebuah tes tahu bahwa tugas - tugas menggunakan proses
evaluasi dan kognitif tertentu. Proses - proses itu bisa relevan atau pun tidak relevan terhadap
"construct" (konsep) yang utama diukur oleh tes. Oleh karena itu, validitas dari penafsiran hasil tes
bisa didukung oleh bukti - bukti yang prosesnya sebenarnya berhubungan dengan tes - tes yang
konsisten dengan konsep - konsep tertentu.
Sebagai contoh, andaikata penilai meminta untuk menghitung nilai essay pelajaran sejarah dari
para siswa dalam berbagai macam skala, seperti kejelasan dari gaya penulisan dan penggunaan
bukti -bukti untuk mendukung kesimpulannya. Lebih jauhnya lagi, andai tim penilai memberikan
nilai yang tinggi pada skala yang ada jika essay yang dibuat mengandung unsur ke kreatifitasan,
yang memiliki nilai yang tinggi. Jika kreatifitas yang dihasilkan tidak relevan dengan skalanya,
proses dari mencari, menikmati, dan menilai hasil kreatifitas dalam tulisan para siswa yang disetujui
bersama mengenai validitas dari tes dan penafsiran hasil - hasil nilai yang ada.
Sebagai contoh yang lain, pertimbangkan sebuah tes yang diakui mensyaratkan para siswa untuk
menggunakan "Order reasoning" proses yang tinggi untuk memecahkan tipe masalah - masalah
tertentu. Jika para siswa telah menerima instruksi yang ekstensif (luas) pada jenis - jenis program
tersebut. Dan bisa memecahkan permasalahan tesebut dengan menerapkan " algoritms" daripada "
reasoning", tingkat validitas pada tes dan penafsiran pada nilai telah disepakati bersama.
Satu prosedur untuk mengumpulkan bukti - bukti validiatas yang berkaitan dengan proses
merespon adalah untuk meminta tes pertanyaan dari penilai yang merefllekkan pada process
kognitif dan evaluasi yang secara konsisten diukur berdasarka tes. Standard - standarnya di
deskripsikan sebagai prosedur tambahan untuk mengumpulkan respon dari bukti - bukti proses
tersebut.
Bukti dari struktur internal.
Hampir semua tes mempunyai unsur - unsur "multiple" nya. Hasil analisis dari hubungan antara unsur - unsur tersebut terhadap satu sama lainnya bisa menyediakan bukti - bukti tentang keakuratan hasil penafsiran nilai dalam sebuah tes. Sebagai contoh, anggaplah sebuah tes telah di desain untuk mengukur satu Construct ( konsep). Jika ini benar - benar merupakan sebuah kasus, sebuah analisis yang saling berkorelasi (lihat bab II) harus menunjukkan bahwa seorang individu yang menjawab item ( materi) tertentu dengan cara tertentu pula (Contoh, dengan cara yang benar)

cenderung lebih suka untuk menjawab item - item yang lain dengan cara yang sama dibandingkan
dengan individu yang menjawab dengan cara yang berbeda.
Beberapa tes di desain untuk mengukur multiple construct atau konsep multiple ( contohnya,
visual spatial, verbal dan motor aptitudes)dan menyediakan score yang terpisah satu sama lainnya.
Beberapa jenis dari analisis yang berkolerasi, termasuk analisis factor (lihat Bab II), bisa dilakukan
untuk mengembangkan bukti - bukti untuk mendukung ke akuratan atau validitasdari penafsiran
yang berdasarkan pada skor per individual dalam berbagai macam subtes yang sekiranya bisa
mengukur tingkat kecerdasan yang berbeda.
Prosedur analisis yang lain berdasarkan struktur internal pada sebuah tes dideskripsikan dalam
sebuah standard tertentu.
Bukti dari keterkaitan hubungan antar variable.
Para peneliti sering menyelidiki atau memeriksa ke akuratan sebuah tes dengan cara melakukan hipotesa (praduga) bagaimanakah sebuah sampel dalam satu variabel bisa sesuai dan saling berhubungan untuk mengukur variable lainnya. Mereka bisa mengumpulkan dan menganalisis data yang relevan. Jika data yang di analisis bisa mendukung hipotesanya, para peneliti bisa menggunakan itu sebagai bukti dari validitas atau keakuratan sebuah tes.
Salah satu dari tes validitas yang paling umum untuk jenis ini adalah penelitian mengenai setepat apakah sebuah tes bisa memprediksikan sebuah sample nilai sesuai dengan kriteria - kriteria yang telah diprediksikan. Sebuah contoh dari jenis penelitian ini telah dilakukan oleh Marvin Simner. Dia mengembangkan sebuah versi singkatan dari Printing Performance School Readiness Test ( APPSRT), yang bertujuan untuk mengidentifikasi resiko atau kecenderungan kegagalan anak -anak yang baru akan memulai persiapan sekolah taman kanak - kanaknya. Kemudian ia mencari cara untuk menentukan apakah pengukuran yang lebih cepat pada hasil sebuah prediksi dengan nilai prediksi yang cukup yang hasilnya bisa digunakan dalam cakupan yang bersifat lebih luas, dan pengukuran yang original. Dua contoh daril71 anak - anak yang telah dites lebih dulu di persiapan sekolah taman kanak - kanak dan mengikuti tes tersebut selama 3 tahun. Skor yang ditunjukkan oleh APPSRT kemudian dikorelasikan dengan pengukuran selanjutnya mengenai prestasi ( kecerdasan):
1. Peningkatan kemampuan para siswa dalam membaca dan berhitung pada level atau tingkat pertama.
2. Skor asli mereka pada dua test standard keberhasilan atau prestasi saat masa tingkat pertama mereka berakhir. Skor yang ditunjukkan oleh APPSRT mempunyai korelasi antara 42 dan-58 untuk tingkat level kelas, dan antara 40 -60 untuk nilai satandar keberhasilan ( prestasi). Dengan menggunakan cara pintas dalam penilaian yang dilakukan oleh APPSRT, Simner mampu untuk mengidentifikasi secara tepat 70- 78 persen dari anak - anak yang kemudian di nilai oleh gurunya memiliki kemampuan dibawah rata -rata, sedangkan tes original yang lebih memakan waktu lama (PPSRT) bisa secara tepat mengidentifikasi 81 persen dari anak - anak yang mempunyai tipe sejenis. Maka dari itu, dia menunjukkan bahwa ada cukup bukti - bukti dari nilai prediksi yang dihasilkan oleh PPSRT untuk mendukung penggunannya dalam jangkauan tes yang lebih luas.
Prosedur untuk melakukan penelitian pada nilai yang bersifat prediksi pada penafsiran hasil tes telah dijelaskan di chapter II Standard - standarnya, mendeskripsikan beberapa jenis tes lain untuk kriteria dari bukti -bukti yang bisa di kumpulkan untuk mendukung pengakuan keakuratan dari penafsiran hasil sebuah tes.
1. Bukti yang berasal dari sampel dari hasil tes yang berkolerasi positif dengan skor - skor yang didapat dari hasil pengukuran lain yang telah dihipotesa untuk mengukur construct (konsep) yang sama. Bukti - bukti yang didapat dari jenis ini disebut bukti konvergen
2. Bukti yang berasal dari sampel dari skor tes berkolerasi negatif dengan skor - skor yang didapat dari hasil pengukuran lain yang telah dihipotesa untuk mengukur construct (konsep) yang berbeda. Bukti - bukti yang didapat dari jenis ini disebut bukti diskriminan.
5. Bukti yang berasal dari sampel hasil skor pada tesnya didistribusikan secara berbeda pada dua atau lebih grup - grup yang telah di hipotesa (diduga) menjadi berbeda dalam konsepnya (construct) dan sekiranya bisa diukur oleh tes.
4. Bukti yang berasal dari sampel hasil tes berkolerasi positif dengan skor yangdidapat dari tes tersebut pada pengukuran kriteria dari variabel yang diatur dengan perkiraan waktu yang sama. Bukti yang didapat pada jenis ini disebut bukti konkuren. Terdiri dari hasil statistik yang mengindikasikan sejauh mana keakuratan sebuah hasil tes bisa memprediksikan kriteria dari skor yang diperoleh berdasarkan perkiraan point yang sama pada hasil skor tersebut. Sebaliknya, bukti yang bersifat prediktif terdiri dari hasil statistik yang mengindikasikan sejauh mana keakuratan atau ketepatan hasil sebuah hasil bisa memprediksikan criteria dari hsil skor yang diperoleh pada point selanjutnya. ( hasil dari penelitian Simner yang telah di deskripsikan di atas, menghasilkan bukti yang bisa di prediksikan untuk (APPSRT)
Tidak masalah setepat apa validitas sebuah tes dilakukan, ini hanya memhasilkan bukti - bukti untuk sampel dari masing - masing inividu yang melakukannya. Bukti ini bisa bisa diterapkan atau pun tidak pada sampel -sampel yang menggambarkan populasi lain untuk pengukuran yang lainnya pada criteria variabel tertentu. Memungkinkan juga bagi praktisi pendidikan untuk mengganti kapan saja jika bukti - bukti itu sudah tidak valid. Oleh Karena itu, standard yang di rekomendasikan untuk studi validitas (keakuratan) yang dilakukan terus menerus untuk memeriksa keabsahan secara umun dari keberadaan bukti - bukti yang digunakan untuk mendukung validitas yang telah diakui. Bukti dari konsekuensi pengajaran
4 jenis bukti - bukti untuk mendukung tuntutan keakuratan pada sebuah tes yang telah kita bicarakan diatas lebih di fokuskan pada arti dari nilai skornya. Sebagai contoh,arti dari construct yang lebih menekankan pada hasil skor yang didapat dari test tertentu. Bagaimanapun juga, Samuel Mesick telah mengamati bahwa lebih banyak terdapat jenis tes skor dari apa yang telah ada selama ini. Dia menggunakan istilah consequential validity untuk merujuk pada fakta -fakta bahwa nilai tes, teori, dan keyakinan yang ada di belakang konsep ( construct), serta bahasa yang digunakan untuk menandai ( melabeli) construct atau konsep yang ada juga menambahkan nilai - nilai tertentu dan mempunyai nilai tertentu. Penilaian dan konsekuensi itu butuh untuk di periksa untuk menentukan apakah penafsiran kita terhadap hasil tes dan juga cara yang kita pakai untuk mengukur tes tersebut adalalah valid untuk penggunaan tertentu.
Sebuah momen refleksi akan menunjukkan bahwa construct ( konsep) yang ada diukur menggunakan tes intelejensi prestasi akademik, dan penilaian nilai - nilai yan ada. Contoh yang paling nyata adalah dalam tes intelejensi. Intelejensi bukan merupakan konsep ( construct) yang netral tapi ia dipengaruhi oleh masyarakat kita. Tes inteljensi yang paling sering di gunakan untuk mengukur berbagai macam kemampuan yang disyaratkan untuk dimiliki di sekolah. Oleh Karena itu test ini menyatakan bahwa school performance merupakan hal penting. Tes intelejensi lain menekankan pada kemampuan lain, seperti: bakat kreativitas, yang sangat bernilai bagi beberapa anggota masyarakat walaupun sebagian yang lain tidak. Konsepnya ( construct) diukur oleh personality self report instrument akan memiliki bobot penilaian yang setara. Sebagai contoh, terdapat pengukuran mengenai tingkat kekuasaan, tingkat keramahan, tingkat kebebasan, tingkat depresi dan tingkat kegelisahan. Masing - masing mempunyai konotasi yang berbeda untuk anggota masyarakat yang berbeda pula.
Hanya Construct (konsep) yang diukur melalui skor hasil tes yang mempunyai nilai bobot. Itulah konsekuensi sosial dari penggunaan skor hasil test. Test berdasarkan skor bisa cocok atapun tidak cocok untuk digunakan dan juga dua - duanya mempunyai konsekuensi - konsekuensi yang berbeda baik yang diharapkan maupun yang tidak diharapkan. Tes kemampuan contohnya, mempunyai kecendemngan dan efek yang yang diharapkan dalam mengidentifikasi dan mempercepat meningkatnya karir akademik pada anak atau siswa yang berbakat tanpa memandang kelas sosial dan letak geografinya. Bagaimanapun juga tes kemampuan juga mempunyai efek yang tidak diharapkan dalam menciptakan kesenjangan yang besar terhadap persentase orang kulit putih yang selalu di promosikan dalam bidang pekerjaan tertentu. (contohnya, departemen kepolisian) membandingkan dengan orang amerika afrika dan amerika latin.
Standarnya menekankan bahwa kebijakan sosial yang melibatkan penggunaan dari tes dan keakuratan sebuah tes merupakan hal yang terpisah satu sama lainnya; walaupun informasi tentang konsekuensi mengenai hasil tes bisa jadi mempengaruhi keputusan mengenai jenis tes mana yang akan digunakan. Perbedaan itu penting karena perbedaan ini bisa dijadikan sebagai bahan pertimbangan, misalnya, sebuah tes intelejensi bisa digunakan untuk membuat sebuah pertimbangan atau rujukan dan keputusan apakah merugikan grup tertentu atau tidak. Bagaimanapun juga hasil perolehan skor dari tes tersebut bisa benar - benar valid dan bermanfaat untuk kepentingan yang lain juga. Oleh karena itu, kita harus mempertimbangkan dengan seksama baik jenis tes validitas ataupun tes konsekuensi ( sebab - akibat) dalam penggunaannya di bidang praktisi pendidikan dan penelitian.
Tes reabilitas
Seandainya kita mengadakan tes essay yang sama kepada para sisiwa dalam dua kesempatan yang berbeda dan para siswa ternyata mendapatkan hasil skor yang tidak jauh perbedaannya antara yang tes pertama dan yang kedua. Pertanyaan adalah, yang manakah hasil nilai tes para siswa yang sebenarnya? Atau anggaplah bahwa nilai essay dari salah satu siswa tersebut mempunyai lima perbedaan yang besar. Dan tiga dari perbedaan menunjukkan skor yang sama. Sedangkan, 4 dari nilai itu menunjukkan skor yang agak tinggi. Dan 5 dari nilai tersebut menunjukkan angka skor yang rendah. Jadi, yang manakah nilai para siswa yang sesungguhnya?
Dalam tes teori klasik, pertanyaan ini akan dijawab dengan menggunakan beberapa asumsi. Asumsi pertama adalah bahwa masing-masing subjek benar-benar mempunyai hasil skor yang sebenamya pada test tersebut, yang merupakan karakteristik yang sebenamnya dari siswa tersebut (contohnya rberdasarkan kemampuannya, perilakunya, dan personality atau kepribadiannya) yang dapat diukur melalui sebuahh test. Asumsi kedua adalah bahwa berbagai test karakteristik ini mungkin saja mempunyai kesalahan dalam pengukurannya. Asumsi ketiga adalah bahwa kesalahan dalam pengukuran saat test tersebut bersifat random (acak). Ini berarti, misalnya jika terdapat seratus nilai skor terbesar dari test essay yang telah disebutkan diatas tadi, kesalahan penilaian pada test tersebut akan secara random didistribusikan. Sebab itu, beberapa hasil pengukuran bisa menunjukan skor tertinggi pada subjek-subjek tertentu, tetapi hasil skor tersebut juga bisa diimbangi dengan hasil nilai yang menunjukan angka skor lebih rendah dari sujek-subjek tersebut.
Berdasarkan analisis ini bahwa setiap skor yang diperoleh melalui pengadaan sebuah test akan terdiri dari komponen skor yang benar maupun komponen skor yang salah atau error. Jika hasil test essay dari para siswa telah dinilai dengan angka 100, berarti nilai 100 akan menjadi perkiraan nilai sebenamya dari siswa tersebut. Standart deviasi dari skor-skor tersebut akan menyajikan sebuah estimasi atau perkiraan seberapa banyak kesalahan dalam pengukuran yang pada test tersebut. Jika standart deviasinya adalah nol itu berarti bahwa seseorang telah mendapatkan skor yang sama pada semua skor yang sama. Jadi kita bisa menyimpulkan bahwa test tersebut tidak mempunyai kesalahan dalam pengukuran atau penilaiannya. Walaupun begitu anggap saja bahwa standard deviasinya adalah 5,0 yang berarti bahwa skomya adalah 75. Standard deviasi yang besar ini rerlatif digunakan untuk skor yang berskala besar. Dan jadi kita bisa menyimpulkan bahwa test tersebut mempunyai kesalahan dalam pengukuran atau penilaiannya.
Dalam test teori klasik, realibilitas dari sebuah test merujuk pada seberapa banyak kesalahan pengukuran yang terjadi dalam penentuan hasil skor yang diddapat melalui sebuah test. Kita bisa mendefinisikan kesalahan dalam pengukuran sebagai perbedaan antara hasil skor yang sebenamnya dari seorang individu paa test dan juga skor yang sebenamya dia dapatkan melalui berbagi macam kondisi yang lain. Baik dari skor yang sebenamya maupun skor yang eror ( kesalahan dalam pengukurannya), dua - duanya merupakan hal yang masih praduga (hipotesa), jadi kita masih bisa memperkirakannya melalui berbagai macam prosedur ( yang akan diterangkan dibawah) tetapi kita tidak bisa mengukurnya secara langsung.
Masing - masing dari prosedur yang digunakan untuk memperkirakan skor yang tepat dan kesalahan dalam pengukuran akan melibatkan perhitungan yang tepat dari realibitas yang koefesien. Reabilitas yang koefesien sendiri bisa bermacam -macam antara 00 danlOO. Dengan angka 100 yang berarti mengindikasikan reabilitas yang sempurna dari skor tes tersebut dan angka .00 mengindikasikan tidak adanya realibilitas. Secara umum test-test yang menghasilkan skor dengan tingkat realibilitas .80 atau lebih tinggi dari itu telah dinyatakan cukup dapat dipercaya untuk banyak tujuan penelitian.test-test dan self-report measures yang sesuai dengan standart bisa mencapai tingkat reabilitaas sebanyak .90 atau lebih baik dari itu. Walaupun tingkat realibilitas itu penting mengukur keakuratan sebuah test. Ini tidak berarti bahwa setiap test skor yang mempunyai reabilitas yang bagus selalu menghasilkan skor akhir yang valid atau tepat. Untuk mengerti point ini, coba bayangkan bahwa kita mempunyai sebuah instrument yang mempunyai unit skala yang besar. Ini bisa menujukan hasil pengukuran nilai konsisten yang tinggi atau tepat, tetapi kita tidak bisa mendapat idea apa arti dari hasil pengukuran tersebut. Dengan kata lain kita tidak bisa menyimpulkan hasil yang valid dari hasil skor-skor tersebut, dan kita hanya bisa memperkirakannya saja.
Reabilitas harus secara hati-hati dipertimbangkan dalam tes-tes yang digunakan pada sebuah penelitian. Karena penelitian selalu menginginkan mendapatkan reabilitas tes skor yang tinggi. Faktanya, kamu tidak bisa membuat sebuah kesimpulan akhir yang valid jika skor tersebut mempunyai reabilitas yang kosong. Alasannyassangat jelas skor yang mempeoleh reabilitas yang kosong pasti mempunyai semua kesalahan dalam pengukurannya. Dan itu tidak bisa dijadikan kompponen skor yang sebenarnya.
Tingkat kebutuhan minimum dari sebuah reabilitas tes skor tergantung pada study penelitian tertentu. Contohnya, jika kamu merencanakan akan melaksanakan sebuah eksperimen dengan sebbuah sampel yang kecil dan kamu mengharapkan hanya terdapat perbedaan yang kecil antara grup eksperimental dengan grup yang menjadi pengontrol dalam sebuah variabel tertentu. Kamu akan membutuhkan untuk menggunakan sebuah tes yang bisa menghasilkan skor-skor yang dapat dipercaya. Sebaliknya, jika kamu merancanakan untuk melakukan sebuah eksperimen dengan sebuah sampel yang besar dan menngharapkan skor yang utama dari grup eksperimental dan grup yang mengontrolnya mempunyai perbedaan yang substansi. Bahkan sebuah tes dengan skor yang memiliki reabilitas yang rendah sudah bisa digunakan untuk mendeteksi perbedaan pada tingkat yang khusus dari nilai statistic yang signifikan.
Banyak tes yang menghasilkan subskor sebagi tambahan terhadap total skornya. Sebagi contoh, sebuah tes keberhasilan atau prestasi dan subscore dari kemampuan membaca, menulis dan ilmu matematika. Bagaimanapun, reabilitas lebih sering digunakan hanya untuk melaporkan total skor akhir. Dalam kasus seperti ini, sebuah subskor ( skor tambahan) harus di gunakan dengan hati -hatikarena skor - skor ini secara umum cenderung mempunyai reabilitas yang lebih rendah dibandingkan dngan total skor.
Kita bisa menganalisis lebih jauh mengenai reabilitas dengan mempertimbangkan factor - factor yang bisa menyebabkan kesalahan dalam pengukuran. Adapun factor - factor itu adalah:
1. Materi / item dari tes - tes tersebut hanya merupakan sebuah sampel dari total domain yang kemungkinan bisa di gunakan untuk menggambarkan kemampuan, karakteristik, perilaku ataupun hal - hal lain yang dijadikan ukuran. Kesalahan dalam pengukuran bisa terjadi jika item -item yang berbeda pada tes tersebut tidak ekuivalen dalam mewakilkan konsep materi yang ada.
2. Tim Pelaksana sebuah tes bisa menimbulkan kesalahan dalam pengukuran jika mereka tidak berhasil untuk melaksanakan tes tersebut dengan konsisten.
3. Kesalahan dalam pengkuran hasil tes skor bisa terjadi juga jika tidak mengikuti prosedur penilaian yang tepat.
4. Suasana pada saat tes berlangsung juga bisa mempengaruhi, misalnya ruangan yangtidak kondusif, berisik, panas, dll
5. Keadaan dari si individu tersebut juga bisa mempengaruhi keberhasilan dalam sebuah tes. ( misalnya orang yang sedang sakit pada saat tes berlangsung, dll)
Tes teori klasik seringkali berpendapat bahwa kesalahan pengukuran yang diperoleh pada sebuah tes akan secara acak di distribusikan dan tidak bisa di ketahui secara spesifik. Para Ahli dalam bidang pengukuran telah mengembangkan pendekatan yang berbeda untuk memperkirakan reabilitas dari sebuah tes yang berada dibawah perkiraan mereka. Kita akan mendiskusikan pendekatan - pendekatan tersebut dibawah ini:
Alternate -Form Reliability (Bentuk Alternatif Reliabilitas)
AFR adalah sebuah pendekatan untuk memperkirakan reliability skor tes yang bentuk keterangan tesnya diujikan. Contohnya, 2 peneliti mengembangkan tes mereka masing-masing, tetapi dengan maksud mengukur gagasan yang sama. Masing-masing tes memiliki nomor soal yang sama, tetapi peneliti membedakan dalam hal isi dan gayanya. Dalam hal ini, akan ada kesalahan pengukuran dalam memperkirakan skor kebenaraan individu dalam gagasan yang tesnya di disain untuk diukur. Kesalahan-kesalahan ini dapat diatasi dengan menentukan AFR. Ini dilakukan dengan computing koefisien hubungan, yang disebut koefisien equivalen; antara skor individu dalam 2 bentuk paralel dalam tes yang sama. Dua bentuk dapat disusun pada kedudukan tunggal, atau interval presprecified dapat terjadi antara dua pelaksanaan.
AFR biasanya bukan ditentukan karena waktu dan pengeluaran yang terlibat dalam membangun bentuk pengganti tes. Tipe reliability lain yang dijelaskan di bawah hanya memerlukan satu bentuk tes.
Tes-Retest Reliability (Reliabilitas Tes)
TRR adalah sebuah pendekatan untuk memperkirakan reliabilitas skor tes yang kesempatan tesnya diujikan. Untuk menetukan TRR, anda akan mengakumulasikan koefisien korelasi, yang disebut koefisien stabilitas, antara skor individu dalam ukuran yang sama dalam 2 kesempatan tes yang berbeda. Ini adalah yang paling ditentukan tipe reliability untuk tes yang tidak ada bentuk penggantinya.
Permasalahan yang paling kritis dalam mengkalkulasikan TRR adalah menentukan penundaan yang sesuai antara 2 pelaksanaan tes. Jika pelaksanaan yang kedua terjadi terlalu cepat setelah yang pertama, orang akan bisa mengingat tanggapan mereka terhadap banyak hal, dan koefisien stabilitas akan cenderung tinggi. Di sisi lain, jika pelaksanaan yang kedua ditunda terlalu lama, orang akan pergi melalui perubahan dalam jarak variabel yang diukur dengan tes. Dalam hal ini, kesalahan pengukuran meningkat dari pelaksanaan tes yang akan digabung dengan perubahan skor yang tepat, membuatnya sulit untuk menerjemahkan arti perolehan koefisien stabilitas.
Internal Consistency
IC adalah sebuah pendekatan untuk memperkirakan reliability skor tes di mana hal-hal individu dari tes diujikan. Beberapa metode dapat digunakan untuk memperkirakan IC tes. Masing-masing terlibat dalam analisis nilai dari sempel individu dalam satu pelaksanan tes.
Satu metode perkiraan IC mengkalkulasikan pembagian koefisien korelasi, yang disebut koefisien IC. Untuk mengkalkulasikan koefisien ini, pembangun menyusun tes ke dalam sempel yang sesuai. Tes kemudian dibagi dalam 2 sub-tes, biasanya dengan menempatkan nomor soal ganjil ke dalam satu sub-tes, dan juga semua nomer soal dalam sub-tes lainnya.
Koefisien konsistensi internal merupakan reliabilitas yang mencakup sebagian tes saja. Reliabiltas cenderung lebih rendah sebagai ujian penurunan dalam panjang. Oleh karena itu rumus spearman brown, digunakan untuk membuat koreksi dengan koefisien reliabilitas untuk mendapatkan ke andalan reliabilitas soal ketika seluruh tes diberikan.
Metode equivalen rasional adalah metode lain untuk memperkirakan konsistensi internaltes.Item individu dianalisis oleh salah satu dari beberapa formula yang tersedia, setelah penulis di sebuah artikel di mana formula ini pertama kali dibahas. Rumus dalam artikel diberi nomor, dan dua yang paling banyak digunakan adalah K-R20 dan K-R 21. Formula K-R21 adalah pendekatan, disederhanakan dengan mudah, dihitung dari rumus K-R20. Item harus mencetak dichotomously (misalnya yang benar atau tidak benar, ya atau tidak) untuk menggunakan K-R20 atau K-R 21. Parakurder Richardson formula biasanya menghasilkan koefisien reliabilitas lebih rendah daripada yang diperoleh oleh metode lain untuk menghitung reliabilitas.
Koefisien alpha Cronbach adalah bentuk umum rumus K-R 20 yang dapat digunakan ketikaitem pada mengukur tidak mencetak goldichotomously. Sebagai contoh, beberapa tespilihan ganda dan tes esai termasuk item yang memiliki beberapa kemungkinan jawaban, masing-masing diberi bobot yang berbeda. Alpha Cronbrach adalah sebuah metode yang luas digunakan untuk reliabilitas komputasiskor.
IntertesterReliabilitas
Untuk memperoleh skor tes, seseorang perlu untuk mengelola tes dan seseorang memerlukan skor itu. Kedua jenis tes terdapat memperkenalkan kesalahan pengukuran ke dalam nilai ujian jika mereka gagal untuk mengikuti prosedur yang ditentukan persis. Besarnya kesalahan administrasi tes dapat dinilai dengan memiliki beberapa tester mengelola tes untuk sampel individu dan kemudian menghubungkan nilai mereka diperoleh dengan satu sama lain.
Teori Generalisasi
Menggunakan teori generalisasi, peneliti dapat merancang studi yang meneliti beberapa sumber kesalahan pengukuran. Analisis perbedaan digunakan untuk menganalisa data agar dapat menilai pengaruh dari masing - masing kesalahan pengukuran dan juga interaksi mereka. Selain itu, peneliti dapat mengkalkulasi koefisien generalisasi, yang dapat disamakan dengan koefisien reliabilitas, tetapi merefleksi lesalahan pengukuran gabungan ke semua sumber yang sudah diteliti. Noreen Web dan koleganya menjelaskan studi hipotetikal yang melibatkan dua sumber kesalahan pengukuran, nilai dan kesempatan. Mereka menjelaskan tentang cara mengkalkulasi perbedaan tersebut, perbedaan kesalahan, dan koefisie generalisasi untukmembuat keputusan lainnya atau keputusan pasti berdasarkan skor individu dalam 5 tes soal pendidikan kejuruan. Dengan mengkalkulasi komponen perbedaan dan koefisien generalisasi untuk rancangan studi hipotesis yang berbeda. Webb dan koleganya menjelaskan bagaimana peneliti dapat merencanakan untuk memaksimalkan perolehan koefisien generalisasi dalam sebuah studi penelitian dengan meningkatkan jumlah soal atau jumlah kesempatan pengukuran. Dalam studi hipotesis mereka, menambahkan soal pada tes ditunjukkan untuk meningkatkan reliabilitas lebih dari yang akan
melakukan tes dalam 2 kesempatan, dan juga yang tidak terlalu mahal.
Teori generalisasi bukanlah penggunaan yang biasa, dan anda lebih baik menemukan koefisien
reliabilitas untuk tes tulis. Koefisien reliabilitas harus cukup untuk membuat keputusan dalam
memilih tes tertentu jika anda meyakinkan bahwa mereka tidak akan memisahkan sumber yang
berbeda dari kesalahan pengukuran sistematis.
Dalam 2 teori tes klasik dan teori generalisasi, seseorang yang memperoleh skor melalui tes dapat
dilihat sebagai hasil kombinasi nilai sebenarnya dan kesalahan pengukuran memperbolehkan anda
untuk menentukan tingkat kemungkinan dalam skor individu yang muncul. Contohnya,
memperkirakan tes manual untuk tes aljabar yang bentuk alternative yang koefisien reliabilitasnya
untuk 300 grup siswa kelas 9 adalah 85, dan standar deviasi nilai tesnya adalah 14.
RUMUS
Karena S didistribusikan, kita dapat memperkirakan kemungkinan bahwa kesalahan ukuran pemberian akan terjadi. Pemberian property kurva distribusi normal (lihat bab 5). Kita dapat mengasumsikan bahwa sekitar dua sampai tiga dari semua nilai tes akan ada kurang lebih satu kesalahan standar pengukuran akan nilai tes individu sebenarnya. Dan sekitar 95 % akan ada kurang lebih 2 kesalahan standar pengukuran dari nilai mereka yang sebenarnya. Dalam contoh di atas, jika siswa memperoleh nilai 86 dalam tes aptitude aljabar, kesempatanya sekitar 2-3, bahwa nilai siswa yang sebenarnya adalah antara 80.58 dan 91.42., kesempatannya sekitar 95 dari 100, bahwa nilai siswa sebenarnya adalah antara 75*16 dan 96.84.
Sudah jelas dari ramus tersebit bahwa ukuran Sm berhubungan dengan tingkat koefisien reliabilitas, yaitu koefisien yang meningkat, kesalahan standar pengukuran menjadi lebih kecil. Jika tes aljabar memiliki reliabilitas 96, Sm akan menjadi 2.80. Meskipun begitu, jika reliabiltasnya 57, maka Sm akan menjadi 9.18. jadi, dapat dilihat bahwa kofisien reliabilitas yang rendah untuk sebuah tes mengindikasi kesalahan pengukuran yang besar dalam mendapatkan nilai.
Kesalahan standar pengukuran membantu kita untuk memahami bahwa nilai diperoleh sebagai ukuran pendidikan yang hanya memperkirakan dan mungkin berbeda dari nilai individu sebenarnya. Oleh karena itu, kita harus menghindari untuk mengambil nilai tes pada interoretasi yang berlebihan akan arti perbedaan kecil antara nilai tes sedang.
Teori Tanggapan Nilai
Seperti yang telah dijelaskan, teori tes klasik adalah berdasarkan asumsi bahwa penampilan dalam 2
tes merefleksikan kedua nilai siswa yang sebenarnya dalam kompetensi ataupun karakter lainnya,
diukur oleh tes dan kesalahan pengukuran didistribusikan secara acak melalui nilai sebenarnya.
Peneliti bermaksud mengadakan tes yang sangat dapat dipercaya.
Banyak tes yang di =gunakan dalam pendidikan sudah dikembangkan kedalam kerangka yang
disediakan oleh teori tes klasik. Itu adalah tes yang bagus tetapi terdapat beberapa kendala sebagai
berikut:
Asumsi Teori Respon Nilai (IRT)
Sebelumnya telah dijelaskan tetntang pelaksanaan tes berdasarkan teori tes klasik yang dihindari dengan melakukan tes menggunakan teori respon nilai. Untuk alasan ini, pengaruhnya pada pendidikan dan penelitian itu meningkat. IRT adalah pendekatan pada pelaksanaan tes berdasarkan asumsi bahwa:
1. Penampilan individu pada sebuah tes menggambarkan kemampuan individunya.
2. Seseorang dengan jumlah kemampuan yang berbeda akan tampil berbeda dalam nilainya
3. Hubungan antara variabel kemampuan penampilan inti dapat digambarkan dengan fungsi matematis.
Untuk menjelaskan IRT dalam cakupan sederhana, kita perkirakan terlebih dahulu bahwa kempampuan yang diukur adalah kemampuan membaca. Kita akan menafsirkan lebih jauh bahwa ada 5 siswa (I, II, III, IV, V) yang memiliki kehebatan tersebut. Siswa V memiliki kemapuan tes membaca lebih dari yang lainnya, siswa IV memiliki kemampuan membaca lebih dari siswa III, dan seterusnya.
Sekarang perkirakan, kita melakukan tes membaca (A) yang sangat mudah. Kelima siswa tersebut menjawab dengan benar. Hal ini menjelaska kepada kita, bahwa semua siswa memiliki beberapa tingkat minimal akan kemampuan membacanya. Selanjutnya, kami melakukan tes pada yang lainnya (B)bahwa siswa III, IV, V dapat menjawab, tetapi siswa I & II tidak bisa. Hal ini lebih sulit, dan ini ditujukan untuk membedakan kemampuan membaca siswa III, IV, dan V from student I & II. Kemudian kita melakukan tes (c), di mana hanya siswa V yang dapat menjawab. Kita sekarang tahu bahwa hal ini menggambarkan tongkat kemampuan membaca yang lebih tinggi dari 2 item, dan ini membedakan kemampuan membaca siswa V dari keempat siswa lainnya.
Manfaat Teori Respon Item
Pendekatan ini untuk hal pembangunan dan analisis yang memiliki 2 fitur penting. Pertama, ini menyediakan informasi tentang jumlah kemampuan membaca yang diukur oleh nilai. Kedua, penampilan siswa pada penilaian mencakup informasi akan seberapa banyak kemampuan membaca mereka.
Sejauh ini, pada contoh kami, kami sudah menerapkan 3 pokok, masing - masing menggambarkan tingkat kemampuan membaca yang berbeda-beda. Kira-kira kami menerapkan sekitar 10 soal pada masing-masing tingkatan (A, B, C) dengan metode yang sama (contoh, kami akan menerapkan lebih dari 10 untuk nilai tingkat A di mana semua siswa dapat menjawab). Bank soal ini memiliki beberapa manfaat sebagai berikut:
1. Kita dapat menyesuaikan tes untuk siswa yang tingkat kemampuannya berbede-beda. Contohnya, kami memberikan siswa beberapa soal tingkat A untuk dijawab. Jika siswa tidak bisa menjawab satupun, kita tidak perlu menekannya dan memperpanjang waktu tes yang tidak diiperlukan, dengan mengelola soal tingkat B dan C.
2. Kita dapat mengadakan tes parallel yang berbeda, dengan masing-masing kesulitan yang sama. Sebagai contoh, kita dapat masuk ke bank soal dan memilih 2 soal secara acak dari masing - masing tipe untuk melaksanakan 6 soal tes. Kita dapat mengulangi prosedurnya dan melakukan tes parallel dengan tingkat kesulitan yang sama.
3. Kita dapat meminimalisir kesalahan pengukuran untuk individu tertentu dengan mengerjakan soal-soal yang masih dalam level mereka di mana nantinya dapat dijawab dengan benar. Sebagai contoh, jika seorang siswa seperti siswa III yang telah dijelaskan diatas, kita dapat mengerjakan banyak soal level B agar dapat menentukan kemampuan membaca siswa dengan lebih akurat (memperbanyak jumlah soaldalam sebuah tes dapat
mengurangi kesalahan pengukuran). Tidak ada poin dalam soal level A yang terlalu mudahuntuk para siswanya, atau soal level C yang terlalu sulit
Matematis TeoriRespon
Dalam berlatih, kita tidak tau kemampuan membaca masing-masing. Ini adalah sifat latent yang
karakternya tidak bisa diteliti, yaitu dihipotesis untuk menjelaskan perilaku yang diteliti.
Sebagai contoh, kita meneliti pembacaan koran yang individu dan menjawab pertanyaannya
dengan pemahaman yang baik, kita menyimpulkan bahwa orang ini memiliki kemampuan
membaca yang baik, tetapi tidak dengan kemampuan mendasar.
Teori respon item menggunakan model matematis untuk mengidentifikasi hubungan antara
perilaku yang diteliti (contoh, penanampilannya pada soal tes dan juga kemampuan memahami.
Sebuah kurvakarakteristik soal adalah fungsi matematis yang dibuat untuk menunjukkan
hubungan antara penampilan pada soal tes dan kemampuan memahami.
Dua kurva karakteristik soal ditujukan pada gambar 7.1. Beberapa cirri kurvanya sebagai
berikut:
1. Garis mendatar x axis menggambarkan tentang kemampuan memahami yang diukur oleh nilai. Kemampuannya diukur dengan unit standar nilai (lihat bab 5), seperti individu dengan kemampuan yang lebih kecil yaitu kurang kemampuannya dibandingkan dengan mereka yang kemampuannya lebih besar.
2. Garis membujur axis menggambarkan kemungkinan menjawab soal dengan benar. Lebih tepatnya P dapat diinterpretasikan sebagai kemungkinan di mana individu diberikan tingkatan soal individu pada tingkatan penentuan kemampuan. Dipilih secra acak dari contoh individu pada tingkatan yang sama, akan menjawab soal degan benar.
3. Soal kedua lebih sulit bagi siswa pada sebaian besar tingkat kemampuan, karena kemungkinan menjawabnya benar. P lebih rendah pada sebagian besa poin dari x axis.
4. Soal 1 lebih memiliki kekuatan dalam membedakan. Maksudnya ada perbedaan yang lebih besar dalam tampilan soal antara siswa dengan kemampuan rendah dan tinggi. Sebagai contoh, jika kita melihat soal 1 kemungkinannya adalah 45, bahwa individu pada tingkat kemampuan 0 akan menjawab dengan benar, tetapi individu dengan tingkat kemampuan 1 yang menjawab dengan benar akan mendapat 0. Untuk soal 2, kemungkinannya adalah 35 untuk individu pada tingkat kemampuan 0 yang akan menjawabnya dengan benar, tetapi hanya satu kemungkinannya bahwa individu dengan tingkat kemampuan 1 akan menjawabnya dengan benar. Kita dapat mengungkapkan penemuan ini dengan berkata bahwa soal 1 memiliki nilai informasi yang lebih baik disbanding soal 2 untuk tingkat kemampuan di bawah pertimbangan.
5. Bahkan individu pada tingkatan kemampuan terendah, memiliki kemungkinan lebih besar disbanding tidak menjawab satupun soal dengan benar.
Dalam melaksanakan tes menggunakan IRT, peneliti tes menggunakan satu jenis model kurva karakteristik soal untuk disesuaikan dengan kemungkinan tampilan soal untuk kelompok soal pada tingkat kemampuan yang berbeda. Sebagai contoh, model yang berbeda digunakan tergantung bagaimana soal dinilai, apakah soal tentang perkiraan, atau apakah mereka berbeda dalam kemampuan membedakannya. Salah satu model yang paling biasa digunakan adalah model Rasch, karena relatif sederhana dan kuat. Pengguna model Rasch cenderung menghapuskan soal tes potensial karena mereka merasa todak cocok dengan model tersebut Padahal pelaksana tes tidak membatasi model seperti menguasai soal tes potensial dengan mencari kurva karakteristik soal yang menjelaskan data.
Variabel yang masuk ke dalam persamaan matematis yang menjelaskan kurva karakteristik soal dapat digunakan dalam persamaan yang lain untuk menjelaskan seberapa banyak soal dan tes tersebut secara keseluruhan, memberikan ketepatan pengukuran dan reliabilitas.
Jenis-jenis Tes dan Ukuran/LangkahLaporan Diri
Pada bagian ini, kami menggambarkan sepuluh jenis tes yang umumnya digunakan di dalam penelitian pendidikan. Tes-tes tersebut dapat dibagi ke dalam dua kategori: (1) tes-tes performansi yang meliputi kecerdasan, bakat, prestasi, dan ukuran diagnostik/berdasarkan dengan diagnosa; (2) pengukuran kepribadian yang mencakup sifat-sifat kepribadian, kreativitas, konsep diri, tingkah laku, dan minat. Karena banyaknya jumlah tes, kami hanya menggambarkan beberapa contoh masing-masing jenis tes tersebut. Beberapa tes tersebut telah dikembangkan beberapa dekade yang lalu tetapi masih lazim dipergunakan. Jika kesimpulan nilai hasil tes dengan karakteristik validitas/keabsahan dan reliabilitas yang anda inginkan untuk rancangan penelitian anda, maka tanggal publikasinya tidak seharusnya menjadi bahan pertimbangan yang menghalangi anda.
Tes-tes Performansi
Terdapat banyak tes performansi yang tersedia untuk digunakan di dalam penelitian dan praktek. Tes-tes tersebut bervariasi luas dalam hal gagasan tes-tes tersebut mengukur, format soal-soalnya(contoh: soal jawaban singkat lawan soal benar atau salah), jenis hasil nilainya (lihat Bab 5 untuk penjelasan mengenai perbedaan jenis nilai yang terus-menerus).
Anda dapat menemukan banyak contoh dari tiap-tiap jenis tes pada buku referensi dan database yang dijelaskan pada bab selanjutnya. Berikut kami gambarkan jenis utama dari tes performansi, antara lain:
Tes Kecerdasan
Tes Kecerdasan/intelegensia memberikan penilaian dari tingkat intelektualitas umum seseorang dengan mencontohkan performansi pada berbagai tugas intelektual. Tes-tes ini seringkali mencakup tugas-tugas seperti pilihan kosa kata, penyelesaian masalah matematis, pemahaman membaca, dan memori jangka pendek pada angka.
Sebagian besar tes kecerdasan menghasilkan sebuah nilai/skor global dari performansi intelektual yang disebut intellegence quotient (IQ). Beberapa tes kecerdasan juga menghasilkan sub-nilai/nilai cadangan, seperti verbal IQ/IQ lisandan IQ matematis. Sub nilai/nilai cadangan mungkin juga disediakan untuk beberapa fungsi intelektual khusus, seperti hubungan yang renggang, kemampuan lisan, memberikan alasan secara numerik, dan memberikan alasan yang logis. Akan tetapi, jika anda berencana untuk membuat kesimpulan dari sub nilai/nilai cadangan tersebut dalam studi penelitian anda, maka anda seharusnya memeriksanya untuk menentukan apakah skor/nilai cadangan itu didukung oleh fakta yang cukup mengenai validitas dan reliabilitas gagasannya.

Tes Bakat/Aptitude
Tes bakat ditujukan untuk memprediksi penampilan/performansi seseorang di dalam keterampilan khusus atau prestasi tertentu di masa depan. Tes ini tersedia untuk mengukur bakat pada banyak subyek akademik, pekerjaan, dan bidang pencapaian yang kreatif. Karena tes bakat ini utamanya berkonsentrasi pada prediksi tingkah laku di masa depan, maka fakta terutama dari validitas prediksinya penting.
Tes Prestasi
Banyak tes prestasi terstandar tersedia. Beberapa diantaranya dimaksudkan untuk mengukur pengetahuan siswa mengenai fakta khusus tetapi kecenderungannya yaitu memasukkan lebih banyak soal tes yang menilai proses kognitif yang lebih tinggi. Alasan perabahan ini adalah bahwa standar kurikulum baru di tingkat negara dan nasional menekankan pada perintah/instruksi dalam hal keterampilan memberikan alasan dan memecahkan masalah.
Waktu pelaksanaan dan ulasan isi untuk tes prestasi sangat berbeda. Sebagai contoh, the Wide Range Achievement Test (tes prestasi cakupan luas) berisi tes membaca, mengeja, dan ilmu hitung/aritmatika serta membutuhkan kurang dari 30 menit untuk melaksanakannya. Sebaliknya, pada tingkatan lanjutan dari the Metropolitan Achievement Test (tes prestasi di kota besar) menyediakan tujuh skor membaca, enam skor bahasa, dan delapan skor matematika. Tes tersebut membutuhkan waktu sampai 10 jam untuk menyelesaikannya.
Validitas isi adalah hal pokok dalam memilih sebuah tes prestasi. Anda perlu memeriksa tes tersebut untuk menentukan apakah isi soal-soalnya serupa dengan isi program pelajarannya yaitu subyek dari studi penelitian anda. Pemilihan sebuah tes prestasi dengan validitas isi yang memadai biasanya lebih sulit pada area seperti studi sosial yang mana isinya sangat beragam dibandingkan pada area seperti aritmatika yang mana isi dan rangkaian kurikulum pembelajarannya umumnya standar.
Tes prestasi telah dirasakan menjadi ancaman secara psikologis bagi banyak guru karena menimbulkan ketakutan bahwa performansi yang jelek saat tes akan menyebabkan para siswa akan merendahkan kemampuan mereka sebagai guru.21 Beberapa guru ditemukan memberikan persiapan khusus pada siswa bersangkutan dengan tes tersebut, dan terkadang bahkan pada soal tes yang spesifik.22 Pemilihan sebuah ukuran yang berbeda dari biasanya digunakan untuk menilai prestasi sekolah mengurangi kemungkinan guru mempengaruhi skor siswa melalui bimbingan atau pengajarannya.
Anda juga haras mempertimbangkan batas tingginya tes ketika memilih sebuah tes prestasi. Sebuah tes dengan batas yang rendah merapakan suatu hal yang sangat mudah bagi sebagian siswa yang rencananya akan anda atur tesnya. Dengan demikian, tes tersebut tidak akan mencerminkan perolehan yang dibuat oleh para siswa mengikuti perlakuan pada saat penelitan yang di desain untuk meningkatkan level prestasi.
Tes Diagnostik
Jika seandainya proyek penelitian anda melibatkan adanya remediation/perbaikm pada kesulitan belajar siswa atau evaluasi mengenai keefektifan program perbaikan/remedial, maka tes diagnostik bisa berguna dalam hal mengidentifikasi sebuah contoh penelitian yang tepat/cocok. Tes diagnostik merapakan sebuah bentuk dari tes prestasi yang digunakan untuk mengindentifikasi kelemahan dan kekuatan siswa pada pelajaran tertentu. Tes diagnostik biasanya fokus pada dasar gambaran prestasi dan memberikan gambaran yang rinci mengenai tingkatan performasi siswa dalam berbagai keterampilan yang ada pada pelajarannya.
Kelemahan pada beberapa tes diagnostik yaitu sub nilai/nilai cadangan memiliki realibilitas rendah dan seringkali tidak saling berhubungan. Untuk tujuan diagnostik sebuah tes mengacu pada kriteria, mencakup minat bisa menjadi pilihan yang lebih baik karena memberikan ukuran mengenai level sesungguhnya mengenai performansi siswa pada area isi yang terdefinisi dengan tepat.
Penilaian Performansi
Penilaian perfomansi merupakan sebuah pendekatan untuk mengevaluasi siswa dengan menguji langsung performansi mereka pada tugas yang bernilai sebenarnya. (Penilaian Performansi juga disebut penilaian otentik/asli, penilaian alternatif, dan ujian performansi). Tugas yang ada pada penilaian performansi di desain dengan menggambarkan tugas yang kompleks, lengkap dan sesuai dengan kehidupan nyata. Sebaliknya, tugas pada banyak tes tulis terutama soal pillihan ganda tidak memiliki nilai haMki/sebenarnya, tetapi nilainya berasal dari hubungan tes dengan tugas yang ada pada kehidupan nyata. Sebuah contoh yang lazim dari penilaian performansi adalah tes mengemudi yang dibutuhkan untuk mendapatkan lisensi/ijin sah mengemudikan mobil. Penilaian performansi ini berbeda dari tes tulis (sekarang disediakan dalam bentuk komputerisasi) mengenai pengetahuan "aturan-aturan di jalan raya," yang mana harus dipenuhi pula untuk mendapatkan lisensi mengemudi. Beberapa orang mungkin menunjukkan pengetahuan yang cukup pada saat tes tulis tetapi bisa jadi mereka tidak mampu atau segan menunjukkan dalam situasi mengemudi secara langsung.
Dalam penilaian performansi, peneliti dapat mengevaluasi baik secara perorangan maupun kelompok dalam melengkapi tugas atau hasil akhir. Pengembangan portepel juga telah menjadi bentuk populer dari penilaian performansi. Sebuah portepel merupakan kumpulan penting dari tugas seorang siswa yang mencatat kemajuannya dalam menguasai pelajaran tertentu (contoh: menulis dalam gaya/aliran yang beragam atau memecahkan masalah ilmu hitung yang diambil dari beberapa topik yang berbeda) dan sebagai refleksi pribadi bagi kemajuannya sendiri.24 Instruksi/perintah harus sesuai dengan proses penilaian ini, guru dan siswa harus bekerja sama dalam memilih isi dari portepel dan kriteria penilaiannya. Kriteria tersebut digunakan untuk menghasilkan rubrik yang mana menentukan kriteria dan skala ukuran untuk level keahlian yang berbeda yang ditunjukkan oleh portepel. (Rubrik baik digunakan untuk tipe lain dari penilaian performansi).
Robert Linn, Eva Baker, dan Stephen Dunbar mengajukan delapan kumpulan kriteria untuk menilai validitas dari kesimpulan yang tergambar dari penilaian performansi. 25 Kriteria tersebut ditunjukkan pada gambar 7.2. Pengujian/pemeriksaan dari kriteria validitas ini menyatakan bahwa penilaian performansi sangat berguna baik bagi para praktisi dan peneliti, tetapi terdapat beberapa kekurangan di dalamnya. Menariknya, beberapa kekurangan itu seperti kesulitan memperoleh ulasan isi yang cukup merupakan kekuatan/kelebihan dari tes tulis secara tradisionaL Observasi inimenunjukkankeinginan untukmenggunakan keduates tulis dan
Delapan Kriteria untuk Menilai Validitas dari Penilaian Performansi
1. Akibat/Konsekwensi. Apakah akibat menggunakan penilaian performansi beralasan? Sebagai contoh, Apakah beberapa guru memberikan bantuan lebih untuk siswa mereka dalam pengumpulan portepel mereka sehingga siswa guru lainnya ditempatkan pada posisi yang dirugikan? Apakah pengumpulan portepel menghabiskan waktu yang tak semestinya dari jam pelajaran?
2. Kejelasan. Apakah semua siswa memiliki kesempatan yang sama untuk memperoleh keahlian yang diukur dengan penilaian performansi? Apakah para penilai yang berbeda menerapkan kriteria yang berbeda pula dalam menilai kerja siswa?
3. Penyamarataan. Apakah adafakta bahwa kualitas kerja seseorang pada suatu tugas performansi akan sama dengan tugas lain yang serupa?
4. Kompleksitas/Kerumitan Kognitif. Jika penilaian performansi dirancang khusus untuk mengukur kemampuan siswa dalam keahlian berpikir yang le bih tinggi, apakah penilaian tersebut bekeija seperti itu atau Apakah siswa dapat menggambarkan dalam memori mereka tentang bagaimana mereka telah melakukan tugas yang serupa sebelumnya?
5. Kualitas Isi/Konten. Apakah tugas penilaian performansi dan penilaian kriteria asli yang merupakan representasi dari indikator kualitas dan tugas di kehidupan nyata?
6. Kebermaknaan. Apakah kelompok-kelompoklain daripara ahliyang merancangtugaspenilaian performansi/kinerjadan kriteriapenilaianmelihatnyasebagai otentik?
7. Cakupan Isi. Apakah penilaian performansi cukup mewakili bagian isi yang tercakup selama pelajaran? Apakah jumlah konten yang tercakup selama pelajaran terlalu dibatasi oleh waktu yang diperlukan untuk penilaian performansi?
8. Biaya dan Efisiensi. Apakah penilaian performansi terlalu mahal dan tidak praktis dilaksanakan? Biaya dan efisiensi perlu dipertimbangkan ketika mengembangkan atau memiliki sebuah penilaian performansi.
(lanjutan)
penilaian performansi dalam penelitian pendidikan, terutama dalam percobaan yang mengevaluasi
efek metode instruksional pada belajar siswa.
Reliabilitas/keandalan dari sebuah penilaian performansi sama penting dengan validitasnya. Seperti yang telah dijelaskan sebelumnya, sebuah tes dapat dipercaya tingkat nilainya jika bebas dari kesalahan pengukuran yang diketahui melalui pengukuran independen dan diulang-ulang dari gagasan yang sedang dinilai. Karena kompleksnya tugas penilaian performansi, maka hal itu biasanya tidak mudah dikerjakan atau perlunya melakukan beberapa bentuk/kondisi yang serupa bagi para siswa, seperti memasukkan banyak soal pada tes yang terstandar tradisional. Sebagai contoh, setiap orang hanya mengikuti tes mengemudi satu kali jika telah lulus. Mereka tidak diminta untuk mengulang tes supaya meyakinkan bahwa nilai lulus tidaknya dapat dipercaya. Sama halnya, seorang mahasiswa hanya perlu menyelesaikan satu tesis murninya untuk komite penguji apakah dia akan lulus murni atau tidak.
Pamela Moss menyarankan pendekatan reliabilitas lain yang mana mengesahkan penilaian performansi tanpa memerlukan demonstrasi konsistensi performansi dibentuk paralel sebuah tugas.26 Pendekatan ini didasarkan pada hermeneutika, yang merupakan bidang penyelidikan yang mencoba menafsirkan fenomena manusia dengan memahami tentang bagaimana bagian-bagain yang berbeda berkaitan secara keseluruhan. (Hermeneutika dijelaskan lebih lanjut pada Bab 15). Mempertimbangkan penilaian dari hasil sebuah tugas performansi yang dilengkapi oleh seorang siswa di kelas seni, seperti menggambar dengan cat air. Setiap penilai bisa menilai gambaran itu secara. berbeda, sehingga meningkatkan kekhawatiran tentang reliabilitas sistem penilaian. Dari perspektif hermeneutika, perbedaan initidak perlu menjadi masalah. Penilaian yang berbeda ("bagian") dapat dibahas dan akhirnya berdamai sampai skor konsensual ("keseluruhan") tercapai.
Seperti yang diamati Moss, metode ini sering digunakan dalam kehidupan nyata. Misalnya, anggota rapat komite pencarian untuk mengisi posisi pembukaan fakultas mungkin tidak setuju di antara mereka sendiri dalam cara mereka menilai calon yang berbeda untuk posisi itu. Mereka tidak mencoba untuk menghapus "ketidakpercayaan" anggota komite pencarian. Sebaliknya, mereka membahas sudut pandang yang berbeda mereka sampai mereka mencapai pemahaman yang mencatat ketidaksetujuan dan yang memungkinkan mereka untuk memilih orang yang mereka anggap terbaik untuk posisi itu.
Prinsip-prinsip hermeneutik dapat digunakan dalam cara yang sama untuk menangani perbedaan dalam peringkat berbagai lukisan cat air siswa atau perbedaan antara peringkat lukisan dan katakanlah, gambarnya. Dalam pengukuran tradisional, perbedaan-perbedaan ini akan diambil sebagai bukti ketidaksinambungan dalam performansi, tetapi perspektif hermeneutika akan mempertimbangkan perbedaan-perbedaan ini sebagai "bagian" yang harus ditafsirkan sampai mereka dapat didamaikan menjadi interpretasi keseluruhan memuaskan ("seluruh") yang menyediakan pemahaman tentang perbedaan.
Perspektif hermeneutik membebaskan guru-guru siswa dalam proses penafsiran. Hal ini karena teori hermeneutik percaya bahwa "pembaca" dari fenomena manusia (dilihat sebagai "teks") diyakini membawa prasangka sendiri dan pengetahuan sebelum interpretasi dari fenomena ini. Karena guru memiliki pengetahuan lebih tentang siswa mereka dari pada ahli yang hanya mengenal siswa dengan produk yang dihasilkan dari pekerjaan mereka pada tugas penilaian performansi, maka interpretasi para guru memiliki nilai khusus. Moss menggunakan prinsip teori hermeneutik untuk membela sekolah yang menggunakan komite guru atau komite orangtua, siswa lain, dan anggota masyarakat untuk menilai hasil penilaian performansi siswa.
Pengukuran Kepribadian
Pengukuran kepribadian menilai perbedaan individu dalam aspek-aspek kepribadian seperti ciri-ciri, kebutuhan, gangguan psikologis, nilai, dan sikap. Kebanyakan dari mereka adalah pengukuran diri dalam format tertulis yang meminta individu untuk merespon soal yang bertanya tentang terjadinya perilaku tertentu, pikiran, dan perasaan dalam hidup mereka.
Inventarisasi Kepribadian
Inventarisasi kepribadian menilai berbagai karakter kepribadian dalam instrumen laporan diri, biasanya pengukuran tertulis. Ini memiliki keuntungan berupa biaya rendah dan kemudahan penilaian dan pelaksanaanya. Karena banyak variabel diukur pada saat yang sama, inventarisasi mungkin berisi seratus atau lebih soal. Soal biasanya dalam bentuk obyektif, seperti soal ya atau tidak, pilihan ganda yang memungkinkan penilaian dilakukan oleh komputer atau template.
Keterbatasan utama dari invetarisasi kepribadian adalah bahwa mereka bergantung pada kebenaran dan ketekunan laporan diri individu. Banyak inventarisasi mengandung "skala kebohongan " atau "indeks kecerobohan" untuk mendeteksi individu yang nilainya mengarahkan peneliti dan praktisi untuk membuat kesimpulan yang tidak valid. Misalnya, J.W. OT>ell mengembangkan indeks kecerobohan untuk the Sixteen Personality Factor Questionnaire yang benar memilih 88 persen dari lembar jawaban yang selesai secara acak.27
Faktor lain yang dapat menyebabkan respon yang tidak valid terhadap inventarisasi kepribadian yaitu serangkaian jawaban yang mana respon individu mencerminkan kecenderungan umum daripada respon hati-hati untuk isi masing-masing jenis soal. Tiga rangkaian respon telah

secara ekstensif dicapai: desirabilitas sosial atau kecenderungan untuk menyajikan diri dalam keterangan yang baik;persetujuan diam-diam atau diatur untuk setuju dengan soal terlepas dari kontennya, dan penyimpangan atau rangkaian untuk merespon dengan cara yang berbeda dari tanggapan khusus atau normal. Jika Anda percaya bahwa individu dalam contoh Anda cenderung ke salah satu respon diatas, maka Anda tidak harus menggunakan laporan inventarisasi diri.
Inventarisasi kepribadian telah diserang sebagai keterlibatan invasi privasi seseorang yang mengambil ujian/tes. Oleh karena itu, Anda harus hati-hati memeriksa apakah inventarisasi kepribadian yang Anda pikirkan berisi soal yang dapat menyebabkan gangguan dalam hubungan manusia dengan orang tua atau kelompok masyarakat yang kerjasamanya Anda perlukan. Misalnya, pelaksanaan inventarisasi untuk siswa sekolah menengah yang berisi pertanyaan tentang pengalaman seksual yang akan mungkin menimbulkan keberatan dari banyak orang dan dengan demikian membahayakan penelitian Anda.
Teknik Proyektif
Istilah teknik proyektif telah dipopulerkan oleh Lawrence Frank. Sebuah teknik proyektif menyediakanrangsangan amorf dan kebebasan merespon. Hal ini didasarkan pada asumsi bahwa tindakan tersebut lebih baik mengungkapkan pikiran batin, fantasi, dan penataan unik dari kenyataan individu daripada tes dengan lebih terbatas atau opsi respon terstruktur. Keuntungan yang dianggap ada pada teknik proyektif adalah bahwa kurangnyakepura-puraandibandingkan denganinventarisasi laporan diri.
Salah satu teknik proyektif yang paling banyak digunakan adalah Tes Apersepsi Tematik (TAT). Instrumen ini terdiri dari satu set gambaran individu dalam berbagai situasi antarpribadi; responden/lawannya membuat sebuah cerita dalam menanggapi setiap situasi. Cerita-cerita ini mungkin mengungkapkan dunia batin seseorang, dan untuk alasan ini TAT dan teknik proyektif lainnya kadang-kadang digunakan oleh para peneliti kualitatif.
Ukuran Karakteristik Kepribadian Tertentu
Beberapa ukuran kepribadian fokus pada serangkaian karakteristik kepribadian tunggal atau serangkaian kecil karakteristik yang terkait. Jika Anda hanya tertarik pada mengukur satu karakteristik kepribadian, kami sarankan Anda memeriksa karya referensi (dijelaskan kemudian dalam bab ini dan dalam Lampiran E) untuk melihat apakah pengukuran yang diterbitkan tersedia. Jika Anda tidak dapat menemukan pengukuran yang cocok, periksa inventarisasi umum untuk melihat apakah di dalamnya terdapat karakter pribadi yang Anda harapkan akan diukur. Jika demikian, Anda dapat mengelola seluruh inventarisasi atau menggunakan tombol angka untuk mengekstrak soal yang mengukur karakteristik tersebut dan dan hanya melaksanakan soal-soal tersebut. Sebelum menggunakan pendekatan yang terakhir, meskipun itu, Anda harus mendapatkan izin penerbitnya. Jika Anda juga hanya mengelola bagian inventarisasi, maka pergunakan aturan tes dengan hati-hati, karena respon/jawaban mungkin berbeda ketika soal mengukur karakteristik kepribadian tunggal yang disebabkan kurangnya konteks keseluruhan inventarisasi.
Mengukur Konsep Diri
Konsep diri didefinisikan sebagai himpunan kesadaran dan perasaan bahwa setiap individu memiliki dirinya sendiri. Banyak pengukuran mengenai konsep diri meliputi penilaian harga diri yang mengacu pada bagaimana individu merasa positif tentang diri mereka sendiri pada umumnya atau mengenai aspek-aspek tertentu dari dirinya, seperti diri sebagai fisik, diri sebagai makhluk sosial, atau diri sebagai siswa/mahasiswa.
Ukuran Gaya Belajar dan Kebiasaan
Selama periode waktu tertentu, siswa mengembangkan cara-cara khusus mendekati tugas-tugas belajar. Pendekatan-pendekatan ini menjadi diinternalisasi, mereka mengangkat aspek-aspek khas kepribadian yang menarik bagi para pendidik. Sebagai contoh, Ronald Schmeck menggunakan pengukuran yang telah ia kembangkan yaitu Inventarisasi Proses Belajar. Pengukuran ini bertujuan untuk mengkarakterisasi siswa secara mendalamelaborasinya atau pengulangan yang dangkal. Siswa yang mendalam elaborasinyabiasanyatipe argumentatif ketika membaca atau mendengarkan dan suka menghubungkan isi kurikulum dengan kehidupan pribadinya. Siswa dengan pengulangan yang dangkal dan melalui proses isi kurikulum dengan dangkal, mereka tidak merenungkan atau mewujudkannya itu.
Skala Sikap/Perilaku
Sikap/perilaku dapat didefinisikan sebagai sudut pandang individu atau sifat terhadap "objek" tertentu (orang, benda, ide, dll). Sikap/perilaku dianggap memiliki tiga komponen: (1) komponen afektif yang terdiri dari perasaan individu tentang suatu objek, (2) komponen kognitif yang merupakan keyakinan atau pengetahuan individu tentang suatu objek, dan (3) komponen perilaku yang merupakan kecenderungan individu untuk bertindak terhadap obyek dengan cara tertentu.
Beberapa prosedur dapat digunakan untuk mengukur sikap/perilaku. Skala Thurstone menuntut seseorang untuk mengekspresikan persetujuan atau ketidaksetujuan dengan serangkaian pernyataan tentang sikap objek. Skala Likert meminta seseorang untuk memeriksa level persetujuan (contoh: sangat setuju, setuju, ragu-ragu, tidak setuju, atau sangat tidak setuju) dengan berbagai pernyataan. Dalam teknik diferensial semantik, seseorang mengukurobjek sikap pada serangkaian kata sifat bipolar, seperti adil-tidak adil, berharga-tidak berharga, baik-buruk.
Mengukur Minat Kejuruan
Kecenderungan minat kejuruan telah terbukti bernilai cukup besar dalam penelitian pendidikan. Hal ini karena kecenderungan tersebut dapat digunakan untuk menyelidiki bagaimana siswa datang untuk mengembangkan minat kejuruandan juga memberikan penilaian secara tidak langsung terhadap karakteristik kepribadian seseorang (contoh: seseorang yang tertarik dalam perbankan cenderung memiliki karakteristik kepribadian yang berbeda dari seseorang tertarik pada seni sebagai sebuah karir). Kecenderungan minat kejuruan biasanya membutuhkan orang yang dapat mengekspresikan tingkat minat atau hal yang disukainya dalam berbagai jenis kegiatan seperti olahraga, hobi, buku, dan aspek lain dari kehidupan sehari-hari.
Memperoleh Informasi tentang Tes
Dalam merencanakan penelitian, peneliti kadang-kadang memilih tes pertama yang mereka identifikasi muncui untuk mengukur sebuah gagasanyang mereka ingin pelajari. Kemudian mereka mungkin menghadapi kritikan bahwa tesnya tidak valid untuk gagasan itu atau tidak sesuai dengan contoh. Masalah ini dapat dihindari dengan menentukan berbagai tes yang tersedia dan mengumpulkan informasi rinci tentang masing-masing tes tersebut sebelum memilih salah satu diantaranya. Berikut ini adalah pertanyaan yang dapat membimbing penelitian Anda dalam informasi yang relevan:
1. Apakah ada bukti bahwa tes tersebut valid dan dapat diandalkan untuk penggunaan sesuai dengan yang Anda inginkan?
2. Apakah membaca tes atau level tugas sesuai contohyang Anda punya?
3. Dapatkahtes dilakukan dalam batasan waktu saat situasi pengumpulan data Anda?
4. Jika tes mengukur prestasi atau bakat, Apakah itu pada tingkat kesulitan yang sesuai dengan contoh, yang mana tidak terlalu mudah atau tidak terlalu sulit?
5. Apakah norma-norma tes dan bukti validitas dan reliabilitas berasal dari populasi yang mirip dengan populasi dari contoh yang anda akan gambarkan?
Bagian berikut ini menjelaskan tentang empat sumber informasi untuk menjawab pertanyaan-pertanyaan diatas: sumber-sumber awal dan sekunder, manual, tes sendiri, dan pengembang tes.
Sumber Awal dan Sekunder
Berbagai buku referensi dan mesin pencari online tersedia untuk membantu Anda mengidentifikasi tes yang mengukur gagasan yang ingin dipelajari dalam penelitian Anda. Beberapa diantaranya adalah indeks (yang kita sebut sumber-sumber awal) yang memungkinkan Anda untuk menemukan tes yang mengukur gagasan tertentu. Selain itu, ada yang menyediakan deskripsi dan ulasan kritis mengenai tes tertentu.
Appendix E berisi daftar sumber-sumber tersebut. Selain itu, Anda dapat mencari ERIC dan database lainnya (lihat Bab 14) untuk publikasi tentang tes dan gagasan.
Dari berbagai sumber, salah satu diantaranya sangat berguna. situs web (www.ericae.net / testcol.htm). Di antara hal-hal yang ada pada halaman web tersebut, terdapat mesin pencari TestLocator, yang berisi lebih dari 10.000 gambaran tes dan instrumen penelitian. Untuk mengilustrasikan penggunaannya, kami mencari untuk tes kemampuan penalaran ilmiah dengan memasukkan kata kunci dan penghubung science and reasoning, laluresfLocatonnendaftar 52 tes mengenai gagasan ini. Mesin pencari lain, di situs the TestReviewLocator, yang memungkinkan Anda untuk mencari kutipan dan ulasan tes.
Manual Tes
Sebuah manual tes adalah sebuah buku diberikan oleh penerbit tes yang memberikan informasi untuk membantu pengguna dalam menentukan apakah tes tersebutsesuai dengan tujuan mereka dan jika demikian, bagaimana menggunakan tesnya. Sebuah manual tes yang bagus akan memberikan informasi tentang hal-hal seperti gagasan teoritis atau dasar pemikiran berdasarkan tes tersebut, direkomendasikan penggunaan tesnya, bukti validitas dan reliabilitas, ketersediaan aturan-aturan, dan ketersediaan bentuk singkat dan alternatif dari tes itu. Manual tersebut juga harus menyediakan prosedur untuk melakukan, menilai, dan menafsirkan tes.
Standar untuk Pengujian Pendidikan dan Psikologis menentukan bahwa pengembang tes bertanggung jawab untuk tes dirancang dengan buruk atau petunjuk tes yang tidak memadai. Namun, para peneliti memiliki tanggung jawab untuk menentukan apakah tes ini sesuai untuk digunakan dalam proyek penelitian mereka.
Tes Sendiri
Salah satu jenis informasi terpenting untuk digunakan dalam mengevaluasi tes pada studi penelitian Anda adalah tes itu sendiri, Pemeriksaan tes ini sangat penting untuk menjawab pertanyaan tentang reputasi validitas dan relevansi isi tes, serta kesesuaiannya untuk contoh penelitian Anda. Sebagai contoh, manual tes mungkin mengklaim bahwa tes adalah cocok untuk siswa kelas lima. Namun, bila Anda memeriksa salinan tes, Anda dapat menyimpulkan bahwa level bacaan di luar atau jauh dari siswa kelas lima yang berencana Anda pelajari.
Selain memeriksa tes, Anda harus mempertimbangkan untuk mengambil itu atau tidak. Hal ini akan meningkatkan pemahaman Anda tentang tes tersebut dan masalah yang mungkin ada dalam mengelola itu.
Pengembang Tes
Karena ada jeda yang cukup besar antara selesainya penelitian dan publikasinya, pengembang tes seringkali memiliki informasi yang belum dipublikasikan, dan juga kemungkinan untuk mengetahui para peneliti lain yang baru menggunakan tes. Jadi, kami menyarankan Anda untuk menghubungi pengembang tes secara langsung untuk meminta informasi tes. Jika Anda menjelaskan tujuan yang Anda inginkan ketika menggunakan tes, banyak pengembang tes akan bersikap kooperatif bahkan mereka dapat meminta laporan temuan penelitian Anda untuk menjadi tambahan untuk apa yang telah mereka kumpulkan.
Menggunakan Test dalam Proyek Penelitian Anda
Mengembangkan Tes Sendiri
Pengembangan tes baru merupakan proses yang kompleks dan sulit dimana memerlukan pelatihan yang cukup dalam pengukuran pendidikan dan psikologis. Oleh karena itu, kami sarankan Anda memastikan tidak ada tes yang cocok tersedia sebelum mengembangkan tes sendiri. Selain itu, jika Anda harus mengembangkan tes untuk penelitian disertasi Anda, kami menyarankan Anda merancang penelitiannya sehingga Anda hanya perlu untuk mengembangkan dan memvalidasi satu tes. Jika tidak, proses pengembangan tes mungkin akan memberatkan Anda dan mencegah Anda mencapai titik di mana Anda dapat menggunakan tes yang telah dikembangkan untuk menjawab pertanyaan penelitian Anda. Kenyataannya, beberapa tesis dan disertasi fokus sepenuhnya pada pengembangan dan validasi tes baru.
Langkah-langkah utama dari pengembangan tes ditunjukkan dalam Gambar 7.3. Perlu diingat bahwa setiap jenis tes juga melibatkan prosedur pengembangan khusus.31
Salah satu kegiatan yang paling penting dalam pengembangan tes adalah analisis soal, yang disebutkan pada langkah 5 dari gambar 7.3. Sebuah analisis soal adalah seperangkat prosedur untuk menentukan kesulitan, validitas, dan reliabilitas dari setiap soal dalam tes. Prosedur khusus tergantung pada sifat dari tes. Untuk tes performansi, biasanya untuk menghitung indeks kesulitan, yang menghitung untuk setiap jumlah individu yang menjawab dengan benar, dibagi dengan jumlah total individu mengambil tes. Untuk kedua pengukuran performansi dan kepribadian umum untuk menghitung koefisien validitas dan koefisien reliabilitas untuk masing-masing soal. Koefisien validitas soal adalah korelasi antara respon individu untuk soal tertentu dan jumlah nilai mereka pada ukuran kriteria yang diambil baik sekitar waktu yang sama saat tes tersebut dilakukan (validitas konkuren) atau dari pada suatu waktu yang akan datang (validitas prediktif). Sebuah koefisien reliabilitas soal adalah korelasi antara respon individu dengansoal tertentu dan jumlah nilai tes mereka.
Gambar. 7.3
Langkah-langkah Pokok dalam Mengembangkan Test
Langkah 1 : Mendefinisikan gagasan yang akan diukur. Berikan pemikiran yang mendalam tentang
gagasan yang spesifik, atau gagasan yang akan diukur pada tes. Pertimbangkan apakah
ada dasar teoritis untuk gagasannya. Langkah 2 : Mendefinisikan populasi sasaran. Karakteristik dari populasi sasaran harus
dipertimbangkan dalam membuat banyak keputusan yang terlibat dalam pembuatan tes.
Oleh karena itu, tentukan populasi sasaran secara terinci. Langkah 3 : Meninjau tes yang berhubungan. Tinjau tes lain yang mengukur gagasan yang sama
untuk menghasilkan ide tentang hal-hal seperti format tes dan metode untuk
membangun validitas. Langkah 4 : Mengembangkan prototipe/bentuk asli. Siapkan sebuah tes versi awal (yaitu
prototipe). Beberapa sumber yang diterbitkan memberikan pedoman tentang penulisan
soalnya. Langkah 5 : Mengevaluasi prototipe/bentuk asli. Dapatkan tinjauan kritis tentang prototipe dari
para ahli dalam pengembangan tes dan gagasan yang diukur. Kemudian, uji lapangan
prototipe dengan contoh dari populasi sasaran, dan lakukan analisis soal pada data yang
dihasilkan. Langkah 6 : Merevisi tes. Revisi tes prototipe dan uji lapangan versi revisinya. Siklus uji lapangan
dan revisi ini mungkin perlu diulang beberapa kali. Langkah 7 : Mengumpulkan data tentang validitas dan reliabilitas tes. Kumpulkan bukti/fakta
untuk mendukung reliabilitas nilai tes dan validitas kesimpulan yang ingin Anda buat
berasaldari nilai-nilai ini.
Resistensi terhadap Tes
Gerakan pengujian memiliki dampak besar pada masyarakat Amerika selama 50 tahun terakhir. Jutaan tes dilaksanakan setiap tahun untuk tujuan membuat keputusan penting tentang seseorang, misalnya, Siapa yang harus diakui di perguruan tinggi, dan perguruan tinggi yang mana? Siapa yang harus menerima pujian khusus untuk prestasi akademik mereka? Siapa yang harus mengulang kelas karena gagal di bidang akademik? Meluasnya penggunaan tes untuk menjawab pertanyaan-pertanyaan tersebut telah membuat mereka menjadi subyek dari kritik danpengawasan publik. Bahkan jika Anda berniat untuk menggunakan tes hanya untuk sebuah proyek penelitian, sikap negatif dari beberapa kelompok dan individu terhadap tes secara umum dapat menjadi masalah bagi Anda.
Jika tes yang Anda rencana akan lakukan diserang/digagalkan, Anda harus mempertimbangkan beberapa hal. Pertama, beberapa pemrotes mungkin memiliki agenda tersembunyi yang berbeda dari apa yang diungkapkan. Kedua, perwakilan dari masyarakat karena kurang besar keahliannya untuk memahami fungsi dari banyak soal yang digunakan dalam tes psikologi, sehingga mungkin tidak bijaksana untuk mendebatkankegunaansoal tes khusus. Sebaliknya, Anda harus menjelaskan bagaimana tes dikembangkan dan berusaha untuk menunjukkan bahwa test secara keseluruhan adalah sah/valid dan berguna.
Ketiga, pentingnya mengambil semua tindakan yang dianggap sesuai pada pennulaan tantanganuntuk kegunaan yang direncanakan Anda dalam suatu tes. Jika penelitian dirancang dengan baik, para pengambil tes atau individu terkait lainnya biasanya dapat diyakinkan dari nilai studi/penelitiannya. Jika wartawan koran atau personal media lain mengajukan pertanyaan, bersikaplah kooperatif dan memperkenalkan kepada mereka tentang tujuan dan nilai potensi studi Anda. Selain itu, bersedia untuk menarik diri individu dari penelitian jika mereka atau orang tua mereka mengajukan permohonan tertulis untuk penarikan, bahkan jika mereka sebelumnya telah menandatangani surat persetujuan (lihat Bab 3).
Akhirnya, Anda harus membiasakan diri dengan pedoman yang tercantum dalam Standar untuk Pengujian Pendidikan dan Psikologis yang telah dijelaskan sebelumnya dalam bab ini. Anda dapat menunjukkan kepada pemrotes dan individu terkait lainnya bahwa standar profesional untuk pengujian/tes itu ada dan Anda telah mematuhi standar tersebut.
Pengujian di Tempat Lapangan
Jika Anda berencana untuk melakukan tes di sekolah atau lembaga lain sebagai bagian dari penelitian Anda, Anda harus melakukan perjanjian dengan pengurusnya tentang pertanyaan-pertanyaan seperti: Bantuan apa yang akan lembaga sediakan untuk program pengujian ini? Bagaimana membuat jadwal tes? dan Siapa yang mengatumya? Peran apa yang akan anggota staf mainkan di program pengujian ini? Bagaimana masalah disipliner yang terjadi selama pengujian berlangsung? serta, Anda harus hati-hati membuat jadwal tes/pengujian agar sesuai rutinitas lembaga. Misalnya, sekolah biasanya memiliki jadwal waktu yang tetap untuk setiap kelas. Jika pengujian Anda melampaui periode waktu kelas, itu mungkin akan menimbulkan masalah bagi guru.
Jika Anda bekerja dengan contoh yang banyak, pengujian seluruh kelompok pada satu waktu mungkin menyulitkan bagi pelaksana untuk menjawab pertanyaan atau mengumpulkan materi. Bahkan kejadian kecil, seperti cekikikan, bisa mengganggu situasi tes untuk banyak orang. Oleh karena itu, dianjurkan memecahkan contoh ke dalam kelompok kecil dan menilai masing-masing kelompok secara terpisah. Namun, jangan mengulur waktu tes/pengujian selama beberapa minggu. Jika tidak, Anda menghadapi risiko bahwa situasi tes/pengujian akan sungguh berbeda untuk orang-orang diuji terakhir dibandingkan dengan mereka yang pertama diuji. Selain itu, jaga kondisi tes/pengujian sermirip mungkin untuk setiap kelompok. Hal ini penting jika Anda sedang melakukan eksperimen dimanagrup eksperimen dan grup kontrol yang sering terjadi yaitu harus diuji secara terpisah.
Ini adalah ide yang baik untuk menghindari tes/pengujian yang mendekati hari libur atau akhir tahun sekolah. Kegembiraan menyambut hari libur dan akhir tahun sekolah dapat membuat perbedaan yang signifikan pada sikap para peserta/objek penelitian.
Memperoleh Kerjasama dari Para Pengambil Tes/Ujian
Kerjasama peserta penelitian penting untuk memperoleh skor/nilai tes yang bermakna. Sebelum pemberian tes, tanyakan pada diri sendiri bagaimana Anda dapat memaksimalkan kerjasama mereka dan memotivasi mereka untuk tampil di level tertinggi (dalam hal tes kemampuan) atau dengan cara yang jujur (dalam hal tes kepribadian, sikap, atau minat).
Untuk meningkatkan kemungkinan bahwa Anda sedang memberikan percontohan peformansi maksimal seseorang pada tes bakat atau prestasi, usahakan membuat tes yang mengandung pengalaman yang positif. Salah satu cara untuk mencapai tujuan ini pada siswa sekolah dasar dan menengah adalah untuk meminta guru siswa untuk memberitahu mereka bahwa tes ini adalah penting dan bahwa mereka harus mencoba melakukan yang terbaik pada tes tersebut Hal ini sesuai dalam beberapa situasi untuk mencapai tes prestasi pada proyek penelitian dan juga terhitung sebagai bagian dari kualitas nilai siswa.
Untuk meningkatkan kerjasama orang dewasa, pendekatan yang baik adalah memberitahu mereka bahwa Anda akan mengungkapkan tujuan dari penelitian dan temuan-temuannya setelah pengujian tersebut selesai. Hal ini menarik rasa keingintahuan dan keinginan mereka untuk memberikan kontribusi terhadap ilmu pengetahuan penelitian. Strategi lain yang berguna adalah untuk menekankan sifat resmi sesi pengujian dengan metode seperti menggunakan stopwatch, jika sesuai, dan hati-hati membaca petunjuk dari manual.
Dalam melaksanakan pengukuran kepribadian, penguji harus menciptakan suasana di mana pengambil tes merasa nyaman dalam memberikan gambaran diri mereka sendiridengan jujur, terutama jika beberapa soal tes mencakup informasi yang sensitif. Satu prosedur membantu yaitu denganmemberikan penjelasam sebelum sesi pengujian dimulai yang mana dalam kondisi apapun data pengujian akan diungkapkan kepada siapa pun, dan skor/nilai tes akan dilaporkan dalam bentuk kelompok saja (jika ini benar). Teknik lain yaitu memberikan nomor kode kepada semua pengambil tes. Jika Anda merencanakan sebelumnya, Anda harus dapat mengatur sesi tes sehingga pengambil tes dapat menulis nomor kode pada tes mereka, selain mencantumkan nama mereka.
Sebuah lingkungan yang nyaman dan pertimbangan untuk keadaan mental dan fisik dari parapengambil tes/ujian cenderung untuk meningkatkan kerjasama. Penguji juga harus menguasai arah tes/ujian. Hal ini akan menganggu untuk para pengambil tes/ujian jika diuji oleh seseorang yang masih meraba-raba materi, terlihat tidak yakin, atau membuat kesalahan yang nyata/jelas.
> Rekomendasi untuk Menggunakan Pengukuran Tes dan Laporan Diri dalam Penelitian
1. Evaluasi objektivitas tes, kondisi pelaksanaan dan penilaianserta kesesuaian dengn contoh Anda sebelum memilih itu.
2. Tentukan apakah bukti validitas yang tersedia mendukung interpretasi skor tes yang Anda ingin buat.
3. Tentukan apakah bukti reliabilitas yang tersedia mendukung kegunaan yang Anda maksudkan dalam tes/pengujian*
4. Pertimbangkan apakah tes berdasarkan teori respon soal merupakan pilihan yang sesuai.
5. Tentukan apakah referensi skor tes itu (contoh: ketersediaan tes norma) sesuai dengan tujuan Anda.
6. Pertimbangkan mana diantara pengujian individu atau kelompok yang paling sesuai dengan tujuan Anda.
7. Gunakan berbagai strategi pencarian untuk mengidentifikasi tes yang merupakan pengukuran terbaik dari gagasan yang rencananya Anda pelajari.
8. Pelajari manual tes dan sumber informasi lain untuk memastikan bahwa Anda melaksanakan tes dengan benar.
9. Mengantisipasi dan merencanakan kemungkinan adanya keberatan mengenai prosedur tes dan pengujian.
10. Jika Anda mengembangkan tes sendiri, dapatkan keterampilan yang diperlukan untuk gagasan tes yang baik.

No comments: