בדר"כ מודדים כחלק תהליך הבניה של השאלון
בעיקרון מה שמעניין בכלי מדידה (בכלל ושאלונים בפרט) הוא התוקף. כלומר, עד כמה הכלי אכן מצליח לנבא את התכונה שאותה הוא מתיימר לזהות. מהימנות היא מדד שמראה עד כמה הכלי "עקבי" במדידה שלו, כלומר נותן את אותה תוצאה בהנתן אותו מקרה - זה יכול להיות מהימנות בין שופטים (עד כמה אנשים שונים שבוחנים על פי אותם קריטריונים אכן מצליחים להגיע לאותו ציון), מהמנות על פני זמן (לפני-אחרי) האם מדידות חוזרות יניבו את אותו ציון, והן מהימנות פנימית - עד כמה תת-חלקים של המבחן מגיעים לאותה מסקנה כמו המבחן כולו (אפשר לראות את זה כמעין מהמנות בין שופטים כאילו כל תת-מבחן הוא שופט). אלפא-קרונבך הוא מבחן סטטיסטי לחישוב מהמנות פנימית. מהימנות נמוכה מראה שיש אלמנט של אקראיות או אלמנט אחר (ארטיפקט) כלשהו שאיננו התכונה שאותה רוצים למדוד. אם מודדים את התכונה הדרושה נטו אז כל השופטים, או כל תת-המבחנים או כל המדידות החוזרות היו מניבים בדיוק את אותו ציון, עצם השונות בין השופטים/חלקי-מבחן/מדידות-חוזרות מראה שנמדד אצל כל אחד משהו נוסף. מהימנות היא למעשה חסם עליון לתוקף. לא נוכל לקבל תוקף טוב יותר מהמהימנות אלא רק זהה או נמוך מזה. לכן חשוב להראות מהימנות גבוהה, במיוחד במצבים בהם לא ניתן לחשב תוקף-ניבוי (שהוא המעניין באמת). אם בונים מבחן שאמור לזהות תכונת אישיות מסויימת, אפשר להעביר אותו ולחשב מה המהימנות שלו, ואם היא נמוכה מידי - מומלץ לשקול לבנות מבחן חלופי. זו מדידה יחסית קלה כי היא מבוססת רק על פי תוצאות המבחן, ולא אל מול התכונה האמיתית. אם השאלון קיים, בדר"כ מה שמעניין זה התוקף שלו, ובדיקה האם יש מתאם בין התוצאה במבחן לתכונה האמורה, על ידי מדידות חלופיות שהן מקובלות כתקפות. למשל, משווים שאלון דיווח עצמי לתוצאות אבחון פסיכולוגי מתמשך. אם השאלון תקף נצפה לקבל מתאם גבוה בין הניבוי של השאלון להערכה של האבחון הפסיכולוגי המתמשך. אם המתאם הזה גבוה בצורה מספקת - נוכל לקבל את השאלון כתקף, וכתחליף מספק (מהיר יותר וזול יותר) יחסית לאבחון. לעיתים אין יכולת אמיתית לתקף, ומסתפקים בתוקף נראה - כלומר עד כמה נראה לנו שהמבחן רלוונטי מבחינה תאורתית בלבד, מבלי יכולת למדוד את זה. בהחלט יתכן מבחן מאוד מהימן שאינו תקף. למשל, מדידת גודל הנעל כדי לנבא מהירות קריאה. זו מדידה מאוד מהימנה במובן הזה שמדידות חוזרות, ועל ידי שופטים שונים יניבו את אותה תוצאה. אבל התוקף הוא נמוך - גודל הנעל לא ממש מנבא את מהירות הקריאה. דוגמה נוספת- שופטי "כוכב נולד" כמודדי איכות שירה. מי מכם שעוקב וודאי שם לב שהשופטים השונים לא מגיעים כולם לאותה מסקנה, ולעיתים השופט בעצמו יכול לא להסכים עם עצמו מיום אחר. כאן ברור שהמהימנות היא בינונית או אפילו נמוכה, וסביר שהמדידה כוללת גם מדידה של מצב הרוח של השופט, הערכה של אלמנטים חיצוניים שאינם בהכרח שירה (במיוחד "סקסיות") וכו'. התוקף של המדידה הזו לא יכול להיות טוב שהרי הוא כולל דברים נוספים שכלל לא קשורים לתכונה. * בניית השאלון מתחילה עם יצירת שאלון בעל תוקף-נראה גבוה. * העברה של השאלון וחישוב המהימנות - אם היא איננה מספקת יש לבנות שאלון חדש. * אם השאלון מהימן, ויש מדד נוסף לבדיקת התכונה - יש לחשב תוקף ניבוי. בפועל זה לא תמיד אפשרי. * בעבודה אקדמית בה שמתמשים בשאלון קיים, אין צורך לעשות בדיקות מהימנות או תקפות, ואפשר להסתפק ברפרנס אל המקור של השאלון שם הוא נבדק, ואפשר לקחת אותו כמו שהוא. * שאלון שאינו מהווה כלי מדידה לתכונה אחרת - אין צורך לחשב לו מהימנות (למשל, סקר עמדות פוליטיות בציבור - אין צורך, שאלון שמנסה להסיק תכונה אישיותית של המשיב - יש צורך).