Γραμμική Διμεταβλητή Συσχέτιση(Linear Bivariate Correlation) και ένα συνηθισμένο σφάλμα
Τόσο σε ιατρικά περιοδικά όσο και σε βιβλία περιλήψεων ιατρικών συνεδρίων συναντάμε πληθώρα ερευνητικών εργασιών με βάση τη μέθοδο της Γραμμικής Διμεταβλητής Συσχέτισης(ΓΔΣ).
Σε όλες αυτές τις εργασίες τα συμπεράσματα βασίζονται στον υπολογισμό των συντελεστών συσχέτισης Pearson, Spearman και Tau-b Kendall, με επίπεδο σημαντικότητας το 5% ή το 1%. Από στατιστικής πλευράς, αυτά τα αποτελέσματα στερούνται ακρίβειας ως προς το παρατηρούμενο επίπεδο στατιστικής σημαντικότητας. Οι πιθανότητες που το στατιστικό λογισμικό υπολογίζει είναι ψευδοπιθανότητες. Ο λόγος είναι απλός. Αυτές οι πιθανότητες έχουν προέλθει από τεστ τα οποία σχεδιάστηκαν να δοκιμάσουν μία και μόνο μία συσχέτιση ως προς τη σημαντικότητα και οπωσδήποτε δεν αντανακλούν τον αριθμό των συσχετίσεων που δοκιμάζονται. Έτσι ορισμένες συσχετίσεις ίσως φανούν, αρχικά, σημαντικές ενώ δεν είναι!!!
Πώς αντιμετωπίζουμε ένα τέτοιο πρόβλημα; Έχει προταθεί η μέθοδος Bonferroni για να υπερφαλαγγιστεί το ζήτημα των ψευδοπιθανοτήτων. Ωστόσο, η μέθοδος αυτή δεν είναι μαθηματικά ορθότερη. Πρόκειται για μια συντηρητική μέθοδο που εύκολα δημιουργεί σύγχυση, ειδικά όταν υπάρχει συσχέτιση ανάμεσα σε δύο μεταβλητές.
Γι'αυτό η μέθοδος του Bonferroni θα πρέπει ν'αντικαθίσταται, σχεδόν πάντοτε, από τη μέθοδο των Larzelere και Mulaik.
Μπορούμε, αν είναι πολλές οι υπό έλεγχο μεταβλητές, μετά από ένα πρώτο βήμα ελέγχου των πιθανών συσχετίσεων με Spearman's ή Pearson's (ανάλογα με τον έλεγχο κανονικότητας και ομοιομορφίας κατανομών), να ελέγξουμε ΜΟΝΟ τα ζεύγη μεταβλητών που αποδεικνύουν στατιστική σημαντικότητα στην αρχική δοκιμασία, ως προς τις πρωτογενείς (αληθείς) συσχετίσεις, με το mixed effect model ή την πολλαπλή παλινδρόμηση (αν είναι όλες συνεχείς); Η απάντησή σου θα είναι πολύ χρήσιμη!
Καλημέρα,
Βασίλη η ερώτησή σου είναι όχι μόνο εύστοχη αλλά και τεράστιας πρακτικής αξίας. Πράγματι το "mixed effect model" και η "πολλαπλή παλινδρόμηση" υπόσχονται πολλά αλλά απαιτούν ακόμη περισσότερα. Οι απαιτούμενες παραδοχές για να εκτελέσουμε μία παλινδρομική ανάλυση(όλων των τύπων) είναι αρκετά "ανυποχώρητες", σε μαθηματικό επίπεδο. Δεν μπορούμε δηλαδή να κινηθούμε με άνεση και τα αποτελέσματα των αναλύσεων επηρεάζονται δραματικά ακόμη και με την ελάχιστη αυθαιρεσία μας.
Όπως, πολύ εύστοχα, διευκρίνισες το πρώτο πράγμα που προσέχουμε είναι το είδος των υπό μελέτη μεταβλητών(συνεχείς ή μη). Αυτό όμως είναι η κορυφή του παγόβουνου. Ακολουθούν πολλές και πολύπλοκες ακόμη παραδοχές, οι οποίες απαιτούν από τον ερευνητή ιδιαίτερη προσοχή και πολλές, μα πάρα πολλές, ώρες μελέτης και ανάλυσης προκειμένου να "ισορροπήσει", αρχικά, τα δεδομένα μίας μελέτης και μετά να τ'αναλύσει. Θα αναφέρω, επιγραμματικά, μερικές από τις απαιτούμενες παραδοχές:
- είδος δεδομένων.
- Ανεξαρτησία παρατηρήσεων.
- Κανονικότητα.
- Ισότητα διασπορών.
- Γραμμικότητα.
- Ακραίες τιμές.
- Κατανομή υποπληθυσμών μεταβλητής Υ για κάθε τιμή του Χ.
- Πιθανοθεωρητική τυχαιότητα του δείγματος.
- Σχέση δείγματος-ανεξάρτητων μεταβλητών.
Το ξέρεις καλύτερα από εμένα ότι οι εργασίες που παρουσιάζονται σε συνέδρια, περιοδικά αλλά και διατριβές, στην συντριπτική τους πλειοψηφία απέχουν από το παραπάνω ερευνητικό μοντέλο. Και αυτό ακριβώς ήθελα να επισημάνω με την παράθεσή μου. Ένας που γνωρίζει τη ύπαρξη και την χρήση αναλυτικών βιοστατιστικών μεθόδων(όπως εσύ) σίγουρα "σέβεται" το έργο του και η έρευνά του καλύπτει, επιστημονικά, και τον πιο απαιτητικό αναγνώστη. Δυστυχώς, όμως, η βιασύνη τού να γίνει κάποιος "καθηγητής" ή "ακόλουθος" καθηγητή ή το να λάβει τον τίτλο του διδάκτορα ή απλά να παρουσιάσει μία εργασία σε ένα συνέδριο ή να τη δημοσιεύσει σ'ένα περιοδικό μας έχει οδηγήσει σε ένα τελείως αντιεπιστημονικό αποτέλεσμα μυριάδων εργασιών χωρίς ουσία και νόημα.
Γι'αυτό πρότεινα την μέθοδο των Larzelere και Mulaik, η οποία παρότι δεν εξαντλεί τις προαπαιτούμενες παραδοχές μίας πολυμεταβλητής ανάλυσης, λειτουργεί όμως ως τροχοπέδη στις φιλοδοξίες μας. Από εκεί και ύστερα σίγουρα ο μελετητής-αναλυτής θα μάθει να σέβεται περισσότερο το έργο του και την επιστήμη την οποία πρεσβεύει. Ή τουλάχιστον δεν θα έχει πλέον την πεποίθηση ότι με ένα SPSS ή Excel.Stats μπορεί να ολοκληρώσει μία έρευνα απλά με ένα "copy-paste".
Γιατί από το "copy" του SPSS στο "paste" του Word ή του PowerPoint υπάρχει ένα φίλτρο που αποτελείται από ατέλειωτες ώρες σκέψης, μελέτης εγχειριδίων, χαρτί και μολύβι, αλλά πάνω απ'όλα την ίδια την ψυχή του ερευνητή που δίνει ζωή στους αριθμούς. Και εκεί ακριβώς είναι η ομορφιά της έρευνας, όχι στο αποτέλεσμα ή στο χειροκρότημα ή στον εκάστοτε τίτλο.
Καλά Χριστούγεννα σε όλες και όλους...!!!