Στοιχεία Πιθανοτήτων και Στατιστικής

1 Πιθανότητες

1.1 Πειράματα τύχης, δειγματικός χώρος και ενδεχόμενα

Δειγματικός χώρος.

Αν ω1,ω2,,ωκ είναι τα δυνατά αποτελέσματα ενός πειράματος τύχης, τότε ο δειγματικός χώρος του πειράματος θα είναι το σύνολο:

Ω={ω1,ω2,,ωκ}.

Ενδεχόμενα.

Οποιοδήποτε σύνολο δυνατών αποτελεσμάτων του πειράματος τύχης ονομάζεται ενδεχόμενο (event) ή γεγονός. Αν το αποτέλεσμα ενός πειράματος τύχης είναι το ων τότε όλα τα ενδεχόμενα που περιέχουν το ων λέμε ότι πραγματοποιούνται, ενώ τα ενδεχόμενα που δεν περιέχουν το ων λέμε ότι δεν πραγματοποιούνται.

ABABΩ
ABABΩ
ABABΩ
AAΩ

1.2 Πιθανότητες: Ορισμοί και εφαρμογές

Κλασσικός ορισμός πιθανότητας.

Σε ένα πείραμα τύχης με ν ισοπίθανα αποτελέσματα, η πιθανότητα ενός ενδεχομένου A που περιέχει κ τέτοια αποτελέσματα είναι

P(A)=κν,

δηλαδή το πλήθος των ευνοϊκών αποτελεσμάτων για το A προς το πλήθος όλων των δυνατών αποτελεσμάτων. Άμεση συνέπεια του ορισμού είναι

0P(A)1για κάθε ενδεχόμενο A.

Αξιωματικός ορισμός πιθανότητας.

Έστω Ω={ω1,ω2,,ων} ένας δ.χ. ενός πειράματος τύχης. Σε κάθε ενδεχόμενο A του Ω αποδίδουμε έναν πραγματικό αριθμό που ονομάζουμε πιθανότητα του A και συμβολίζουμε με P(A), έτσι ώστε:

  1. (α)

    P(A)0, για οποιοδήποτε A του Ω

  2. (β)

    P(Ω)=1

  3. (γ)

    P(AB)=P(A)+P(B) αν AB=.

Η τελευταία ιδιότητα λέγεται απλός προσθετικός νόμος. Δύο ενδεχόμενα A,B λέγονται ασυμβίβαστα αν AB=. Προσοχή ο απλός προσθετικός νόμος ισχύει μόνο για ασυμβίβαστα ενδεχόμενα.

1.3 Πιθανότητες και πράξεις με ενδεχόμενα

  1. (Π1)

    P(A)=1P(A)

  2. (Π2)

    P(A)=P(AB)+P(AB)

  3. (Π3)

    Αν BA, τότε P(B)P(A)

  4. (Π4)

    P(AB)=P(A)+P(B)P(AB)

Άμεση συνέπεια των παραπάνω είναι

0P(A)1για κάθε ενδεχόμενο A.

Πιθανότητες σύνθετων ενδεχομένων. Έστω A,B ενδεχόμενα ενός δ.χ. Ω.

  • P(A) είναι η πιθανότητα να πραγματοποιηθεί το A.

  • P(A) είναι η πιθανότητα να μην πραγματοποιηθεί το A.

  • P(AB) είναι η πιθανότητα να πραγματοποιηθεί το A ή το B.

  • P(AB) είναι η πιθανότητα να πραγματοποιηθεί τουλάχιστον ένα από τα A και B.

  • P(AB) είναι η πιθανότητα να πραγματοποιηθεί το A και το B.

  • P((AB)) είναι η πιθανότητα να μην πραγματοποιηθεί κανένα από τα A και B.

  • P(AB) είναι η πιθανότητα να πραγματοποιηθεί το A αλλά όχι το B.

  • P((AB)(BA)) είναι η πιθανότητα να πραγματοποιηθεί μόνο ένα από τα A και B.

1.4 Συνδυαστική & Πιθανότητες

Βασική αρχή της απαρίθμησης.

Έστω ότι μια διαδικασία μπορεί να πραγματοποιηθεί σε ν διαδοχικές φάσεις ϕ1,ϕ2,,ϕν. Αν κάθε φάση ϕρ μπορεί να πραγματοποιηθεί με κρ τρόπους, τότε η διαδικασία αυτή μπορεί να πραγματοποιηθεί με κ1κ2κν τρόπους.

1. Διάταξη με επανάληψη.

Διάταξη ν στοιχείων ενός συνόλου A ανά κ λέγεται καθένας από τους διαφορετικούς τρόπους με τους οποίους μπορούμε να τοποθετήσουμε στοιχεία του A σε μια σειρά κ θέσεων επιτρέποντας επαναλήψεις.

Το πλήθος των διατάξεων των ν ανά κ είναι ίσο με νκ.

Παράδειγμα. 5 ρίψεις ενός κέρματος. Κάθε διατεταγμένη πεντάδα (π.χ., {K,Γ,K,K,Γ}) ονομάζεται διάταξη των 2 ανά 5. Το πλήθος των διατάξεων των 2 ανά 5 είναι 25.

2. Διάταξη χωρίς επαναλήψεις.

Διάταξη ν στοιχείων ενός συνόλου A ανά κ χωρίς επαναλήψεις, με κν, λέγεται καθένας από τους διαφορετικούς τρόπους με τους οποίους μπορούμε να πάρουμε στοιχεία του A και να τα βάλουμε στην σειρά.

Το πλήθος των διατάξεων των ν ανά κ χωρίς επαναλήψεις, με κν, συμβολίζεται με (ν)κ και είναι ίσο με

(ν)κ=ν(ν1)(νκ+1)=ν!(νκ)!

Παράδειγμα. Το πενταμελές ενός τμήματος συνεδριάζει για να εκλέξει πρόεδρο, γραμματέα και ταμία. Με πόσους διαφορετικούς τρόπους μπορεί να γίνει αυτή η εκλογή; Το πλήθος των δυνατών τριάδων είναι 543=60. Κάθε τέτοια τριάδα ονομάζεται διάταξη των 5 ανά 3 χωρίς επαναλήψεις.

3. Μεταθέσεις (ειδική περίπτωση διάταξη χωρίς επαναλήψεις).

Το πλήθος των μεταθέσεων ν στοιχείων δίνεται από

ν!=12(ν1)ν.

Παράδειγμα. Το πλήθος των διαφορετικών τρόπων που μπορούν να καθίσουν 5 άτομα σε 5 καρέκλες είναι 54321=120.

4. Συνδυασμοί.

Συνδυασμός των ν στοιχείων ενός συνόλου A ανά κ λέγεται κάθε υποσύνολο του A με κ στοιχεία.

Το πλήθος των δυνατών τρόπων να επιλεγούν κ από τα ν στοιχεία ενός συνόλου:

(νκ)=ν!κ!(νκ)!

Παράδειγμα. Το πενταμελές ενός τμήματος συνεδριάζει για να εκλέξει τριμελή επιτροπή. Το πλήθος των δυνατών τροπών να επιλεγούν 3 από τους 5 είναι

(53)=5!3!(53)!=12345123(12)=10.

2 Στατιστική

2.1 Πληθυσμός - Δείγμα – Μεταβλητές

Η στατιστική είναι ο κλάδος των μαθηματικών ο οποίος βασίζεται σε ένα σύνολο αρχών και μεθοδολογιών για

  • τον σχεδιασμό της διαδικασίας συλλογής δεδομένων,

  • την συνοπτική και αποτελεσματική παρουσία τους,

  • την ανάλυση και εξαγωγή αντίστοιχων συμπερασμάτων.

Έστω ότι θέλουμε να εξετάσουμε τα στοιχεία ενός συνόλου ως προς ένα ή περισσότερα χαρακτηριστικά του, π.χ.,

  1. (α)

    Τις προτιμήσεις των ψηφοφόρων εν όψει των προσεχών εκλογών.

  2. (β)

    Την μόλυνση των λαχανικών από τα φυτοφάρμακα.

  3. (γ)

    Από πόσα μέλη – κατά μέσο όρο – αποτελείτε η Ελληνική οικογένεια.

Σε καθένα από τα παραπάνω παραδείγματα το σύνολο υπό εξέταση ονομάζεται πληθυσμός. Π.χ., ο πληθυσμός από τα παραπάνω παραδείγματα είναι

  1. (α)

    Οι ψηφοφόροι.

  2. (β)

    Τα λαχανικά.

  3. (γ)

    Οι Ελληνικές οικογένειες.

Τα χαρακτηριστικά ως προς τα οποία εξετάζουμε έναν πληθυσμό λέγονται μεταβλητές και τις συμβολίζουμε συνήθως με τα κεφαλαία γράμματα X,Y,Z,,

  1. (α)

    X ψήφος

  2. (β)

    Y ποσότητα φωσφόρου σε mg/lt.

  3. (γ)

    Z ο αριθμός των μελών μιας οικογένειας.

Οι δυνατές τιμές που μπορεί να πάρει μια μεταβλητή λέγονται τιμές της μεταβλητής. Οι μεταβλητές χωρίζονται σε κατηγορίες και υποκατηγορίες ανάλογα με τις τιμές που παίρνουν

Ποιοτικές ή κατηγορικές μεταβλητές.

Είναι οι μεταβλητές των οποίων οι τιμές δεν είναι αριθμοί, π.χ., η ψήφος X είναι μια μεταβλητή που παίρνει τις τιμές Ν.Δ., ΠΑΣΟΚ, ΣΥΡΙΖΑ,…

Ποσοτικές.

Είναι οι μεταβλητές των οποίων οι τιμές είναι αριθμοί και διακρίνονται σε δύο υποκατηγορίες:

  1. (i)

    Διακριτές μεταβλητές, που παίρνουν μόνο ακέραιες τιμές, π.χ., ο αριθμός των μελών μιας οικογένειας Ζ παίρνει τις τιμές 1,2,.

  2. (ii)

    Συνεχείς μεταβλητές, που μπορούν να πάρουν αποιαδήποτε τιμή ενός διαστήματος πραγματικών αριθμών (α,β), π.χ., η ποσότητα φωσφόρου Y σε ένα λάχανο είναι 0.02mg/lt.

Δείγμα

ονομάζεται κάθε υποσύνολο του πληθυσμού. Μέγεθος του δείγματος ονομάζεται το πλήθος των στοιχείων του δείγματος.

2.2 Παρουσίαση στατιστικών δεδομένων

Συμβολίζουμε με x1,x2,xk τις τιμές μιας μεταβλητής X.

Αν το μέγεθος του δείγματος είναι ν, τότε kν. Δηλαδή, ο αριθμός που αντιστοιχεί στο πλήθος των τιμών που παίρνει μια μεταβλητή X δεν μπορεί να είναι μεγαλύτερος από τον αριθμό του μεγέθους του δείγματος.

Η συχνότητα νi είναι ο φυσικός αριθμός που δείχνει πόσες φορές εμφανίζεται η τιμή xi της εξεταζόμενης μεταβλητής X στο σύνολο των παρατηρήσεων. Είναι φανερό ότι το άθροισμα όλων των συχνοτήτων είναι ίσο με το μέγεθος ν του δείγματος, δηλαδή

ν1+ν2++νk=ν. (1)

Αν διαιρέσουμε τη συχνότητα νi με το μέγεθος ν του δείγματος, προκύπτει η σχετική συχνότητα fi της τιμής xi, δηλαδή

fi=νiν,i=1,2,,k. (2)

Για τη σχετική συχνότητα ισχύουν οι ιδιότητες:

  1. (α)

    0fi1, i=1,2,,k, αφού 0νiν.

  2. (β)

    f1+f2++fk=1, αφού

    f1+f2++fk=ν1ν+ν2ν++νkν=ν1+ν2++νkν=νν=1.

Συνήθως, τις σχετικές συχνότητες fi τις εκφράζουμε επί τοις εκατό, δηλαδή

fi%=100fi.

Γραφική παράσταση κατανομής συχνοτήτων

Το κυκλικό διάγραμμα είναι ένας κυκλικός δίσκος χωρισμένος σε κυκλικούς τομείς, τα εμβαδά ή ισοδύναμα, τα τόξα των οποίων είναι ανάλογα προς τις αντίστοιχες συχνότητες νi ή τις σχετικές συχνότητες fi των τιμών xi της μεταβλητής. Αν συμβολίσουμε με αi το αντίστοιχο τόξο ενός κυκλικού τμήματος στο κυκλικό διάγραμμα συχνοτήτων, τότε

αi=νi360ν=360fi. (3)

Ομαδοποίηση των παρατηρήσεων

Οι πίνακες συχνοτήτων και κατ’ αναλογίαν τα αντίστοιχα διαγράμματα είναι δύσκολο να κατασκευαστούν, όταν το πλήθος των τιμών μιας μεταβλητής είναι αρκετά μεγάλο. Σ’ αυτές τις περιπτώσεις είναι απαραίτητο να ταξινομηθούν (ομαδοποιηθούν) τα δεδομένα σε μικρό πλήθος ομάδων, που ονομάζονται και κλάσεις, έτσι ώστε κάθε τιμή να ανήκει μόνο σε μία κλάση.

  • Στην ουσία κλάσεις είναι διαστήματα της μορφής [a,b). Τα άκρα των κλάσεων a,b καλούνται όρια των κλάσεων.

  • Στην ομαδοποίηση δεδομένων, ο αριθμός κ των κλάσεων θα δίνετε. Ο προσδιορισμός του πλάτους των κλάσεων c, γίνεται ως εξής: βρίσκουμε το εύρος R του δείγματος

    R=Μεγαλύτερη παρατήρησηΜικρότερη παρατήρηση,

    και μετά υπολογίζουμε το πλάτος c των κλάσεων διαιρώντας το εύρος R διά του αριθμού των κλάσεων κ, δηλαδή

    c=Rκ,

    στρογγυλεύοντας, αν χρειαστεί για λόγους διευκόλυνσης, πάντα προς τα πάνω.

2.3 Μέτρα θέσης και μεταβλητότητας, θηκόγραμμα, συντελεστής μεταβλητότητας

Μέτρα θέσης

Μέση τιμή είναι το άθροισμα των παρατηρήσεων διά του πλήθους των παρατηρήσεων

x¯=t1+t2++tνν. (4)

Σε ένα πρόβλημα εάν δίνονται οι τιμές xi της μεταβλητής X και οι αντίστοιχες συχνότητες τους νi, τότε για να βρω τη μέση τιμή μπορώ να χρησιμοποιήσω τον παρακάτω ισοδύναμο τύπο

x¯=x1ν1+x2ν2++xκνκν. (5)

Διάμεσοςδ (ή δεύτερο τεταρτημόριο Q2) ενός δείγματος ν παρατηρήσεων οι οποίες έχουν διαταχθεί σε αύξουσα σειρά ορίζεται ως η μεσαία παρατήρηση, όταν το ν είναι περιττός αριθμός, ή ο μέσος όρος (ημιάθροισμα) των δύο μεσαίων παρατηρήσεων όταν το ν είναι άρτιος αριθμός.

δ={tν+12όταν ν περιττός,12(tν2+tν2+1)όταν ν άρτιος. (6)

Το πρώτο (Q1) και τρίτο (Q3) τεταρτημόριο

είναι η διάμεσος του πρώτου και του δεύτερου μισού των διατεταγμένων παρατηρήσεων, αντίστοιχα.

Επικρατούσα τιμή M0 είναι η παρατήρηση με τη μεγαλύτερη συχνότητα.

Μέτρα διασποράς

Εύρος R ορίζεται η διαφορά της ελάχιστης παρατήρησης από τη μέγιστη παρατήρηση, δηλαδή

R=Μεγαλύτερη παρατήρησηΜικρότερη παρατήρηση. (7)

Το ενδοτεταρτημοριακό εύρος Q είναι η διαφορά τρίτου τεταρτημόριου Q3 από το πρώτο τεταρτημόριο Q1. Δηλαδή:

Q=Q3Q1.

Όσες παρατηρήσεις βρίσκονται έξω από το διάστημα [Q11,5Q,Q3+1,5Q] ονομάζονται ακραίες τιμές. Η διάμεσος είναι ένα μέτρο θέσης το οποίο δεν επηρεάζεται από το μέγεθος των ακραίων τιμών.

Διακύμανση ή διασπορά s2 ονομάζεται ο μέσος όρος των τετραγώνων της διαφοράς των παρατηρήσεων από τη μέση τιμή:

s2 =(t1x¯)2+(t2x¯)2++(tνx¯)2ν (8)
=(x1x¯)2ν1+(x2x¯)2ν2++(xκx¯)2νκν. (9)

Η τυπική απόκλιση s δίνεται από s=s2.

Συντελεστής μεταβολής ή συντελεστής μεταβλητότητας (CV)

CV=s|x¯| 100%. (10)

Ένα δείγμα τιμών μιας μεταβλητής είναι ομοιογενές, εάν ο συντελεστής μεταβολής δεν ξεπερνά το 10%.

2.4 Κανονική κατανομή και εφαρμογές

Αν η καμπύλη συχνοτήτων για το χαρακτηριστικό που εξετάζουμε είναι κανονική ή περίπου κανονική, δηλαδή έχει την ακόλουθη μορφή

1σ2πe12(xμσ)2μμ3σμ+3σμ2σμ+2σ3μσ3μ+σ

τότε μπορούμε να συμπεράνουμε τα ακόλουθα, όπου μ η μέση τιμή και σ η τυπική απόκλιση:

Το 68% περίπου των παρατηρήσεων βρίσκεται στο διάστημα

(μσ,μ+σ)
μμσμ+σ

Το 95% περίπου των παρατηρήσεων βρίσκεται στο διάστημα

(μ2σ,μ+2σ)
μμ2σμ+2σ

Το 99,7% περίπου των παρατηρήσεων βρίσκεται στο διάστημα

(μ3σ,μ+3σ)
μμ3σμ+3σ

Το εύρος ισούται περίπου με έξι τυπικές αποκλίσεις, δηλαδή R=6σ.