10 Μαΐου, 1970

Στατιστικά για seq2pred (τα δεδομένα σε κανονική σειρά) για το ΚΙΝΟ. (Statistics for seq2pred (data in regular sequence) for KINO.)


Θα ελέγξουμε τα στατιστικά με τα δεδομένα όπως εμφανιστήκαν στην κλήρωση.
We will check the statistics with the data as they appeared in the draw.
import numpy as np
from scipy import stats

# Ορισμός των datasets
dataset_0 = np.array([66, 66, 11, 44, 56, 41, 36, 47, 76, 10])
dataset_1 = np.
array([14, 36, 68, 3, 66, 34, 68, 11, 51, 35])
dataset_2 = np.
array([30, 20, 64, 59, 10, 59, 23, 24, 55, 17])
dataset_3 = np.
array([32, 44, 69, 26, 30, 51, 38, 43, 34, 15])
dataset_4 = np.
array([8, 38, 13, 12, 5, 80, 28, 76, 23, 9])
dataset_5 = np.
array([15, 52, 42, 53, 13, 50, 1, 8, 27, 80])
dataset_6 = np.
array([7, 28, 62, 30, 31, 71, 73, 44, 61, 48])
dataset_7 = np.
array([11, 80, 50, 6, 55, 68, 9, 51, 48, 32])
dataset_8 = np.
array([33, 72, 30, 58, 63, 79, 63, 30, 4, 26])
dataset_9 = np.
array([17, 21, 75, 41, 11, 12, 47, 2, 29, 14])
dataset_10 = np.
array([9, 16, 2, 17, 14, 24, 11, 58, 74, 60])
dataset_11 = np.
array([64, 63, 43, 1, 37, 49, 74, 34, 70, 29])
dataset_12 = np.
array([74, 74, 29, 60, 17, 76, 50, 1, 3, 55])
dataset_13 = np.
array([59, 33, 55, 19, 51, 10, 39, 32, 35, 61])
dataset_14 = np.
array([35, 41, 39, 13, 24, 73, 26, 72, 21, 40])
dataset_15 = np.
array([56, 34, 23, 34, 9, 23, 17, 28, 56, 76])
dataset_16 = np.
array([52, 29, 74, 21, 29, 37, 7, 60, 60, 70])
dataset_17 = np.
array([24, 77, 27, 31, 21, 56, 13, 38, 19, 24])
dataset_18 = np.
array([51, 71, 22, 45, 2, 60, 77, 20, 38, 13])
dataset_19 = np.
array([23, 37, 71, 8, 80, 21, 75, 64, 14, 77])

datasets = [dataset_0, dataset_1, dataset_2, dataset_3, dataset_4, dataset_5, dataset_6,
 dataset_7, dataset_8,dataset_9, dataset_10, dataset_11, dataset_12, dataset_13, dataset_14, 
dataset_15, dataset_16, dataset_17, dataset_18,dataset_19]

# Υπολογισμός και εκτύπωση των βασικών στατιστικών
for i, dataset in enumerate(datasets):
mean = int(np.round(np.mean(dataset)))
median = int(np.round(np.median(dataset)))
std_dev = int(np.round(np.std(dataset)))
variance = int(np.round(np.var(dataset)))
min_val = np.min(dataset)
max_val = np.max(dataset)
range_val = max_val - min_val
q1 = int(np.round(np.percentile(dataset, 25)))
q3 = int(np.round(np.percentile(dataset, 75)))

iqr = q3 - q1
cv =
int(np.round(std_dev / mean * 100)) if mean != 0 else float('inf')
skewness = int(np.round(stats.skew(dataset)))
kurtosis =
int(np.round(stats.kurtosis(dataset)))
mode_result = stats.
mode(dataset)
total_sum =
int(np.round(np.sum(dataset)))
mad =
int(np.round(np.mean(np.abs(dataset - mean))))
median_absolute_deviation =
int(np.round(np.median(np.abs(dataset - median))))
ptp = np.
ptp(dataset)
harmonic_mean =
int(np.round(stats.hmean(dataset)))
geometric_mean =
int(np.round(stats.gmean(dataset)))
trimmed_mean =
int(np.round(stats.trim_mean(dataset, 0.1)))
winsorized_mean =
int(np.round(stats.mstats.winsorize(dataset, limits=[0.1, 0.1]).mean()))

print(f"Dataset {i}:")
print(f"Mean: {mean} - Μέση τιμή (Mean):
Το άθροισμα όλων των τιμών διαιρεμένο με τον αριθμό των τιμών.")
print(f"Median: {median} - Δiάμεσος (Median):
Η κεντρική τιμή όταν τα δεδομένα ταξινομούνται σε αύξουσα σειρά.")
print(f"Standard Deviation: {std_dev} - Τυπική απόκλιση (Standard Deviation):
Μέτρο της διασποράς των τιμών γύρω από τη μέση τιμή.")
    print(f"Variance: {variance} - Διακύμανση (Variance): Το τετράγωνο της τυπικής απόκλισης.")
print(f"Min: {min_val} - Ελάχιστη τιμή (Min): Η μικρότερη τιμή στο dataset.")
print(f"Max: {max_val} - Μέγιστη τιμή (Max): Η μεγαλύτερη τιμή στο dataset.")
print(f"Range: {range_val} - Εύρος (Range): Η διαφορά μεταξύ της μέγιστης και της ελάχιστης τιμής.")
print(f"Q1: {q1} - Πρώτο τεταρτημόριο (Q1): Η μέση τιμή του πρώτου μισού των δεδομένων.")
print(f"Q3: {q3} - Τρίτο τεταρτημόριο (Q3): Η μέση τιμή του δεύτερου μισού των δεδομένων.")
print(f"IQR: {iqr} - Διεθνής τεταρτημόριο εύρος (IQR): Η διαφορά μεταξύ του Q3 και του Q1.")
print(f"Coefficient of Variation: {cv}% -
Συντελεστής μεταβλητότητας (Coefficient of Variation): Η τυπική απόκλιση διαιρεμένη με τη μέση
 τιμή, εκφρασμένη ως ποσοστό.")
print( f"Skewness: {skewness} - Ασυμμετρία (Skewness):
 Μέτρο της ασυμμετρίας της κατανομής των δεδομένων. Τιμές μεγαλύτερες του 0 υποδεικνύουν 
θετική ασυμμετρία (η ουρά της κατανομής εκτείνεται προς τα δεξιά), ενώ τιμές μικρότερες 
του 0 υποδεικνύουν αρνητική ασυμμετρία (η ουρά της κατανομής εκτείνεται προς τα αριστερά).")
print(f"Kurtosis: {kurtosis} - Ύψος κατανομής (Kurtosis): Μέτρο του πόσο 'αιχμηρή'
είναι η κατανομή των δεδομένων. Θετικές τιμές υποδεικνύουν κατανομές με 'ψηλές' 
κορυφές και 'βαριές' ουρές, ενώ αρνητικές τιμές υποδεικνύουν κατανομές με 'επίπεδες' 
κορυφές και 'ελαφριές' ουρές.")
print(f"Total Sum: {total_sum} - Συνολικό άθροισμα (Total Sum): Το άθροισμα όλων των
τιμών στο dataset.")
print( f"Mean Absolute Deviation: {mad} - Μέση απόλυτη απόκλιση (Mean Absolute Deviation):

 Η μέση τιμή των απόλυτων αποκλίσεων από τη μέση τιμή.")
print(f"Median Absolute Deviation: {median_absolute_deviation} -
Διάμεση απόλυτη απόκλιση (Median Absolute Deviation): Η διάμεση τιμή των απόλυτων αποκλίσεων 
από τη διάμεσο.")
print(f"Peak-to-Peak: {ptp} - Συντελεστής κορυφής (Peak-to-Peak): Η διαφορά μεταξύ της
μέγιστης και της ελάχιστης τιμής.")
print(f"Harmonic Mean: {harmonic_mean} - Αρμονική μέση τιμή (Harmonic Mean): Το αντίστροφο
της μέσης τιμής των αντιστρόφων των τιμών.")
print(f"Geometric Mean: {geometric_mean} - Γεωμετρική μέση τιμή (Geometric Mean): Η νιοστή
 ρίζα του γινομένου των τιμών.")
print(f"Trimmed Mean: {trimmed_mean} - Περικομμένη μέση τιμή (Trimmed Mean): Η μέση τιμή
μετά την απομάκρυνση ενός ποσοστού των ακραίων τιμών.")
print(f"Winsorized Mean: {winsorized_mean} - Μέση τιμή μετά από Winsorizing (Winsorized Mean):
 Η μέση τιμή μετά την αντικατάσταση των ακραίων τιμών.")
print("\n")


Αποτελέσματα: 

Το πρόγραμμα εκτελεί περιγραφική στατιστική ανάλυση σε μια σειρά από δεδομένα, που οργανώνονται σε διαφορετικά σετ (datasets). Κάθε σετ δεδομένων περιέχει τιμές, και για κάθε ένα από αυτά υπολογίζονται διάφοροι στατιστικοί δείκτες. Ας δούμε αναλυτικά τι πετυχαίνουμε με αυτή την ανάλυση και πώς λειτουργεί το πρόγραμμα:

Οργάνωση Δεδομένων: Τα δεδομένα έχουν οργανωθεί σε διάφορα σετ (π.χ., dataset_0, dataset_1, κ.λπ.), κάθε ένα περιέχοντας μια σειρά από αριθμητικές τιμές. Αυτό επιτρέπει την ανεξάρτητη ανάλυση κάθε σετ.

Υπολογισμός Βασικών Στατιστικών: Για κάθε σετ δεδομένων, υπολογίζονται οι βασικοί στατιστικοί δείκτες όπως:

Μέση Τιμή (Mean): Είναι η τυπική μέτρηση της κεντρικής τάσης.
Διάμεσος (Median): Αντανακλά την κεντρική τιμή σε ένα ταξινομημένο σετ.
Τυπική Απόκλιση και Διακύμανση (Standard Deviation & Variance): Μετρούν τη διασπορά των δεδομένων γύρω από τη μέση τιμή.
Ελάχιστη και Μέγιστη Τιμή (Min & Max): Δείχνουν τα άκρα των τιμών στο σετ.
Εύρος (Range): Η διαφορά μεταξύ της μέγιστης και ελάχιστης τιμής.
Τεταρτημόρια (Quartiles) και Διακύμανση τεταρτημορίου (Interquartile Range): Μετρούν τη διακύμανση στα κεντρικά δεδομένα.
Ασυμμετρία και Κύρτωση (Skewness & Kurtosis): Εκφράζουν τη μορφή της κατανομής των δεδομένων.
Προχωρημένες Μετρήσεις:

Αρμονική και Γεωμετρική Μέση: Διαφορετικές μορφές μέσης τιμής που μπορούν να είναι χρήσιμες σε ειδικές περιπτώσεις.
Περικομμένη και Winsorized Μέση: Μετρούν τη μέση τιμή μετά από την αφαίρεση ή την προσαρμογή των ακραίων τιμών για να αποφευχθεί η διαστρέβλωση από τις ίδιες.
Σκοπός Ανάλυσης:

Η ανάλυση αυτή επιτρέπει τη βαθύτερη κατανόηση των χαρακτηριστικών του κάθε σετ δεδομένων.
Βοηθά στην εκτίμηση των τάσεων, των ανωμαλιών και της συμπεριφοράς των δεδομένων.
Είναι χρήσιμη στη λήψη αποφάσεων και στην επίλυση πρακτικών προβλημάτων που αφορούν τα δεδομένα.
Αυτή η εκτενής στατιστική ανάλυση είναι καταλληλότερη για καταστάσεις όπου χρειάζεται να κατανοήσουμε λεπτομερώς τη δομή και τις ιδιότητες των δεδομένων, όπως στην έρευνα, στην πολιτική ανάλυση, στον οικονομικό σχεδιασμό, κλπ.
Dataset 0:
Mean: 45 - Μέση τιμή (Mean): Το άθροισμα όλων των τιμών διαιρεμένο με τον αριθμό των τιμών.
Median:
46 - Διάμεσος (Median): Η κεντρική τιμή όταν τα δεδομένα ταξινομούνται σε αύξουσα σειρά.
Standard Deviation:
21 - Τυπική απόκλιση (Standard Deviation): Μέτρο της διασποράς των
τιμών γύρω από τη μέση τιμή.
Variance: 445 - Διακύμανση (Variance): Το τετράγωνο της τυπικής απόκλισης.
Min:
10 - Ελάχιστη τιμή (Min): Η μικρότερη τιμή στο dataset.
Max:
76 - Μέγιστη τιμή (Max): Η μεγαλύτερη τιμή στο dataset.
Range:
66 - Εύρος (Range): Η διαφορά μεταξύ της μέγιστης και της ελάχιστης τιμής.
Q1:
37 - Πρώτο τεταρτημόριο (Q1): Η μέση τιμή του πρώτου μισού των δεδομένων.
Q3:
64 - Τρίτο τεταρτημόριο (Q3): Η μέση τιμή του δεύτερου μισού των δεδομένων.
IQR:
27 - Διεθνής τεταρτημόριο εύρος (IQR): Η διαφορά μεταξύ του Q3 και του Q1.
Coefficient of Variation:
47% - Συντελεστής μεταβλητότητας (Coefficient of Variation):
 Η τυπική απόκλιση διαιρεμένη με τη μέση τιμή, εκφρασμένη ως ποσοστό.
Skewness:
0 - Ασυμμετρία (Skewness): Μέτρο της ασυμμετρίας της κατανομής των δεδομένων.
Τιμές μεγαλύτερες του 0 υποδεικνύουν θετική ασυμμετρία (η ουρά της κατανομής εκτείνεται 
προς τα δεξιά), ενώ τιμές μικρότερες του 0 υποδεικνύουν αρνητική ασυμμετρία (η ουρά της 
κατανομής εκτείνεται προς τα αριστερά).
Kurtosis: -1 - Ύψος κατανομής (Kurtosis): Μέτρο του πόσο 'αιχμηρή' είναι η κατανομή των
δεδομένων.
 Θετικές τιμές υποδεικνύουν κατανομές με 'ψηλές' κορυφές και 'βαριές' ουρές, ενώ αρνητικές 
τιμές
 υποδεικνύουν κατανομές με 'επίπεδες' κορυφές και 'ελαφριές' ουρές.
Total Sum: 453 - Συνολικό άθροισμα (Total Sum): Το άθροισμα όλων των τιμών στο dataset.
Mean Absolute Deviation: 17 - Μέση απόλυτη απόκλιση (Mean Absolute Deviation):
Η μέση τιμή των απόλυτων αποκλίσεων από τη μέση τιμή.
Median Absolute Deviation: 15 - Διάμεση απόλυτη απόκλιση (Median Absolute Deviation):
Η διάμεση τιμή των απόλυτων αποκλίσεων από τη διάμεσο.
Peak-to-Peak: 66 - Συντελεστής κορυφής (Peak-to-Peak): Η διαφορά μεταξύ της μέγιστης και της
ελάχιστης τιμής.
Harmonic Mean: 29 - Αρμονική μέση τιμή (Harmonic Mean): Το αντίστροφο της μέσης τιμής των
αντιστρόφων των τιμών.
Geometric Mean: 38 - Γεωμετρική μέση τιμή (Geometric Mean): Η νιοστή ρίζα του γινομένου των
τιμών.
Trimmed Mean: 46 - Περικομμένη μέση τιμή (Trimmed Mean): Η μέση τιμή μετά την απομάκρυνση
ενός ποσοστού των ακραίων τιμών.
Winsorized Mean: 44 - Μέση τιμή μετά από Winsorizing (Winsorized Mean): Η μέση τιμή μετά την
 αντικατάσταση των ακραίων τιμών.