Στατιστική ανάλυση με τα δεδομένα σε αύξουσα σειρά. Statistical analysis with data sorted in ascending order.
import numpy as np
from scipy import stats
dataset_0 = np.array([7, 16, 2, 1, 2, 10, 1, 1, 3, 9])
dataset_1 = np.array([8, 20, 11, 3, 5, 12, 7, 2, 4, 10])
dataset_2 = np.array([9, 21, 13, 6, 9, 21, 9, 8, 14, 13])
dataset_3 = np.array([11, 28, 22, 8, 10, 23, 11, 11, 19, 14])
dataset_4 = np.array([14, 29, 23, 12, 11, 24, 13, 20, 21, 15])
dataset_5 = np.array([15, 33, 27, 13, 13, 34, 17, 24, 23, 17])
dataset_6 = np.array([17, 34, 29, 17, 14, 37, 23, 28, 27, 24])
dataset_7 = np.array([23, 36, 30, 19, 17, 41, 26, 30, 29, 26])
dataset_8 = np.array([24, 37, 39, 21, 21, 49, 28, 32, 34, 29])
dataset_9 = np.array([30, 38, 42, 26, 24, 50, 36, 34, 35, 32])
dataset_10 = np.array([32, 41, 43, 30, 29, 51, 38, 38, 38, 35])
dataset_11 = np.array([33, 44, 50, 31, 30, 56, 39, 43, 48, 40])
dataset_12 = np.array([35, 52, 55, 34, 31, 59, 47, 44, 51, 48])
dataset_13 = np.array([51, 63, 62, 41, 37, 60, 50, 47, 55, 55])
dataset_14 = np.array([52, 66, 64, 44, 51, 68, 63, 51, 56, 60])
dataset_15 = np.array([56, 71, 68, 45, 55, 71, 68, 58, 60, 61])
dataset_16 = np.array([59, 72, 69, 53, 56, 73, 73, 60, 61, 70])
dataset_17 = np.array([64, 74, 71, 58, 63, 76, 74, 64, 70, 76])
dataset_18 = np.array([66, 77, 74, 59, 66, 79, 75, 72, 74, 77])
dataset_19 = np.array([74, 80, 75, 60, 80, 80, 77, 76, 76, 80])
datasets = [dataset_0, dataset_1, dataset_2, dataset_3, dataset_4, dataset_5, dataset_6, dataset_7, dataset_8,dataset_9,dataset_10, dataset_11, dataset_12, dataset_13, dataset_14, dataset_15, dataset_16, dataset_17, dataset_18,dataset_19]
for i, dataset in enumerate(datasets):
mean = int(np.round(np.mean(dataset)))
median = int(np.round(np.median(dataset)))
std_dev = int(np.round(np.std(dataset)))
variance = int(np.round(np.var(dataset)))
min_val = np.min(dataset)
max_val = np.max(dataset)
range_val = max_val - min_val
q1 = int(np.round(np.percentile(dataset, 25)))
q3 = int(np.round(np.percentile(dataset, 75)))
iqr = q3 - q1
cv = int(np.round(std_dev / mean * 100)) if mean != 0 else float('inf') skewness = int(np.round(stats.skew(dataset)))
kurtosis = int(np.round(stats.kurtosis(dataset)))
mode_result = stats.mode(dataset)
total_sum = int(np.round(np.sum(dataset)))
mad = int(np.round(np.mean(np.abs(dataset - mean))))
median_absolute_deviation = int(np.round(np.median(np.abs(dataset - median))))
ptp = np.ptp(dataset)
harmonic_mean = int(np.round(stats.hmean(dataset)))
geometric_mean = int(np.round(stats.gmean(dataset)))
trimmed_mean = int(np.round(stats.trim_mean(dataset, 0.1)))
winsorized_mean = int(np.round(stats.mstats.winsorize(dataset, limits=[0.1, 0.1]).mean()))
print(f"Dataset {i}:")
print(f"Mean: {mean} - Μέση τιμή (Mean): Το άθροισμα όλων των τιμών διαιρεμένο με τον αριθμό των τιμών.")
print(f"Median: {median} - Διάμεσος (Median): Η κεντρική τιμή όταν τα δεδομένα ταξινομούνται σε αύξουσα σειρά.")
print(
f"Standard Deviation: {std_dev} - Τυπική απόκλιση (Standard Deviation): Μέτρο της διασποράς των τιμών γύρω από τη μέση τιμή.")
print(f"Variance: {variance} - Διακύμανση (Variance): Το τετράγωνο της τυπικής απόκλισης.")
print(f"Min: {min_val} - Ελάχιστη τιμή (Min): Η μικρότερη τιμή στο dataset.")
print(f"Max: {max_val} - Μέγιστη τιμή (Max): Η μεγαλύτερη τιμή στο dataset.")
print(f"Range: {range_val} - Εύρος (Range): Η διαφορά μεταξύ της μέγιστης και της ελάχιστης τιμής.")
print(f"Q1: {q1} - Πρώτο τεταρτημόριο (Q1): Η μέση τιμή του πρώτου μισού των δεδομένων.")
print(f"Q3: {q3} - Τρίτο τεταρτημόριο (Q3): Η μέση τιμή του δεύτερου μισού των δεδομένων.")
print(f"IQR: {iqr} - Διεθνής τεταρτημόριο εύρος (IQR): Η διαφορά μεταξύ του Q3 και του Q1.")
print( f"Coefficient of Variation: {cv}% - Συντελεστής μεταβλητότητας (Coefficient of Variation): Η τυπική απόκλιση διαιρεμένη με τη μέση τιμή, εκφρασμένη ως ποσοστό.")
print( f"Skewness: {skewness} - Ασυμμετρία (Skewness): Μέτρο της ασυμμετρίας της κατανομής των δεδομένων. Τιμές μεγαλύτερες του 0 υποδεικνύουν θετική ασυμμετρία (η ουρά της κατανομής εκτείνεται προς τα δεξιά), ενώ τιμές μικρότερες του 0 υποδεικνύουν αρνητική ασυμμετρία (η ουρά της κατανομής εκτείνεται προς τα αριστερά).")
print( f"Kurtosis: {kurtosis} - Ύψος κατανομής (Kurtosis): Μέτρο του πόσο 'αιχμηρή' είναι η κατανομή των δεδομένων. Θετικές τιμές υποδεικνύουν κατανομές με 'ψηλές' κορυφές και 'βαριές' ουρές, ενώ αρνητικές τιμές υποδεικνύουν κατανομές με 'επίπεδες' κορυφές και 'ελαφριές' ουρές.")
print(f"Total Sum: {total_sum} - Συνολικό άθροισμα (Total Sum): Το άθροισμα όλων των τιμών στο dataset.")
print( f"Mean Absolute Deviation: {mad} - Μέση απόλυτη απόκλιση (Mean Absolute Deviation): Η μέση τιμή των απόλυτων αποκλίσεων από τη μέση τιμή.")
print( f"Median Absolute Deviation: {median_absolute_deviation} - Διάμεση απόλυτη απόκλιση (Median Absolute Deviation): Η διάμεση τιμή των απόλυτων αποκλίσεων από τη διάμεσο.")
print( f"Peak-to-Peak: {ptp} - Συντελεστής κορυφής (Peak-to-Peak): Η διαφορά μεταξύ της μέγιστης και της ελάχιστης τιμής.")
print( f"Harmonic Mean: {harmonic_mean} - Αρμονική μέση τιμή (Harmonic Mean): Το αντίστροφο της μέσης τιμής των αντιστρόφων των τιμών.")
print( f"Geometric Mean: {geometric_mean} - Γεωμετρική μέση τιμή (Geometric Mean): Η νιοστή ρίζα του γινομένου των τιμών.")
print( f"Trimmed Mean: {trimmed_mean} - Περικομμένη μέση τιμή (Trimmed Mean): Η μέση τιμή μετά την απομάκρυνση ενός ποσοστού των ακραίων τιμών.")
print( f"Winsorized Mean: {winsorized_mean} - Μέση τιμή μετά από Winsorizing (Winsorized Mean):Η μέση τιμή μετά την αντικατάσταση των ακραίων τιμών.")
print("\n")
Αποτελέσματα:Dataset 0:
Mean: 5 - Μέση τιμή (Mean): Το άθροισμα όλων των τιμών διαιρεμένο με τον αριθμό των τιμών.
Median: 2 - Διάμεσος (Median): Η κεντρική τιμή όταν τα δεδομένα ταξινομούνται σε αύξουσα σειρά.
Standard Deviation: 5 - Τυπική απόκλιση (Standard Deviation): Μέτρο της διασποράς των τιμών γύρω από τη μέση τιμή.
Variance: 24 - Διακύμανση (Variance): Το τετράγωνο της τυπικής απόκλισης.
Min: 1 - Ελάχιστη τιμή (Min): Η μικρότερη τιμή στο dataset.
Max: 16 - Μέγιστη τιμή (Max): Η μεγαλύτερη τιμή στο dataset.
Range: 15 - Εύρος (Range): Η διαφορά μεταξύ της μέγιστης και της ελάχιστης τιμής.
Q1: 1 - Πρώτο τεταρτημόριο (Q1): Η μέση τιμή του πρώτου μισού των δεδομένων.
Q3: 8 - Τρίτο τεταρτημόριο (Q3): Η μέση τιμή του δεύτερου μισού των δεδομένων.
IQR: 7 - Διεθνής τεταρτημόριο εύρος (IQR): Η διαφορά μεταξύ του Q3 και του Q1.
Coefficient of Variation: 100% - Συντελεστής μεταβλητότητας (Coefficient of Variation): Η τυπική απόκλιση διαιρεμένη με τη μέση τιμή, εκφρασμένη ως ποσοστό.
Skewness: 1 - Ασυμμετρία (Skewness): Μέτρο της ασυμμετρίας της κατανομής των δεδομένων. Τιμές μεγαλύτερες του 0 υποδεικνύουν θετική ασυμμετρία (η ουρά της κατανομής εκτείνεται προς τα δεξιά), ενώ τιμές μικρότερες του 0 υποδεικνύουν αρνητική ασυμμετρία (η ουρά της κατανομήςεκτείνεται προς τα αριστερά).
Kurtosis: 0 - Ύψος κατανομής (Kurtosis): Μέτρο του πόσο 'αιχμηρή' είναι η κατανομή των δεδομένων. Θετικές τιμές υποδεικνύουν κατανομές με 'ψηλές' κορυφές και 'βαριές' ουρές, ενώ αρνητικές τιμές υποδεικνύουν κατανομές με 'επίπεδες' κορυφές και 'ελαφριές' ουρές.
Total Sum: 52 - Συνολικό άθροισμα (Total Sum): Το άθροισμα όλων των τιμών στο dataset.
Mean Absolute Deviation: 4 - Μέση απόλυτη απόκλιση (Mean Absolute Deviation): Η μέση τιμή των απόλυτων αποκλίσεων από τη μέση τιμή.
Median Absolute Deviation: 1 - Διάμεση απόλυτη απόκλιση (Median Absolute Deviation): Η διάμεση τιμή των απόλυτων αποκλίσεων από τη διάμεσο.
Peak-to-Peak: 15 - Συντελεστής κορυφής (Peak-to-Peak): Η διαφορά μεταξύ της μέγιστης και της ελάχιστης τιμής.
Harmonic Mean: 2 - Αρμονική μέση τιμή (Harmonic Mean): Το αντίστροφο της μέσης τιμής των αντιστρόφων των τιμών.
Geometric Mean: 3 - Γεωμετρική μέση τιμή (Geometric Mean): Η νιοστή ρίζα του γινομένου των τιμών.
Trimmed Mean: 4 - Περικομμένη μέση τιμή (Trimmed Mean): Η μέση τιμή μετά την απομάκρυνση ενός ποσοστού των ακραίων τιμών.
Winsorized Mean: 5 - Μέση τιμή μετά από Winsorizing (Winsorized Mean): Η μέση τιμή μετά τηναντικατάσταση των ακραίων τιμών.
