Estadistica Practica Para Ciencia De Datos Y Python High Quality
sns.set_theme(style='whitegrid') np.random.seed(42)
Dividen los datos en cuatro partes iguales y son la base para la detección matemática de outliers . Implementación en Python
# Logistic regression logit_p = pm.math.logit(base_rate) + error_effect * df['error_occurred'] p = pm.math.invlogit(logit_p)
plt.figure(figsize=(10, 6)) sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', center=0) plt.title("Correlaciones en el dataset - ¿Alguna te sorprende?") plt.show() The Power of Sampling import seaborn as sns
tiempos = [120, 122, 119, 121, 123, 118, 220] # El 220 parece outlier
La estadística es el motor invisible que impulsa la ciencia de datos. Mientras que los algoritmos de Machine Learning automatizan la predicción, la estadística proporciona las reglas para validar esos modelos, entender los sesgos y evitar conclusiones erróneas. Dominar estos conceptos mediante la implementación práctica en Python es lo que diferencia a un programador de un verdadero científico de datos.
1. Análisis Exploratorio de Datos (EDA) y Medidas Estadísticas df=n-1) log_model = LogisticRegression() log_model.fit(X
told him more about his messy outliers than any automated cleaner ever could. The Power of Sampling
import seaborn as sns import matplotlib.pyplot as plt # Simulación de datos sesgados datos_sesgados = stats.skewnorm.rvs(a=10, size=1000) sns.histplot(datos_sesgados, kde=True, color="skyblue") plt.title(f"Sesgo: stats.skew(datos_sesgados):.2f | Curtosis: stats.kurtosis(datos_sesgados):.2f") plt.show() Use code with caution. 3. Distribuciones de Probabilidad Fundamentales
from scipy import stats # Comparar medias de dos muestras grupo_a = [12, 15, 14, 10, 11] grupo_b = [15, 17, 18, 16, 15] t_stat, p_val = stats.ttest_ind(grupo_a, grupo_b) print(f"P-value: p_val") Use code with caution. 5. Correlación y Regresión La busca relaciones entre variables. y) print(f"Accuracy: log_model.score(X
alpha = 0.05 t_critico = stats.t.ppf(1 - alpha/2, df=n-1)
log_model = LogisticRegression() log_model.fit(X, y) print(f"Accuracy: log_model.score(X, y):.3f")
Modela la relación entre una variable dependiente ( ) y una o más variables independientes (