# ----------------------------------------
# 📌 IMPORTAR LIBRERÍAS
# ----------------------------------------
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

# ----------------------------------------
# 📌 CARGAR EL DATASET
# ----------------------------------------
df = pd.read_csv('https://raw.githubusercontent.com/marsgr6/rna-online/refs/heads/main/data/AirQualityUCI.csv')

# Combina fecha y hora en un solo índice de tipo datetime
df['DateTime'] = pd.to_datetime(df['Date'] + ' ' + df['Time'], errors='coerce')
df = df.drop(columns=['Date', 'Time'])
df = df.set_index('DateTime')

# Convierte los datos a numérico y reemplaza valores negativos por 0
df = df.apply(pd.to_numeric, errors='coerce')
df[df < 0] = 0

# Elimina la columna NMHC(GT) por calidad de datos
if 'NMHC(GT)' in df.columns:
    df = df.drop(columns=['NMHC(GT)'])

# Resamplea a datos diarios calculando la media
df_daily = df.resample('D').mean()
df_original = df_daily.copy()

# ----------------------------------------
# 📌 INTRODUCIR VALORES FALTANTES ALEATORIAMENTE POR COLUMNA
# ----------------------------------------
def introduce_missing_per_column(data, frac=0.2):
    """
    Introduce valores faltantes de forma aleatoria por columna.

    Parámetros:
    - data: DataFrame de entrada
    - frac: Fracción de datos a eliminar por columna

    Retorna:
    - data_missing: DataFrame con valores faltantes introducidos
    - nan_mask: Máscara booleana que marca los NaN introducidos
    """
    data_missing = data.copy()
    nan_mask = pd.DataFrame(False, index=data.index, columns=data.columns)  # Máscara para rastrear NaNs
    np.random.seed(42)  # Fijar semilla para reproducibilidad

    for column in data.columns:
        n_total = len(data[column])
        n_missing = int(n_total * frac)  # Cantidad de valores a eliminar
        missing_positions = np.random.choice(n_total, n_missing, replace=False)  # Índices aleatorios
        # Introducir NaN
        data_missing.iloc[missing_positions, data.columns.get_loc(column)] = np.nan
        nan_mask.iloc[missing_positions, data.columns.get_loc(column)] = True

    print(f"Number of missing values introduced: {nan_mask.sum().sum()}")
    return data_missing, nan_mask

def introduce_missing_blocks(data, frac=0.2, block_size=5):
    """
    Introduce missing data in contiguous blocks.

    Parameters:
    - data: DataFrame
    - frac: Fraction of data points to set as NaN
    - block_size: Number of consecutive rows in each missing block

    Returns:
    - data_missing: DataFrame with missing values
    - nan_mask: Boolean DataFrame where True = missing position introduced
    """
    data_missing = data.copy()
    nan_mask = pd.DataFrame(False, index=data.index, columns=data.columns)

    n_total = len(data)
    n_blocks_per_col = int((n_total * frac) / block_size)

    np.random.seed(42)

    for col in data.columns:
        for _ in range(n_blocks_per_col):
            start_idx = np.random.randint(0, n_total - block_size + 1)
            block_idx = data.index[start_idx : start_idx + block_size]

            data_missing.loc[block_idx, col] = np.nan
            nan_mask.loc[block_idx, col] = True

    print(f"Number of missing values introduced: {nan_mask.sum().sum()}")
    return data_missing, nan_mask

df_missing, nan_mask = introduce_missing_blocks(df_daily, frac=0.2, block_size=5)

# Visualize
import missingno as msno
msno.matrix(df_missing, figsize=(12, 5), fontsize=12)
plt.title("Matriz de valores faltantes en bloques por columna")
plt.show()

# ----------------------------------------
# 📌 PLOT SERIES TEMPORALES EN 2 COLUMNAS (CON PUNTOS ROJOS PARA MISSING)
# ----------------------------------------
cols = df_missing.columns
n_cols = 2
n_rows = int(np.ceil(len(cols) / n_cols))

fig, axes = plt.subplots(n_rows, n_cols, figsize=(14, 2 * n_rows), sharex=True)

axes = axes.reshape(n_rows, n_cols)

for i, col in enumerate(cols):
    ax = axes[i // n_cols, i % n_cols]

    # Whole series as a blue line
    ax.plot(df_missing.index, df_original[col], color='blue', alpha=0.7, label='Original')

    # Red dots where missing
    ax.plot(df_missing.index[df_missing[col].isna()],
            df_original[col][df_missing[col].isna()],
            'r.', label='Missing', markersize=6)

    ax.set_title(f"{col}")
    ax.set_ylabel(col)

# Remove empty subplots
for j in range(i + 1, n_rows * n_cols):
    fig.delaxes(axes[j // n_cols, j % n_cols])

handles, labels = ax.get_legend_handles_labels()
fig.legend(handles, labels, loc='upper center', ncol=2)
plt.tight_layout(rect=[0, 0, 1, 0.96])
plt.suptitle("Daily Time Series with Missing Data Highlighted", fontsize=16)
plt.show()

N°	Variable	Descripción
2	CO(GT)	Concentración verdadera de CO (mg/m³, referencia)
3	PT08.S1(CO)	Respuesta del sensor de óxido de estaño (target: CO)
4	NMHC(GT)	Concentración verdadera de hidrocarburos no metánicos (μg/m³, referencia)
5	C6H6(GT)	Concentración verdadera de benceno (μg/m³, referencia)
6	PT08.S2(NMHC)	Respuesta del sensor de titania (target: NMHC)
7	NOx(GT)	Concentración verdadera de NOx (ppb, referencia)
8	PT08.S3(NOx)	Respuesta del sensor de óxido de tungsteno (target: NOx)
9	NO2(GT)	Concentración verdadera de NO2 (μg/m³, referencia)
10	PT08.S4(NO2)	Respuesta del sensor de óxido de tungsteno (target: NO2)
11	PT08.S5(O3)	Respuesta del sensor de óxido de indio (target: O3)
12	T	Temperatura (°C)
13	RH	Humedad relativa (%)
14	AH	Humedad absoluta

Variable	MAE	MSE	RMSE	R²
CO(GT)	0.281	0.106	0.326	0.746
PT08.S1(CO)	61.061	5673.883	75.325	0.850
C6H6(GT)	0.995	1.878	1.370	0.872
PT08.S2(NMHC)	37.641	2561.053	50.607	0.929
NOx(GT)	48.429	3705.005	60.869	0.866
PT08.S3(NOx)	70.764	9218.081	96.011	0.780
NO2(GT)	15.125	357.961	18.920	0.861
PT08.S4(NO2)	78.496	10095.427	100.476	0.858
PT08.S5(O3)	94.586	13372.547	115.640	0.864
T	2.115	6.943	2.635	0.840
RH	6.708	65.337	8.083	0.674
AH	0.125	0.022	0.147	0.859

Variable	MAE	MSE	RMSE	R²
CO(GT)	0.281	0.106	0.326	0.746
PT08.S1(CO)	61.061	5673.883	75.325	0.850
C6H6(GT)	0.995	1.878	1.370	0.872
PT08.S2(NMHC)	37.641	2561.053	50.607	0.929
NOx(GT)	48.429	3705.005	60.869	0.866
PT08.S3(NOx)	70.764	9218.081	96.011	0.780
NO2(GT)	15.125	357.961	18.920	0.861
PT08.S4(NO2)	78.496	10095.427	100.476	0.858
PT08.S5(O3)	94.586	13372.547	115.640	0.864
T	2.115	6.943	2.635	0.840
RH	6.708	65.337	8.083	0.674
AH	0.125	0.022	0.147	0.859

Métrica	Valor
MAE	0.709
MSE	0.884
RMSE	0.940
R²	-0.404

📝 Tarea semana 4 - Opción Low-Code: Imputación de valores faltantes y modelado de series temporales¶

📌 Descripción del dataset¶

🎯 Propósito de la tarea¶

1️⃣ Imputación de valores faltantes¶

2️⃣ Modelado de serie temporal¶

⚙️ Instrucciones¶

✅ Entregables¶

🎯 Generación de valores faltantes aleatorios (Missing At Blocks)¶

✅ Lo que se espera¶

🎯 Imputación de valores faltantes con SAITS¶

📊 Resultados de la imputación con SAITS¶

💡 Preguntas¶

🎯 Modelado de CO(GT) usando Transformer¶

📌 Descripción del flujo¶

📌 Código base¶

✅ Lo que debes hacer¶

🎯 Forecasting multivariado de CO con Transformer¶

📌 Código base¶

✅ Lo que se espera¶

📝 Opción 2 - Informe ejecutivo: Imputación de valores faltantes y forecasting de CO(GT)¶

📌 Contexto¶

📝 Instrucción para el informe ejecutivo¶

💡 Pautas adicionales¶

🎯 Generación y visualización de valores faltantes¶

🎯 Imputación con SAITS¶

📊 Métricas de evaluación de la imputación¶

🎯 Forecasting multivariado de CO(GT) con Transformer¶

📊 Métricas de forecasting (test set)¶

💡 Reflexiones y propuestas de mejora¶

Opción 3 - LSTM para Análisis de Sentimiento en Colab (asistido por Gemini, sin tuning)¶

0) Antes de empezar¶

1) Setup en Colab (opcional pero recomendable)¶

2) Preprocesamiento¶

3) Embeddings¶

4) Arquitectura LSTM¶

5) Entrenamiento¶

6) Evaluación¶

7) Análisis de errores¶

8) Exportar y demo de inferencia¶

Checklist de entrega¶

Consejos rápidos¶

Opción 4 - Instrucciones para usar otro dataset en el flujo LSTM de KNIME para análisis de sentimientos¶