Modelado News-Clustering

Modelado News-Clustering#

#!pip install umap-learn==0.5.6
import warnings
warnings.filterwarnings("ignore")

import pandas as pd
import plotly.express as px
from umap import UMAP
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.model_selection import RandomizedSearchCV
from sklearn.pipeline import Pipeline
from sklearn.mixture import GaussianMixture
from sklearn.manifold import TSNE
from sklearn.metrics import silhouette_score, davies_bouldin_score

url_base = "https://raw.githubusercontent.com/lacamposm/Metodos-Estadisticos/main/data/"
def silhouette_scorer(estimator, X):
    """
    Calcula el Silhouette Score utilizando la métrica de coseno para evaluar la calidad de los clústeres.

    El Silhouette Score mide cómo de similar es un punto de datos a otros puntos de su mismo clúster en comparación
    con los puntos de otros clústeres. El valor oscila entre -1 y 1, donde un valor más alto indica que los puntos
    están mejor agrupados y más separados de otros clústeres.

    :param estimator: Un modelo de clustering que debe tener un método `predict` para obtener las etiquetas de los
    clústeres de las muestras de `X`.
    :param X: Un array-like o matriz de datos (n_samples, n_features) sobre los cuales se calcularán los clústeres.
    :return: El Silhouette Score para el conjunto de datos `X` y las etiquetas de los clústeres obtenidos del
    `estimator`. Se utiliza la métrica de coseno para calcular las distancias.
    """
    if not hasattr(estimator, "predict"):
        raise ValueError(f"El estimator: {estimator} no tiene metodo 'predict'")

    labels = estimator.predict(X)
    return silhouette_score(X, labels, metric="cosine")


def davies_bouldin_scorer(estimator, X):
    """
    Calcula el índice de Davies-Bouldin para evaluar la calidad de los clústeres.

    El índice de Davies-Bouldin mide la media del cociente entre las distancias intra-clúster e inter-clúster para cada
    clúster. Un valor más bajo del índice indica una mejor formación de los clústeres, ya que minimiza la dispersión
    dentro de los clústeres y maximiza la separación entre ellos.

    :param estimator: Un modelo de clustering que debe tener un método `predict` para obtener las etiquetas de los
    clústeres de las muestras de `X`.
    :param X: Un array-like o matriz de datos (n_samples, n_features) sobre los cuales se calcularán los clústeres.
    :return: El valor negativo del índice de Davies-Bouldin para el conjunto de datos `X` y las etiquetas de los
    clústeres obtenidos del `estimator`. Esto invierte la métrica para que pueda maximizarse en las búsquedas
    de hiperparámetros.
    """
    if not hasattr(estimator, "predict"):
        raise ValueError(f"El estimator: {estimator} no tiene metodo 'predict'")

    labels = estimator.predict(X)
    score = -davies_bouldin_score(X, labels)
    return score
def transform_dict_best_model(input_dict):
    """
    Transforma un diccionario de parámetros de un modelo en un nuevo formato más estructurado.

    Esta función toma un diccionario que contiene información sobre un modelo, incluyendo un preprocesador, un método
    de reducción de dimensiones y un agrupador (clusterer), junto con sus parámetros específicos. La función reorganiza
    esta información en un formato más accesible y fácil de usar.

    :param input_dict: Un diccionario que contiene los parámetros del modelo. Debe incluir las claves "preprocessor",
    "dim_reduction", y "clusterer", así como pares clave-valor para los parámetros del agrupador y la reducción de
    dimensiones que siguen el formato "clusterer__<param_name>" y "dim_reduction__<param_name>".
    :return: Un nuevo diccionario estructurado que contiene el preprocesador, la reducción de dimensiones, el agrupador,
    y los parámetros asociados a cada uno. La clave de los parámetros de agrupador y    de reducción de dimensiones
    se simplifica eliminando el prefijo correspondiente.
    """
    return {
        "preprocessor": input_dict["preprocessor"],
        "dim_reduction": input_dict["dim_reduction"],
        "clusterer": input_dict["clusterer"],
        "clusterer_params": {
            k.split("__")[-1]: v for k, v in input_dict.items()
            if k.startswith("clusterer__")
        },
        "dim_reduction_params": {
            k.split("__")[-1]: v for k, v in input_dict.items()
            if k.startswith("dim_reduction__")
        }
    }
    

def tsne_plot_2d(df, estimator=None, scorer=None, metric=None):
    """
    Genera un gráfico 2D utilizando t-SNE para visualizar embeddings en un espacio reducido.

    Esta función aplica un preprocesador a un DataFrame, seguido de una reducción de dimensionalidad mediante t-SNE.
    Se pueden visualizar los embeddings resultantes en un gráfico, con la opción de agregar etiquetas de clúster para
    distinguir diferentes grupos en los datos.

    :param df: DataFrame que contiene los datos a visualizar. Cada fila representa una observación y cada columna
    representa una característica o variable.
    :param estimator:
    :param scorer:
    :param metric
    """
    if estimator is not None:
        params_estimator = transform_dict_best_model(estimator.get_params())
        preprocessor = params_estimator.get("preprocessor")
        dim_reduction = params_estimator.get("dim_reduction")
        clusterer = params_estimator.get("clusterer")
        best_score = scorer(estimator, df)

        if isinstance(dim_reduction, PCA):
            pipeline = Pipeline([
                ("preprocessor", preprocessor),
                ("dim_reduction", dim_reduction),
            ])

            normalized_embeddings = pipeline.fit_transform(df)

        else:
            normalized_embeddings = preprocessor.fit_transform(df)

        tsne = TSNE(n_components=2, random_state=42, metric=metric)
        df_plot = pd.DataFrame(tsne.fit_transform(normalized_embeddings), columns=["tSNE1", "tSNE2"])
        df_plot["cluster"] = estimator.predict(df) + 1
        df_plot = df_plot.sort_values(by=["cluster"])
        df_plot["cluster"] = df_plot["cluster"].astype("string")
        title = (
            f"""<b>Clustering: News-Summary-Embeddings in Low dimension with t-SNE</b><br>"""
            f"""<span style='font-size: 11px;'>Scaler: {preprocessor.__class__.__name__}, """
            f"""Dim-Reduction: {dim_reduction.__class__.__name__}, Estimator: {clusterer.__class__.__name__}, Metric """
            f"""Plot: {metric}, Scorer Metric: {scorer.__name__}={best_score:.3f}</span>"""
        )
        color = "cluster"

    else:
        df_scaled = StandardScaler().fit_transform(df)
        tsne = TSNE(n_components=2, random_state=42, metric=metric)
        df_plot = pd.DataFrame(tsne.fit_transform(df_scaled), columns=["tSNE1", "tSNE2"])
        title = (
            f"""<b>News-Summary-Embeddings in Low dimension with t-SNE</b><br>"""
            f"""<span style='font-size: 10px;'>Scaler: {StandardScaler().__class__.__name__}"""
        )
        color = None

    (
        px.scatter(
            df_plot, x="tSNE1", y="tSNE2", color=color,
            title=title,
            opacity=0.8,
            color_discrete_sequence=px.colors.qualitative.Dark24,
            template="plotly_white"
        )
        .update_traces(marker=dict(size=3))
        .show()
    )
    

def umap_plot_2d(df, estimator=None, scorer=None, metric=None):
    """
    Función que genera un gráfico en 2D utilizando UMAP y muestra los clústeres.

    :param df: pd.DataFrame con los embeddings de los resumenes de las noticias).
    :param estimator:
    :param scorer:
    :param metric
    """
    if estimator is not None:
        params_estimator = transform_dict_best_model(estimator.get_params())
        preprocessor = params_estimator.get("preprocessor")
        dim_reduction = params_estimator.get("dim_reduction")
        clusterer = params_estimator.get("clusterer")
        best_score = scorer(estimator, df)

        if isinstance(dim_reduction, UMAP):
            df_scaled = preprocessor.fit_transform(df)
            dim_reduction.n_components = 2
            df_plot = pd.DataFrame(dim_reduction.fit_transform(df_scaled), columns=["UMAP1", "UMAP2"])
        else:
            pipeline = Pipeline([
                ("preprocessor", preprocessor),
                ("dim_reduction", dim_reduction),
            ])
            df_scaled = pipeline.fit_transform(df)
            reducer = UMAP(n_components=2, random_state=42, metric=metric)
            df_plot = pd.DataFrame(reducer.fit_transform(df_scaled), columns=["UMAP1", "UMAP2"])

        df_plot["cluster"] = estimator.predict(df) + 1
        df_plot = df_plot.sort_values(by=["cluster"])
        df_plot["cluster"] = df_plot["cluster"].astype("string")
        color = "cluster"
        title = (
            f"""<b>Clustering: News-Summary-Embeddings in Low dimension with UMAP</b><br>"""
            f"""<span style='font-size: 11px;'>Scaler: {preprocessor.__class__.__name__}, """
            f"""Dim-Reduction: {dim_reduction.__class__.__name__}, Estimator: {clusterer.__class__.__name__}, Metric:"""
            f""" {metric}, Scorer Metric: {scorer.__name__}={best_score:.3f}</span>"""

        )

    else:
        df_scaled = StandardScaler().fit_transform(df)
        reducer = UMAP(n_components=2, random_state=42)
        df_plot = pd.DataFrame(reducer.fit_transform(df_scaled), columns=["UMAP1", "UMAP2"])
        title = (
            f"""<b>News-Summary-Embeddings in Low dimension with UMAP</b><br>"""
            f"""<span style='font-size: 10px;'>Scaler: {StandardScaler().__class__.__name__}"""
        )
        color = None

    (
        px.scatter(
            df_plot, x="UMAP1", y="UMAP2", color=color,
            title=title,
            opacity=0.8,
            color_discrete_sequence=px.colors.qualitative.Dark24,
            template="plotly_white"
        )
        .update_traces(marker=dict(size=3))
        .show()
    )
n_iter = 10                                     # Número de ajustes en RandomizedSearchCV.
scorers = ["silhouette", "davies-bouldin"]      # Puedes seleccionar diferentes metrica de adecuación de clusters
random_state = 42                               # Semilla aletoria de RandomizedSearchCV para replicar resultados.


scoring_dict = {
    "silhouette": silhouette_scorer,
    "davies-bouldin": davies_bouldin_scorer,
}


list_scalers = [StandardScaler(), MinMaxScaler(), RobustScaler()]

pca_n_components = [num for num in range(5, 80)]
umap_metrics = ["cosine", "correlation"]
umap_n_neighbors = [5, 10, 15]
umap_min_dist = [0.1, 0.3, 0.5]
umap_n_components = [2, 3, 4]

gauss_mix_n_components = [num for num in range(5, 13)]
gauss_mix_covariance_type = ["full", "diag"]
kmeans_n_clusters = [num for num in range(5, 21)]

param_grid = [
    {
        "preprocessor": list_scalers,
        "dim_reduction": [PCA()],
        "dim_reduction__n_components": pca_n_components,
        "clusterer": [KMeans()],
        "clusterer__n_clusters": kmeans_n_clusters,
    },
    {
        "preprocessor": list_scalers,
        "dim_reduction": [PCA()],
        "dim_reduction__n_components": pca_n_components,
        "clusterer": [GaussianMixture()],
        "clusterer__n_components": gauss_mix_n_components,
        "clusterer__covariance_type": gauss_mix_covariance_type
    },
    {
        "preprocessor": list_scalers,
        "dim_reduction": [UMAP()],
        "dim_reduction__n_neighbors": umap_n_neighbors,
        "dim_reduction__min_dist": umap_min_dist,
        "dim_reduction__n_components": umap_n_components,
        "dim_reduction__metric": umap_metrics,
        "clusterer": [KMeans()],
        "clusterer__n_clusters": kmeans_n_clusters,
    },
    {
        "preprocessor": list_scalers,
        "dim_reduction": [UMAP()],
        "dim_reduction__n_neighbors": umap_n_neighbors,
        "dim_reduction__min_dist": umap_min_dist,
        "dim_reduction__n_components": umap_n_components,
        "dim_reduction__metric": umap_metrics,
        "clusterer": [GaussianMixture()],
        "clusterer__n_components": gauss_mix_n_components,
        "clusterer__covariance_type": gauss_mix_covariance_type
    }
]


pipeline = Pipeline([
        ("preprocessor", "passthrough"),
        ("dim_reduction", "passthrough"),
        ("clusterer", "passthrough")
    ])

random_search = RandomizedSearchCV(
    pipeline,
    param_distributions=param_grid,
    scoring=scoring_dict,
    cv=2,
    n_jobs=-1,
    verbose=3,
    n_iter=n_iter,
    refit="silhouette",
    random_state=random_state
)
df_embed = pd.read_parquet(url_base + "mxbai-embed-large_summary_news_el_tiempo.parquet")
df_embed
0 1 2 3 4 5 6 7 8 9 ... 1014 1015 1016 1017 1018 1019 1020 1021 1022 1023
url_page
https://www.eltiempo.com/mundo/latinoamerica/evo-morales-amenaza-con-bloquear-bolivia-si-la-fiscalia-lo-captura-3389757 -0.020917 -0.006987 -0.026591 0.017555 0.032127 -0.046068 -0.048087 0.004656 0.005598 0.049441 ... 0.028381 0.019583 0.007692 0.002656 0.050690 0.041930 0.001792 -0.013605 -0.002610 -0.016743
https://www.eltiempo.com/bogota/vehiculo-se-incendia-en-medio-de-la-carretera-en-fusagasuga-cundinamarca-bomberos-atienden-la-emergencia-3389756 -0.031880 0.027921 -0.016712 0.032918 0.024373 -0.010680 -0.058477 -0.027742 0.044773 0.041911 ... 0.048250 0.040552 -0.037708 0.000493 0.010013 0.003768 0.026349 0.010262 -0.003502 0.014081
https://www.eltiempo.com/mundo/eeuu-y-canada/esta-es-la-edad-en-la-que-un-adulto-mayor-debe-dejar-de-conducir-harvard-3389502 -0.021267 0.007155 0.034475 0.030611 -0.008942 -0.016378 -0.011049 -0.016557 0.039848 0.030022 ... 0.073989 0.016037 -0.018351 -0.029923 0.037829 -0.002450 -0.024424 0.009189 0.001148 -0.009378
https://www.eltiempo.com/mundo/europa/morire-en-prision-escribio-en-sus-memorias-el-opositor-ruso-alexei-navalni-3389755 -0.001724 -0.011231 0.006536 0.007330 0.013462 -0.022181 -0.013968 0.002475 0.010086 0.029852 ... 0.043627 0.040211 -0.020006 0.009449 0.054445 0.034426 -0.022466 -0.010860 -0.025343 -0.013328
https://www.eltiempo.com/colombia/otras-ciudades/alcaldia-de-villa-de-leyva-en-boyaca-entrega-balance-tras-el-vendaval-de-ese-sabado-hay-12-personas-heridas-3389752 -0.015240 0.014905 0.014017 0.032451 0.006244 -0.013349 -0.052630 0.047903 0.035785 0.030179 ... -0.000029 0.047785 -0.012244 -0.007176 0.010913 0.012925 0.016821 0.001564 -0.004066 0.014183
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
https://www.eltiempo.com/mas-contenido/el-llamado-desde-el-sur-del-meta-3385783 -0.015249 0.032793 -0.022702 0.048635 -0.002823 -0.039297 -0.053139 0.034664 0.032758 0.025721 ... 0.027468 0.045833 -0.016872 -0.021523 0.025576 0.014999 -0.008812 -0.021739 -0.010349 0.009338
https://www.eltiempo.com/mundo/medio-oriente/asi-localizo-israel-al-lider-de-hezbola-los-detalles-del-operativo-de-inteligencia-para-efectuar-el-bombardeo-aereo-3385781 -0.013496 -0.014557 -0.018691 0.047176 0.018366 -0.011003 -0.093697 0.026669 -0.002839 -0.000249 ... 0.032180 -0.000164 -0.033964 -0.035739 0.008483 0.055563 -0.048210 -0.003561 0.001201 -0.018963
https://www.eltiempo.com/mas-contenido/del-crudo-al-turismo-3385901 -0.024780 0.041507 0.002410 0.001920 -0.007972 0.006983 -0.026574 0.025248 0.020038 0.037295 ... 0.042184 0.043891 -0.024159 -0.011424 0.054588 -0.006380 0.002650 -0.021769 -0.050148 0.003720
https://www.eltiempo.com/mas-contenido/el-imponente-tesoro-verde-3385938 -0.013511 0.009672 -0.010728 0.041266 0.003864 0.014097 -0.032700 0.034680 0.065962 0.033704 ... 0.052577 0.008840 0.002960 0.019802 0.011811 0.018858 -0.007259 -0.019385 -0.031452 0.014297
https://www.eltiempo.com/mas-contenido/los-trinos-que-mejor-silban-en-la-sabana-3385940 0.015330 0.010940 0.012188 -0.021195 0.031553 -0.026548 -0.064843 0.015146 0.036667 -0.002814 ... 0.026943 0.041879 0.021138 -0.025357 0.017482 0.026049 -0.008655 -0.007465 -0.008995 0.012198

3551 rows × 1024 columns

tsne_plot_2d(df_embed, metric="cosine")
umap_plot_2d(df_embed, metric="cosine")
best_model = random_search.fit(df_embed)
Fitting 2 folds for each of 10 candidates, totalling 20 fits
best_model.best_estimator_
Pipeline(steps=[('preprocessor', MinMaxScaler()),
                ('dim_reduction', PCA(n_components=10)),
                ('clusterer', KMeans(n_clusters=7))])
In a Jupyter environment, please rerun this cell to show the HTML representation or trust the notebook.
On GitHub, the HTML representation is unable to render, please try loading this page with nbviewer.org.
pd.DataFrame(best_model.cv_results_)
mean_fit_time std_fit_time mean_score_time std_score_time param_preprocessor param_dim_reduction__n_neighbors param_dim_reduction__n_components param_dim_reduction__min_dist param_dim_reduction__metric param_dim_reduction ... split0_test_silhouette split1_test_silhouette mean_test_silhouette std_test_silhouette rank_test_silhouette split0_test_davies-bouldin split1_test_davies-bouldin mean_test_davies-bouldin std_test_davies-bouldin rank_test_davies-bouldin
0 24.180359 0.195847 44.608100 0.025008 MinMaxScaler() 15.0 3 0.5 cosine UMAP() ... 0.075326 0.085096 0.080211 0.004885 4 -3.899238 -3.866690 -3.882964 0.016274 9
1 2.109778 0.025777 1.053074 0.195755 RobustScaler() NaN 66 NaN NaN PCA() ... 0.099614 0.081060 0.090337 0.009277 2 -3.487488 -3.516589 -3.502038 0.014551 4
2 3.461353 0.438074 0.953464 0.154232 RobustScaler() NaN 76 NaN NaN PCA() ... 0.046170 0.044010 0.045090 0.001080 9 -3.715477 -3.501715 -3.608596 0.106881 6
3 1.046009 0.103728 1.087965 0.279736 MinMaxScaler() NaN 10 NaN NaN PCA() ... 0.100613 0.063522 0.082068 0.018546 3 -3.616214 -3.660602 -3.638408 0.022194 7
4 23.016384 0.011106 44.811336 0.375455 StandardScaler() 10.0 3 0.5 cosine UMAP() ... 0.086712 0.072293 0.079502 0.007210 5 -3.538011 -3.983723 -3.760867 0.222856 8
5 24.095156 0.336365 43.836382 0.359634 MinMaxScaler() 15.0 2 0.3 cosine UMAP() ... 0.072657 0.064252 0.068454 0.004203 7 -3.628843 -4.390591 -4.009717 0.380874 10
6 1.123655 0.047197 0.909576 0.051643 MinMaxScaler() NaN 41 NaN NaN PCA() ... 0.082551 -0.060744 0.010903 0.071648 10 -3.728949 -3.221324 -3.475136 0.253813 3
7 2.112536 0.367048 1.151937 0.328201 MinMaxScaler() NaN 68 NaN NaN PCA() ... 0.057637 0.038261 0.047949 0.009688 8 -3.621333 -3.452830 -3.537081 0.084251 5
8 0.588777 0.110263 0.897044 0.158048 MinMaxScaler() NaN 10 NaN NaN PCA() ... 0.100367 0.086961 0.093664 0.006703 1 -3.453038 -3.488033 -3.470536 0.017497 2
9 1.913539 0.087046 0.567433 0.071136 MinMaxScaler() NaN 55 NaN NaN PCA() ... 0.084392 0.066192 0.075292 0.009100 6 -3.521962 -3.402653 -3.462308 0.059654 1

10 rows × 25 columns

labels = best_model.predict(df_embed)
labels
array([2, 6, 5, ..., 4, 4, 0], dtype=int32)
tsne_plot_2d(df_embed, best_model.best_estimator_, silhouette_scorer, "cosine")
umap_plot_2d(df_embed, best_model.best_estimator_, silhouette_scorer, "cosine")
pd.DataFrame(best_model.predict(df_embed) + 1, index=df_embed.index, columns=["cluster"])
cluster
url_page
https://www.eltiempo.com/mundo/latinoamerica/evo-morales-amenaza-con-bloquear-bolivia-si-la-fiscalia-lo-captura-3389757 3
https://www.eltiempo.com/bogota/vehiculo-se-incendia-en-medio-de-la-carretera-en-fusagasuga-cundinamarca-bomberos-atienden-la-emergencia-3389756 7
https://www.eltiempo.com/mundo/eeuu-y-canada/esta-es-la-edad-en-la-que-un-adulto-mayor-debe-dejar-de-conducir-harvard-3389502 6
https://www.eltiempo.com/mundo/europa/morire-en-prision-escribio-en-sus-memorias-el-opositor-ruso-alexei-navalni-3389755 3
https://www.eltiempo.com/colombia/otras-ciudades/alcaldia-de-villa-de-leyva-en-boyaca-entrega-balance-tras-el-vendaval-de-ese-sabado-hay-12-personas-heridas-3389752 7
... ...
https://www.eltiempo.com/mas-contenido/el-llamado-desde-el-sur-del-meta-3385783 5
https://www.eltiempo.com/mundo/medio-oriente/asi-localizo-israel-al-lider-de-hezbola-los-detalles-del-operativo-de-inteligencia-para-efectuar-el-bombardeo-aereo-3385781 7
https://www.eltiempo.com/mas-contenido/del-crudo-al-turismo-3385901 5
https://www.eltiempo.com/mas-contenido/el-imponente-tesoro-verde-3385938 5
https://www.eltiempo.com/mas-contenido/los-trinos-que-mejor-silban-en-la-sabana-3385940 1

3551 rows × 1 columns

Caracterizacion de los clusters#

import requests

response = requests.get(url_base + "octubre_news_summary.json")
data_json = response.json()

df_predict = pd.DataFrame(best_model.predict(df_embed) +1, index=df_embed.index, columns=["cluster"])
df_summary = pd.DataFrame(data=data_json.values(), index=data_json.keys(), columns=["summary"])
df_review = df_predict.merge(df_summary, left_index=True, right_index=True)
df_review
cluster summary
https://www.eltiempo.com/mundo/latinoamerica/evo-morales-amenaza-con-bloquear-bolivia-si-la-fiscalia-lo-captura-3389757 3 Evo Morales, expresidente de Bolivia, amenaza ...
https://www.eltiempo.com/bogota/vehiculo-se-incendia-en-medio-de-la-carretera-en-fusagasuga-cundinamarca-bomberos-atienden-la-emergencia-3389756 7 El Cuerpo de Bomberos de Cundinamarca atendió ...
https://www.eltiempo.com/mundo/eeuu-y-canada/esta-es-la-edad-en-la-que-un-adulto-mayor-debe-dejar-de-conducir-harvard-3389502 6 Los accidentes automovilísticos están en aumen...
https://www.eltiempo.com/mundo/europa/morire-en-prision-escribio-en-sus-memorias-el-opositor-ruso-alexei-navalni-3389755 3 Alexei Navalni, opositor ruso al presidente Vl...
https://www.eltiempo.com/colombia/otras-ciudades/alcaldia-de-villa-de-leyva-en-boyaca-entrega-balance-tras-el-vendaval-de-ese-sabado-hay-12-personas-heridas-3389752 7 Un fuerte vendaval sorprendió a los habitantes...
... ... ...
https://www.eltiempo.com/mas-contenido/el-llamado-desde-el-sur-del-meta-3385783 5 El acuerdo de paz con las Farc ha permitido la...
https://www.eltiempo.com/mundo/medio-oriente/asi-localizo-israel-al-lider-de-hezbola-los-detalles-del-operativo-de-inteligencia-para-efectuar-el-bombardeo-aereo-3385781 7 El viernes, un bombardeo aéreo israelí eliminó...
https://www.eltiempo.com/mas-contenido/del-crudo-al-turismo-3385901 5 El tema central es la transición energética en...
https://www.eltiempo.com/mas-contenido/el-imponente-tesoro-verde-3385938 5 El Meta enfrenta la amenaza de deforestación, ...
https://www.eltiempo.com/mas-contenido/los-trinos-que-mejor-silban-en-la-sabana-3385940 1 El Topo Solano y José David Oropeza son dos de...

3551 rows × 2 columns

def get_text_sample_by_cluster(label_cluster, size_sample):
    """
    """
    df = df_review.query("cluster == @label_cluster").sample(size_sample)
    text_to_llm = df["summary"].to_list()
    text_to_llm = text_to_llm = "\n".join([f"Noticia {i+1}\n{news}\n" for i, news in enumerate(text_to_llm)])
    print(text_to_llm)
    return text_to_llm

print(get_text_sample_by_cluster(2, 30))
Noticia 1
La ciudad de Barranquilla y el Atlántico enfrentan intensas precipitaciones y tormentas eléctricas, con reportes de emergencias y rayos en diferentes sectores. Según Santiago Delgado, meteorólogo del Ideam, se registraron 309 rayos entre las 7 de la noche y las 6 de la mañana, con 195 tomando contacto con la tierra. Las lluvias y tormentas continuarán hasta el fin de semana, con probabilidad de precipitaciones moderadas en horas de la tarde para todo el departamento. En tanto, se emitió una alerta amarilla por deslizamientos en Repelón y otra naranja por tiempo lluvioso en el Caribe central.

Noticia 2
El video publicado en TikTok por @emilyautumnnn muestra a grullas canadienses emitiendo sonidos inmóviles antes del paso del huracán Milton por Florida, alimentando la teoría de que estas aves pueden predecir fenómenos climatológicos. En Florida se cree que las grullas advierten ante el paso de huracanes, aunque no existe evidencia científica que respalde esta afirmación. La teoría se ha extendido debido a videos virales previos, como uno en 2022 antes del huracán Ian, sugiriendo que ciertas aves podrían detectar infrasonidos generados por los huracanes.

Noticia 3
El huracán Milton tocó tierra en Florida causando graves daños y dejando a más de 3 millones de hogares sin electricidad. Power Outage reporta cortes en varios condados, con Hillsborough y Pinellas siendo los más afectados. Duke Energy advierte que la recuperación será lenta debido a las condiciones climáticas y pide paciencia a sus clientes. Las autoridades recomiendan precauciones alrededor de líneas eléctricas caídas y cables inundados para evitar accidentes.

Noticia 4
Una mujer decidió desafiar las recomendaciones oficiales y pasar el huracán Milton dentro de su camioneta en Campeche, México. A pesar del peligro, no sufrió daños ni lesiones. En Florida, el huracán causó cortes de electricidad a 3.3 millones de personas, con al menos una persona fallecida y el gobernador instando a la población a evitar tocar líneas caídas.

Noticia 5
El Servicio Meteorológico Nacional de Estados Unidos prevé una semana calurosa en California, con altas temperaturas en gran parte del estado. En San José, las máximas podrían alcanzar 101°F (38°C), mientras que Sacramento mantendrá temperaturas más frescas. En el sur, como San Diego, la temperatura máxima será de solo 78°F (26°C). Los Ángeles experimentará un regreso del calor con máximas de 89°F (32°C). Estas condiciones podrían afectar las actividades al aire libre y aumentar el consumo de energía.

Noticia 6
El huracán Milton, un fenómeno meteorológico extremo, avanza hacia la costa oeste de Florida, amenazando con vientos devastadores y marejadas ciclónicas. Tres colombianas residentes en la región describen cómo se preparan para el impacto inminente. La alcaldesa de Tampa ha advertido a los habitantes que deben evacuar si están en áreas peligrosas, subrayando las graves consecuencias potenciales. Las familias han tomado medidas preventivas, como cerrar ventanas y asegurarse de tener suministros básicos, pero la situación es preocupante debido a dos huracanes seguidos en un corto período.

Noticia 7
La Oficina de Aduanas y Protección Fronteriza (CBP) ha activado su protocolo para enfrentar el huracán Milton, que se acerca al Golfo de México. La CBP está monitoreando la situación y preparándose en colaboración con autoridades federales, estatales y locales. El protocolo incluye actividades de salvamento, evacuaciones seguras, mantenimiento del orden público y recuperación post-tormenta. Aunque Milton se espera que disminuya al tocar tierra en Florida, la CBP ha tomado medidas preventivas en puertos de entrada de Florida, Georgia y Carolina del Sur para proteger a los empleados y activos.

Noticia 8
El huracán Milton tocó tierra en la costa oeste de Florida, causando daños significativos, incluyendo el arrancamiento del techo del estadio Tropicana Field de los Tampa Bay Rays. El gobernador Ron DeSantis informó de al menos cuatro muertes por tornados y advirtió sobre inundaciones en varias ciudades. Milton ha dejado más de 3.3 millones de hogares sin electricidad, aunque su intensidad disminuyó antes del impacto. Las autoridades temen que el cambio climático aumente la frecuencia e intensidad de futuros huracanes en Florida.

Noticia 9
La Oficina de Aduanas y Protección Fronteriza de los EE.UU. (CBP) es responsable de los controles aeroportuarios, negando el ingreso a ciertas nacionalidades como Centroamérica, África, Oriente Medio y el Caribe. El Aeropuerto Internacional de Miami lidera en denegaciones, seguido por Fort Lauderdale y John F. Kennedy. Estas decisiones pueden variar según la política migratoria y las relaciones internacionales. CBP emplea a más de 60,000 personas y opera en aeropuertos, puertos y fronteras terrestres.

Noticia 10
El huracán Milton amenaza con tocar tierra como un ciclón de categoría 5, obligando a la evacuación en Florida. El Departamento de Bomberos advierte sobre el riesgo de incendios en vehículos eléctricos expuestos al agua salada, recordando incidentes previos durante huracanes Helene e Ian. Jimmy Patronis pide desplazar estos vehículos y desconectarlos para evitar peligros potenciales.

Noticia 11
La Oficina de Aduanas y Protección Fronteriza (CBP) intensificó las incautaciones de vehículos no cumplientes con las FMVSS en Norfolk, Virginia. Se confiscaron cinco carritos de golf, cuatro remolques y un scooter importados desde China. La CBP colabora con la NHTSA para asegurar que los vehículos cumplan con normas de seguridad. Los importadores deben estar registrados legalmente y los vehículos deben tener una etiqueta certificando su cumplimiento; violaciones son consideradas ilegales.

Noticia 12
El estudio del sitio Truck Parking Club revela que California registra una alta tasa de accidentes mortales en la conducción, con Victorville como la ciudad más peligrosa del estado. Según datos de la NHTSA, 4.428 personas murieron en accidentes de tráfico en California en 2022. Las ciudades de San Bernardino y Colton completan el podio de las más peligrosas, con tasas de accidentes mortales significativamente altas. La mayoría de estas ciudades tienen poblaciones menores a 50.000 habitantes y se encuentran alejadas de los centros urbanos principales del estado.

Noticia 13
Un raro fenómeno natural conocido como Steve iluminó los cielos del Reino Unido, distinguiéndose de las auroras boreales por su forma cinta luminosa. Aunque poco comprendido, se cree que Steve es causado por un flujo rápido de partículas calientes en la atmósfera. Este evento, documentado por científicos y ciudadanos, podría ayudar a mejorar el entendimiento del clima espacial. Las auroras boreales también fueron visibles en varias regiones del país debido a una intensa actividad solar reciente.

Noticia 14
El parque nacional Montañas de Guadalupe en Texas ofrece una variedad de actividades al aire libre, incluyendo campamentos, rutas panorámicas y senderismo. Fundado en 1972, el parque destaca por su acantilado "El Capitán" de 305 metros de altura. Las actividades disponibles incluyen tres tipos de campamento con comodidades variadas, rutas de auto turístico que ofrecen vistas panorámicas y senderos para caminatas de diferentes niveles de dificultad. Este destino atrae a aventureros buscando explorar la naturaleza en un entorno geológicamente significativo.

Noticia 15
El Centro Nacional de Huracanes emitió un aviso de tornados para partes del sur de Florida mientras el huracán Milton, de categoría 4, se acerca a la costa oeste. El gobierno instó a la población expuesta a evacuar si es necesario. Se espera que Milton impacte esta noche y cause inundaciones catastróficas en la península de Florida. La FEMA advirtió que el huracán será "catastrófico y mortal", mientras que el presidente Joe Biden pidió a los residentes evacuar rápidamente.

Noticia 16
California ha publicado una lista de los 10 mejores lugares para disfrutar las puestas de sol en la región, incluyendo el Observatorio Griffith, el letrero de Hollywood y el Parque Nacional de Yosemite. Estos destinos son populares entre turistas y locales. Visit California recomienda caminar hasta el letrero de Hollywood desde el Monte Lee, con tres senderos disponibles para los visitantes. Las puestas de sol en California son apreciadas por su belleza natural, convirtiéndose en un atractivo turístico importante.

Noticia 17
El huracán Milton, clasificado como categoría 4, se acerca a la costa oeste de Florida con vientos sostenidos cercanos a 250 km/h. La Administración Nacional Oceánica y Atmosférica (NOAA) ha advertido sobre marejadas ciclónicas en áreas costeras y prevé inundaciones significativas, especialmente en el norte y centro de la península. Las autoridades locales han ordenado evacuaciones y se espera que Milton toque tierra esta noche o temprano mañana. Se anticipa también condiciones de tormenta tropical y posibles tornados en gran parte del estado durante las próximas horas.

Noticia 18
La Administración Nacional Oceánica y Atmosférica (Noaa) ha emitido una alerta por una tormenta geomagnética este 10 y 11 de octubre, causada por un gran bólido solar que impactará la Tierra. Este fenómeno puede ocasionar interrupciones en servicios eléctricos y GPS, así como potenciar auroras boreales en regiones del sur de Estados Unidos. La Noaa ha advertido a centrales eléctricas y naves espaciales para que tomen precauciones. Las futuras misiones de la NASA podrían mejorar el monitoreo de estos eventos solares.

Noticia 19
Un eclipse solar anular será visible mañana en Argentina y Chile, mientras que Bolivia, Brasil, Uruguay y Ecuador podrán observarlo parcialmente. Este fenómeno ocurre cuando la Luna está en apogeo, lo que permite ver un 'anillo de fuego'. Los expertos explican que este tipo de eclipse solo puede ocurrir bajo ciertas condiciones astronómicas específicas. La anularidad máxima se alcanzará a las 13:45 (hora colombiana) en Argentina y Chile, durando más de tres horas en estos países.

Noticia 20
Disney cerrará sus parques temáticos en Orlando el 9 de octubre debido al huracán Milton, mientras otros complejos turísticos como Busch Gardens también se mantendrán cerrados hasta el sábado. El gobernador DeSantis informó que más de 80,000 personas fueron alojadas en refugios y que aún hay cerca de 3.1 millones sin electricidad. Aunque Milton no fue el peor escenario posible, las autoridades evalúan los daños causados por el huracán en Florida.

Noticia 21
Florida se prepara para una "mayor" evacuación desde 2017 ante la amenaza del huracán Milton, que ya es categoría 5 y se espera toque tierra en el área de Tampa. El presidente Biden aprobó una declaración de emergencia, mientras el gobernador DeSantis despliega recursos para proteger infraestructura crítica. Las evacuaciones podrían causar congestionamientos y colas por combustible. Milton amenaza con fuertes vientos y marejada ciclónica en la Bahía de Tampa, con un riesgo creciente a partir del miércoles.

Noticia 22
El huracán Milton tocó tierra en Florida, causando una impactante escena frente a un grupo de pescadores que ignoraron las alertas y salieron a mar abierto. En redes sociales se viralizó un video mostrando cómo la embarcación lucha contra fuertes vientos y olas. Afortunadamente, todos los tripulantes salieron ilesos. Las autoridades lograron comunicarse con ellos para cambiar de rumbo. El huracán continuará afectando la región, causando daños en infraestructura y obligando a la evacuación de poblaciones.

Noticia 23
El huracán Milton amenaza con tocar tierra en Florida después de la devastación causada por Helene, afectando una región aún en recuperación. Ernst Bontemps, un gastroenterólogo de Saint Petersburg, protege sus ventanas por segunda vez en menos de dos semanas, expresando su preocupación sobre la repetición de huracanes. Las autoridades ordenaron nuevas evacuaciones y prepararon medidas para mitigar el impacto del viento y las inundaciones. El zoo de Tampa también está tomando precauciones para proteger a sus animales durante la tormenta.

Noticia 24
El huracán Milton, de categoría 3, impactó Florida causando graves daños, incluyendo más de tres millones de hogares sin electricidad y inundaciones. El gobernador Ron DeSantis indicó que evaluará los daños a medida que avance el día. Se han reportado dos muertes en Fort Pierce y extensos daños regionales. La tormenta se aleja como un huracán de categoría 1, pero la región central aún experimenta vientos intensos y lluvias.

Noticia 25
Un Mercedes Benz C200 volcado paralizó la movilidad en la carrera 19 con calle 124. El vehículo, propiedad de Mina Capital SAS y conducido por Héctor Ricardo García Sacipa, ya tenía antecedentes de exceso de velocidad. Autoridades revisan cámaras para esclarecer el accidente, mientras García Sacipa asegura que fue un choque con un Nissan proveniente del concesionario.

Noticia 26
Un lujoso Porsche 718 Cayman Style edition, conducido por Geyi Castillo Ibáñez, empresaria vinculada al sector automotor, perdió el control sobre una zona pintada de paso ciclista y chocó contra un puente en Antioquia, causando un accidente que detuvo el tráfico. La conductora y su acompañante se encuentran bien. El vehículo será revisado para determinar si tuvo fallas mecánicas. Castillo Ibáñez ha tenido seis infracciones de tránsito desde mayo de 2022.

Noticia 27
La periodista de CBS News Miami rescató a un perrito llamado Benji, encontrado entre los escombros después del huracán Milton. La reportera Morgan Rynor y su equipo decidieron interrumpir su noticiero en vivo para ayudar al animal, que había estado perdido desde la noche anterior. Rynor compartió la historia de Benji en sus historias de Instagram, revelando más tarde que se trataba en realidad de una perrita de 14 años llamada Lulú. Las autoridades encontraron también a su hermana, una rottweiler. El rescate subrayó el impacto humano y animal del huracán en la comunidad de Fort Pierce, Florida.

Noticia 28
Una mujer embarcó sin tiquete en un vuelo Ryanair desde Copenhague a Pisa, causando preocupación sobre los protocolos de seguridad. La aerolínea y el aeropuerto danés están investigando el incidente y reforzando sus procedimientos. Lise Agerley Kürstein, de la aeródromo de Copenhague, afirmó que se trata de un error en la puerta de embarque. Ryanair atribuyó la situación a una falta de verificación del agente de asistencia.

Noticia 29
El huracán Milton, calificado como "catastrófico y mortal", amenaza Florida, donde se espera su llegada para la noche de este miércoles. Valentina Ahumada, una colombiana que vive en Tampa, cuida a pacientes hospitalizados mientras se prepara para el impacto del huracán. El presidente Joe Biden ha ofrecido apoyo federal y subrayado la gravedad de la situación. Muchas personas, incluyendo pacientes delicados, no han podido evacuar debido a la magnitud del evento. Meteorólogos prevén fuertes lluvias y riesgos de inundaciones, lo que podría prolongar los daños incluso después del huracán.

Noticia 30
El Servicio Meteorológico Nacional ha emitido alertas por inundaciones y ciclones tropicales en Florida debido a la llegada del huracán Milton. La agencia gubernamental recomienda revisar planes de emergencia y proteger hogares y familias. Se esperan lluvias excesivas y vientos fuertes durante toda la semana, con posibles inundaciones y tormentas en Miami, Orlando, Jacksonville y Tampa. Las temperaturas oscilarán entre 73°F y 80°F (23°C-27°C), mientras que las sensaciones térmicas serán similares.

Noticia 1
La ciudad de Barranquilla y el Atlántico enfrentan intensas precipitaciones y tormentas eléctricas, con reportes de emergencias y rayos en diferentes sectores. Según Santiago Delgado, meteorólogo del Ideam, se registraron 309 rayos entre las 7 de la noche y las 6 de la mañana, con 195 tomando contacto con la tierra. Las lluvias y tormentas continuarán hasta el fin de semana, con probabilidad de precipitaciones moderadas en horas de la tarde para todo el departamento. En tanto, se emitió una alerta amarilla por deslizamientos en Repelón y otra naranja por tiempo lluvioso en el Caribe central.

Noticia 2
El video publicado en TikTok por @emilyautumnnn muestra a grullas canadienses emitiendo sonidos inmóviles antes del paso del huracán Milton por Florida, alimentando la teoría de que estas aves pueden predecir fenómenos climatológicos. En Florida se cree que las grullas advierten ante el paso de huracanes, aunque no existe evidencia científica que respalde esta afirmación. La teoría se ha extendido debido a videos virales previos, como uno en 2022 antes del huracán Ian, sugiriendo que ciertas aves podrían detectar infrasonidos generados por los huracanes.

Noticia 3
El huracán Milton tocó tierra en Florida causando graves daños y dejando a más de 3 millones de hogares sin electricidad. Power Outage reporta cortes en varios condados, con Hillsborough y Pinellas siendo los más afectados. Duke Energy advierte que la recuperación será lenta debido a las condiciones climáticas y pide paciencia a sus clientes. Las autoridades recomiendan precauciones alrededor de líneas eléctricas caídas y cables inundados para evitar accidentes.

Noticia 4
Una mujer decidió desafiar las recomendaciones oficiales y pasar el huracán Milton dentro de su camioneta en Campeche, México. A pesar del peligro, no sufrió daños ni lesiones. En Florida, el huracán causó cortes de electricidad a 3.3 millones de personas, con al menos una persona fallecida y el gobernador instando a la población a evitar tocar líneas caídas.

Noticia 5
El Servicio Meteorológico Nacional de Estados Unidos prevé una semana calurosa en California, con altas temperaturas en gran parte del estado. En San José, las máximas podrían alcanzar 101°F (38°C), mientras que Sacramento mantendrá temperaturas más frescas. En el sur, como San Diego, la temperatura máxima será de solo 78°F (26°C). Los Ángeles experimentará un regreso del calor con máximas de 89°F (32°C). Estas condiciones podrían afectar las actividades al aire libre y aumentar el consumo de energía.

Noticia 6
El huracán Milton, un fenómeno meteorológico extremo, avanza hacia la costa oeste de Florida, amenazando con vientos devastadores y marejadas ciclónicas. Tres colombianas residentes en la región describen cómo se preparan para el impacto inminente. La alcaldesa de Tampa ha advertido a los habitantes que deben evacuar si están en áreas peligrosas, subrayando las graves consecuencias potenciales. Las familias han tomado medidas preventivas, como cerrar ventanas y asegurarse de tener suministros básicos, pero la situación es preocupante debido a dos huracanes seguidos en un corto período.

Noticia 7
La Oficina de Aduanas y Protección Fronteriza (CBP) ha activado su protocolo para enfrentar el huracán Milton, que se acerca al Golfo de México. La CBP está monitoreando la situación y preparándose en colaboración con autoridades federales, estatales y locales. El protocolo incluye actividades de salvamento, evacuaciones seguras, mantenimiento del orden público y recuperación post-tormenta. Aunque Milton se espera que disminuya al tocar tierra en Florida, la CBP ha tomado medidas preventivas en puertos de entrada de Florida, Georgia y Carolina del Sur para proteger a los empleados y activos.

Noticia 8
El huracán Milton tocó tierra en la costa oeste de Florida, causando daños significativos, incluyendo el arrancamiento del techo del estadio Tropicana Field de los Tampa Bay Rays. El gobernador Ron DeSantis informó de al menos cuatro muertes por tornados y advirtió sobre inundaciones en varias ciudades. Milton ha dejado más de 3.3 millones de hogares sin electricidad, aunque su intensidad disminuyó antes del impacto. Las autoridades temen que el cambio climático aumente la frecuencia e intensidad de futuros huracanes en Florida.

Noticia 9
La Oficina de Aduanas y Protección Fronteriza de los EE.UU. (CBP) es responsable de los controles aeroportuarios, negando el ingreso a ciertas nacionalidades como Centroamérica, África, Oriente Medio y el Caribe. El Aeropuerto Internacional de Miami lidera en denegaciones, seguido por Fort Lauderdale y John F. Kennedy. Estas decisiones pueden variar según la política migratoria y las relaciones internacionales. CBP emplea a más de 60,000 personas y opera en aeropuertos, puertos y fronteras terrestres.

Noticia 10
El huracán Milton amenaza con tocar tierra como un ciclón de categoría 5, obligando a la evacuación en Florida. El Departamento de Bomberos advierte sobre el riesgo de incendios en vehículos eléctricos expuestos al agua salada, recordando incidentes previos durante huracanes Helene e Ian. Jimmy Patronis pide desplazar estos vehículos y desconectarlos para evitar peligros potenciales.

Noticia 11
La Oficina de Aduanas y Protección Fronteriza (CBP) intensificó las incautaciones de vehículos no cumplientes con las FMVSS en Norfolk, Virginia. Se confiscaron cinco carritos de golf, cuatro remolques y un scooter importados desde China. La CBP colabora con la NHTSA para asegurar que los vehículos cumplan con normas de seguridad. Los importadores deben estar registrados legalmente y los vehículos deben tener una etiqueta certificando su cumplimiento; violaciones son consideradas ilegales.

Noticia 12
El estudio del sitio Truck Parking Club revela que California registra una alta tasa de accidentes mortales en la conducción, con Victorville como la ciudad más peligrosa del estado. Según datos de la NHTSA, 4.428 personas murieron en accidentes de tráfico en California en 2022. Las ciudades de San Bernardino y Colton completan el podio de las más peligrosas, con tasas de accidentes mortales significativamente altas. La mayoría de estas ciudades tienen poblaciones menores a 50.000 habitantes y se encuentran alejadas de los centros urbanos principales del estado.

Noticia 13
Un raro fenómeno natural conocido como Steve iluminó los cielos del Reino Unido, distinguiéndose de las auroras boreales por su forma cinta luminosa. Aunque poco comprendido, se cree que Steve es causado por un flujo rápido de partículas calientes en la atmósfera. Este evento, documentado por científicos y ciudadanos, podría ayudar a mejorar el entendimiento del clima espacial. Las auroras boreales también fueron visibles en varias regiones del país debido a una intensa actividad solar reciente.

Noticia 14
El parque nacional Montañas de Guadalupe en Texas ofrece una variedad de actividades al aire libre, incluyendo campamentos, rutas panorámicas y senderismo. Fundado en 1972, el parque destaca por su acantilado "El Capitán" de 305 metros de altura. Las actividades disponibles incluyen tres tipos de campamento con comodidades variadas, rutas de auto turístico que ofrecen vistas panorámicas y senderos para caminatas de diferentes niveles de dificultad. Este destino atrae a aventureros buscando explorar la naturaleza en un entorno geológicamente significativo.

Noticia 15
El Centro Nacional de Huracanes emitió un aviso de tornados para partes del sur de Florida mientras el huracán Milton, de categoría 4, se acerca a la costa oeste. El gobierno instó a la población expuesta a evacuar si es necesario. Se espera que Milton impacte esta noche y cause inundaciones catastróficas en la península de Florida. La FEMA advirtió que el huracán será "catastrófico y mortal", mientras que el presidente Joe Biden pidió a los residentes evacuar rápidamente.

Noticia 16
California ha publicado una lista de los 10 mejores lugares para disfrutar las puestas de sol en la región, incluyendo el Observatorio Griffith, el letrero de Hollywood y el Parque Nacional de Yosemite. Estos destinos son populares entre turistas y locales. Visit California recomienda caminar hasta el letrero de Hollywood desde el Monte Lee, con tres senderos disponibles para los visitantes. Las puestas de sol en California son apreciadas por su belleza natural, convirtiéndose en un atractivo turístico importante.

Noticia 17
El huracán Milton, clasificado como categoría 4, se acerca a la costa oeste de Florida con vientos sostenidos cercanos a 250 km/h. La Administración Nacional Oceánica y Atmosférica (NOAA) ha advertido sobre marejadas ciclónicas en áreas costeras y prevé inundaciones significativas, especialmente en el norte y centro de la península. Las autoridades locales han ordenado evacuaciones y se espera que Milton toque tierra esta noche o temprano mañana. Se anticipa también condiciones de tormenta tropical y posibles tornados en gran parte del estado durante las próximas horas.

Noticia 18
La Administración Nacional Oceánica y Atmosférica (Noaa) ha emitido una alerta por una tormenta geomagnética este 10 y 11 de octubre, causada por un gran bólido solar que impactará la Tierra. Este fenómeno puede ocasionar interrupciones en servicios eléctricos y GPS, así como potenciar auroras boreales en regiones del sur de Estados Unidos. La Noaa ha advertido a centrales eléctricas y naves espaciales para que tomen precauciones. Las futuras misiones de la NASA podrían mejorar el monitoreo de estos eventos solares.

Noticia 19
Un eclipse solar anular será visible mañana en Argentina y Chile, mientras que Bolivia, Brasil, Uruguay y Ecuador podrán observarlo parcialmente. Este fenómeno ocurre cuando la Luna está en apogeo, lo que permite ver un 'anillo de fuego'. Los expertos explican que este tipo de eclipse solo puede ocurrir bajo ciertas condiciones astronómicas específicas. La anularidad máxima se alcanzará a las 13:45 (hora colombiana) en Argentina y Chile, durando más de tres horas en estos países.

Noticia 20
Disney cerrará sus parques temáticos en Orlando el 9 de octubre debido al huracán Milton, mientras otros complejos turísticos como Busch Gardens también se mantendrán cerrados hasta el sábado. El gobernador DeSantis informó que más de 80,000 personas fueron alojadas en refugios y que aún hay cerca de 3.1 millones sin electricidad. Aunque Milton no fue el peor escenario posible, las autoridades evalúan los daños causados por el huracán en Florida.

Noticia 21
Florida se prepara para una "mayor" evacuación desde 2017 ante la amenaza del huracán Milton, que ya es categoría 5 y se espera toque tierra en el área de Tampa. El presidente Biden aprobó una declaración de emergencia, mientras el gobernador DeSantis despliega recursos para proteger infraestructura crítica. Las evacuaciones podrían causar congestionamientos y colas por combustible. Milton amenaza con fuertes vientos y marejada ciclónica en la Bahía de Tampa, con un riesgo creciente a partir del miércoles.

Noticia 22
El huracán Milton tocó tierra en Florida, causando una impactante escena frente a un grupo de pescadores que ignoraron las alertas y salieron a mar abierto. En redes sociales se viralizó un video mostrando cómo la embarcación lucha contra fuertes vientos y olas. Afortunadamente, todos los tripulantes salieron ilesos. Las autoridades lograron comunicarse con ellos para cambiar de rumbo. El huracán continuará afectando la región, causando daños en infraestructura y obligando a la evacuación de poblaciones.

Noticia 23
El huracán Milton amenaza con tocar tierra en Florida después de la devastación causada por Helene, afectando una región aún en recuperación. Ernst Bontemps, un gastroenterólogo de Saint Petersburg, protege sus ventanas por segunda vez en menos de dos semanas, expresando su preocupación sobre la repetición de huracanes. Las autoridades ordenaron nuevas evacuaciones y prepararon medidas para mitigar el impacto del viento y las inundaciones. El zoo de Tampa también está tomando precauciones para proteger a sus animales durante la tormenta.

Noticia 24
El huracán Milton, de categoría 3, impactó Florida causando graves daños, incluyendo más de tres millones de hogares sin electricidad y inundaciones. El gobernador Ron DeSantis indicó que evaluará los daños a medida que avance el día. Se han reportado dos muertes en Fort Pierce y extensos daños regionales. La tormenta se aleja como un huracán de categoría 1, pero la región central aún experimenta vientos intensos y lluvias.

Noticia 25
Un Mercedes Benz C200 volcado paralizó la movilidad en la carrera 19 con calle 124. El vehículo, propiedad de Mina Capital SAS y conducido por Héctor Ricardo García Sacipa, ya tenía antecedentes de exceso de velocidad. Autoridades revisan cámaras para esclarecer el accidente, mientras García Sacipa asegura que fue un choque con un Nissan proveniente del concesionario.

Noticia 26
Un lujoso Porsche 718 Cayman Style edition, conducido por Geyi Castillo Ibáñez, empresaria vinculada al sector automotor, perdió el control sobre una zona pintada de paso ciclista y chocó contra un puente en Antioquia, causando un accidente que detuvo el tráfico. La conductora y su acompañante se encuentran bien. El vehículo será revisado para determinar si tuvo fallas mecánicas. Castillo Ibáñez ha tenido seis infracciones de tránsito desde mayo de 2022.

Noticia 27
La periodista de CBS News Miami rescató a un perrito llamado Benji, encontrado entre los escombros después del huracán Milton. La reportera Morgan Rynor y su equipo decidieron interrumpir su noticiero en vivo para ayudar al animal, que había estado perdido desde la noche anterior. Rynor compartió la historia de Benji en sus historias de Instagram, revelando más tarde que se trataba en realidad de una perrita de 14 años llamada Lulú. Las autoridades encontraron también a su hermana, una rottweiler. El rescate subrayó el impacto humano y animal del huracán en la comunidad de Fort Pierce, Florida.

Noticia 28
Una mujer embarcó sin tiquete en un vuelo Ryanair desde Copenhague a Pisa, causando preocupación sobre los protocolos de seguridad. La aerolínea y el aeropuerto danés están investigando el incidente y reforzando sus procedimientos. Lise Agerley Kürstein, de la aeródromo de Copenhague, afirmó que se trata de un error en la puerta de embarque. Ryanair atribuyó la situación a una falta de verificación del agente de asistencia.

Noticia 29
El huracán Milton, calificado como "catastrófico y mortal", amenaza Florida, donde se espera su llegada para la noche de este miércoles. Valentina Ahumada, una colombiana que vive en Tampa, cuida a pacientes hospitalizados mientras se prepara para el impacto del huracán. El presidente Joe Biden ha ofrecido apoyo federal y subrayado la gravedad de la situación. Muchas personas, incluyendo pacientes delicados, no han podido evacuar debido a la magnitud del evento. Meteorólogos prevén fuertes lluvias y riesgos de inundaciones, lo que podría prolongar los daños incluso después del huracán.

Noticia 30
El Servicio Meteorológico Nacional ha emitido alertas por inundaciones y ciclones tropicales en Florida debido a la llegada del huracán Milton. La agencia gubernamental recomienda revisar planes de emergencia y proteger hogares y familias. Se esperan lluvias excesivas y vientos fuertes durante toda la semana, con posibles inundaciones y tormentas en Miami, Orlando, Jacksonville y Tampa. Las temperaturas oscilarán entre 73°F y 80°F (23°C-27°C), mientras que las sensaciones térmicas serán similares.
# Activar Ollama con el modelo qwen2.5:7b o con el que sea de su eleccion
# en este caso es recomendado uno mucho mas "capaz"
from langchain_ollama import ChatOllama
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import (
    ChatPromptTemplate,
    SystemMessagePromptTemplate,
    HumanMessagePromptTemplate
)

def get_topic_in_cluster(news: str, model_name: str = "qwen2.5:7b") -> str:

    llm_ollama = ChatOllama(
        model=model_name,
        temperature=0.1,
        num_predict=4096,
        num_ctx=16000,
        keep_alive=0
    )

    prompt_characterics = ChatPromptTemplate(
        [
            SystemMessagePromptTemplate.from_template(
                """Eres un asistente especializado en análisis de noticias y clustering semántico. Tu tarea es ayudar a identificar temas, """
                """palabras clave y subtemas dentro de grupos de resúmenes de noticias. Analizas los patrones comunes en los eventos, """
                """lugares, personas y palabras clave para proporcionar una descripción clara y precisa del tema principal de cada grupo """
                """de noticias. Además, eres capaz de detectar subtemas o enfoques recurrentes que puedan enriquecer el análisis."""
            ),
            HumanMessagePromptTemplate.from_template(
                """Los siguientes son resúmenes de noticias que han sido agrupados en un clúster debido a su similitud semántica. """
                """Tu tarea es analizar estos resúmenes y proporcionar una caracterización general del tema principal del clúster. """
                """Identifica patrones comunes en los eventos, lugares, personas y palabras clave mencionadas, y determina un título o """
                """categoría representativa que capture la esencia del clúster."""
                """Además, destaca si hay algún subtema relevante o recurrente que ayude a entender mejor el enfoque de las noticias en """
                """este grupo. Asegúrate de que la descripción sea clara y precisa para que refleje el contenido general de las noticias."""
                """Resúmenes de noticias en el clúster: {news}"""
                """Salida esperada:
                    Tema principal: Una breve descripción del tema general del clúster.
                    Palabras clave: Lista de palabras clave relevantes.
                    Subtemas (si los hay): Cualquier subtema adicional que aparezca en varios resúmenes.
                    Título sugerido: Un título breve que represente el clúster."""
                )
        ]
    )

    llm_chain = prompt_characterics | llm_ollama | StrOutputParser()

    return llm_chain.invoke({"news": news})
label_cluster = 1
print(f"Cluster con label: {label_cluster}\nNoticias de la muestra:\n")
news_summary = get_text_sample_by_cluster(label_cluster, 15)
print("\nRespuesta LLM:\n")
print(get_topic_in_cluster(news_summary))
Cluster con label: 1
Noticias de la muestra:

Noticia 1
Sumito Estévez, un reconocido chef venezolano, participó en el Congreso Gastronómico de Popayán, donde reflexionó sobre la influencia migratoria en la cocina. Como cocinero migrante que ha trabajado en Venezuela, Margarita, Chile y ahora Italia, Sumito destaca cómo estos procesos han enriquecido su visión humana y culinaria. Aunque el plato venezolano más popularizado es el tequeño, la cocina nacional corre riesgo de perder recetas debido a la pobreza. Sin embargo, la gastronomía migrante se adapta, creando nuevas interpretaciones que reflejan la solidaridad entre culturas.

Noticia 2
El tema central es el creciente interés por la carrera de veterinaria y la oferta laboral para profesionales en esta área. Según un informe del portal veterinaria.com, la demanda para estudiar veterinaria ha aumentado un 8,3% a pesar de una reducción del 3,27% en las plazas disponibles. Desde elempleo.com se ofrecen diversas posiciones como médicos y auxiliares veterinarios, promotores y docentes, incentivando la actualización de currículums para postularse.

Noticia 3
Netflix presenta una serie de estrenos variados para octubre, incluyendo documentales, series y películas. La serie "El Hoyo" regresa con una nueva temporada, mientras que "La máxima prueba" introduce a Kate Wyler en un thriller político británico. "Por la vida", dirigida por Hayao Miyazaki, llega ya disponible. Otros estrenos incluyen documentales sobre Simone Biles y Martha Stewart, así como series como "Argentina, 1985" y "La caza del ángel". Estos lanzamientos prometen diversidad temática y de géneros para los espectadores.

Noticia 4
DirecTV acordó comprar Dish Network por US$1, incluyendo asumir su deuda de US$9.750 millones. Este acuerdo, después de años de negociaciones, beneficiará a los consumidores al crear una competencia más fuerte en el mercado de video estadounidense. La fusión dará lugar a un servicio con 20 millones de suscriptores, aunque no se planean cambios inmediatos en las marcas existentes.

Noticia 5
El Festival Internacional de Artes Vivas de Bogotá presenta la obra 'Diptych: the missing door and the lost room' de Peeping Tom, una compañía belga dirigida por Gabriela Carrizo y Franck Chartier. La obra, que navega entre pasado, presente y futuro, se presentará en el Teatro Jorge Eliecer Gaitán del 7 al 9 de octubre. Chartier destaca la importancia de presentar esta obra en diferentes países debido a las actuales tendencias migratorias. La creación colectiva de Peeping Tom combina danza y teatro, explorando temas tabúes y el tiempo inverso.

Noticia 6
El escándalo que rodea al productor musical Sean "Diddy" Combs ha puesto bajo la lupa a Beyoncé Giselle Knowles-Carter, quien perdió más de 1'000.000 de seguidores en redes sociales. Diddy organizaba fiestas donde se sospecha que ocurrieron abusos y tráfico de drogas, y Beyoncé era frecuente allí. Su amistad con Combs la vincula directamente a las acusaciones. Las muertes misteriosas de Aaliyah y Left Eye también han sido relacionadas con el productor, aumentando la presión sobre Beyoncé.

Noticia 7
El uso de monedas nacionales antiguas refleja la independencia económica de los países. Monedas como la libra esterlina (775), dinar serbio (1214) o dólar estadounidense (1785) han circulado durante siglos, siendo símbolos de identidad y testigos de la historia económica de sus respectivos países. Estas monedas no solo son medios de intercambio, sino también reflejos de la fortaleza y evolución económica de cada nación a lo largo del tiempo.

Noticia 8
En mayo de 2024, los investigadores John Crowe y David O’Hare descubrieron varios objetos vikingos en una isla privada de Man, que fueron catalogados como un tesoro histórico por la forense Rebecca Cubbon. Este hallazgo, compuesto por 36 monedas de plata, será exhibido en el Museo de Manx hasta octubre y ofrece valiosas perspectivas sobre la economía vikinga. La descubierta es significativa para entender las transacciones comerciales en la región durante el siglo X. Manx National Heritage, encargada del patrimonio local, destaca que este tesoro mejora la comprensión de la presencia vikinga en la isla y su economía.

Noticia 9
Manuel Turizo celebrará su concierto gratuito durante la Hispanidad en Madrid, pero un incidente con la policía interrumpió su presentación callejera. La policía sancionó al cantante por falta de permisos para actuar en público, lo que generó controversia y comentarios en redes sociales sobre libertad artística. A pesar del contratiempo, Turizo continuará con su agenda y el evento sigue siendo un punto alto en la celebración hispana en España.

Noticia 10
El periodo de inscripción para la Lotería de Visas de Diversidad ha comenzado, beneficiando potencialmente a 55,000 personas. El Departamento de Estado recordó las reglas específicas, limitándose el programa a ciudadanos de países con bajo índice migratorio a Estados Unidos. Las autoridades advirtieron sobre fraudes comunes y reiteraron que el proceso es gratuito e independiente.

Noticia 11
El último modelo Cybertruck de Tesla ha sido retirado por quinta vez debido a problemas de visibilidad en su cámara trasera, lo cual aumenta los riesgos para los conductores. Tesla ha lanzado una actualización de software gratuita para solucionar el problema, y los propietarios afectados recibirán notificación a partir del 25 de noviembre. Este vehículo ya había sido objeto de múltiples retiros por diversas fallas desde su lanzamiento en 2023. Las consecuencias a largo plazo podrían incluir una pérdida de confianza en la marca y retrasos en las entregas para los propietarios afectados.

Noticia 12
El servicio de mensajería WhatsApp permite a los usuarios personalizar su aplicación con un "modo Harry Potter", aunque no es una versión oficial. Este cambio estético, posible gracias al launcher Nova Launcher, consiste en reemplazar el ícono de WhatsApp por una imagen alusiva a la saga del joven mago. Aunque no modifica las funcionalidades internas, esta opción puede atraer a fans de la franquicia. Los expertos señalan que este tipo de personalización es popular entre los usuarios y permite crear un diseño único en el teléfono. La noticia destaca cómo estas modificaciones pueden ser realizadas fácilmente siguiendo unos pocos pasos, aunque siempre se puede revertir el cambio si se desinstala Nova Launcher.

Noticia 13
Claudia Sheinbaum, la primera presidenta mujer de México, ha contraído matrimonio recientemente con Jesús María Tarriba, un físico especializado en riesgos financieros. Aunque su relación es nueva, surgió hace décadas y se reencontraron después de una separación. Este casamiento podría afectar el equilibrio entre su intensa vida pública y privada. Sheinbaum tiene dos hijos de otro matrimonio: María, académica e investigadora, y Rodrigo, destacado en el arte audiovisual. Su historia familiar contrasta con su meteórica carrera política.

Noticia 14
Gustavo Rojas, un influencer latino que emigró a Estados Unidos, recomienda a sus compatriotas asentarse en Aspen, Colorado, en lugar de ciudades como Miami o Nueva York. Según Rojas, Aspen ofrece salarios más altos y estabilidad laboral, aunque el clima extremo puede ser una desventaja. El gobierno local facilita la búsqueda de empleo y garantiza igualdad de oportunidades, con preferencia para veteranos.

Noticia 15
Durante cinco años, los condados de Dallas y Tarrant enviaron cuerpos no reclamados, principalmente latinos, al Centro de Ciencias de la Salud de la Universidad del Norte de Texas sin el consentimiento familiar. Más de 830 cuerpos fueron embalsamados y otros 1.520 cremados. El centro decidió paralizar su programa y despidió a los responsables, mientras que emitieron disculpas públicas. La situación afecta particularmente a la comunidad latina y ha causado conmoción entre las familias involucradas.


Respuesta LLM:
### Tema principal:
El clúster aborda diversos temas relacionados con la migración, la gastronomía y la cultura, así como eventos económicos y tecnológicos.

### Palabras clave:
- Migración
- Gastronomía
- Cultura
- Economía
- Tecnología
- Eventos culturales

### Subtemas (si los hay):
1. **Influencia migratoria en la cultura y gastronomía:** Noticias 1, 5, 14.
2. **Carrera profesional y oportunidades laborales:** Noticias 2, 9, 10.
3. **Eventos culturales y artísticos:** Noticias 3, 5, 7, 8, 13.

### Título sugerido:
**Diversidad Cultural y Oportunidades Laborales: Migración, Gastronomía y Eventos**

Esta caracterización refleja la variedad de temas presentes en el clúster, destacando la influencia migratoria, oportunidades laborales y eventos culturales.