Este proyecto aborda el problema de la detección automática de la veracidad en declaraciones polÃticas utilizando el LIAR Dataset, un conjunto de afirmaciones públicas verificadas por PolitiFact. En un contexto de alta circulación de información y desinformación, desarrollar herramientas que permitan analizar la veracidad de afirmaciones resulta relevante para el análisis polÃtico y mediático.
El objetivo del trabajo es construir un modelo de clasificación capaz de predecir el nivel de veracidad de una declaración a partir de su contenido textual. Este proyecto se enmarca en la especialización en análisis de datos e inteligencia artificial, aplicando técnicas de procesamiento de lenguaje natural y aprendizaje automático.
La metodologÃa incluye análisis exploratorio del dataset, preprocesamiento del texto y representación mediante TF-IDF, seguido del entrenamiento y comparación de distintos modelos de clasificación. Los resultados muestran que Logistic Regression combinada con TF-IDF logra el mejor desempeño, evidenciando el potencial de las técnicas de NLP para la detección automática de información engañosa.