Resumen:
La presente investigación provee de un prototipo de software para la clasificación automática de textos cortos por género y grupo etario que ha sido aplicado a la red social Twitter. Este prototipo hace uso del Aprendizaje de Máquina para entrenar un sistema clasificador a partir de características estilísticas, con la intención de hacerlo lo más independiente del idioma. Cabe señalar que un proceso de re-etiquetado denominado Normalización dinámica dependiente del contexto se lleva a cabo con la intención de aprovechar los elementos sintácticos propios de la red social.
Los resultados obtenidos son mostrados primeramente a partir de un grupo de datos provistos por los organizadores del concurso PAN2015; posteriormente una comparación entre la presente propuesta y las otras siete mejores propuestas es realizada a partir de los resultados oficiales liberados por los organizadores.
Se realizaron pruebas en los siguientes idiomas: español, inglés, italiano y holandés, siendo el italiano el que mejores resultados mostró e inglés el que obtuvo un rendimiento menor.
A partir de los resultados obtenidos, es posible concluir que es de gran importancia mantener toda la información que la red social pueda proveer, pues las características de los textos que presentan las redes sociales difieren en gran medida con las características de los textos de longitud amplia, por lo que es necesario buscar elementos extras que puedan ayudar a caracterizarlos de mejor forma.
Descripción:
La presente investigación provee de un prototipo de software para la clasificación automática de textos cortos por género y grupo etario que ha sido aplicado a la red social Twitter. Este prototipo hace uso del Aprendizaje de Máquina para entrenar un sistema clasificador a partir de características estilísticas, con la intención de hacerlo lo más independiente del idioma. Cabe señalar que un proceso de re-etiquetado denominado Normalización dinámica dependiente del contexto se lleva a cabo con la intención de aprovechar los elementos sintácticos propios de la red social.
Los resultados obtenidos son mostrados primeramente a partir de un grupo de datos provistos por los organizadores del concurso PAN2015; posteriormente una comparación entre la presente propuesta y las otras siete mejores propuestas es realizada a partir de los resultados oficiales liberados por los organizadores.
Se realizaron pruebas en los siguientes idiomas: español, inglés, italiano y holandés, siendo el italiano el que mejores resultados mostró e inglés el que obtuvo un rendimiento menor.
A partir de los resultados obtenidos, es posible concluir que es de gran importancia mantener toda la información que la red social pueda proveer, pues las características de los textos que presentan las redes sociales difieren en gran medida con las características de los textos de longitud amplia, por lo que es necesario buscar elementos extras que puedan ayudar a caracterizarlos de mejor forma.