Skip to content

Latest commit

 

History

History
13 lines (9 loc) · 464 Bytes

README.md

File metadata and controls

13 lines (9 loc) · 464 Bytes
Script para sacar el texto de las noticias de wikinews en español

Versión primera, sin parametrizar. Toma el archivo dump en formato xml y se parsea utilizando re (regex) de Python para eliminar el markup innecesario y dejar sólo el texto plano.

Requerimientos
  • Archivo de noticias de wikinews(en formato xml) para ser parseado por el script.
  • Python 2.x
Enlaces

Dumps de wikinews en español