Extraer el texto de la Wikipedia al completo

En este post os voy a enseñar como podéis descargaros la Wikipedia al completo y cómo extraer el texto de todos los artículos.

¿A quién le puede interesar?

  1. A cualquier persona que esté buscando una buena fuente de texto en Español
  2. A quien busque tener acceso a cualquier archivo de la Wikipedia offline para poder editarlo y/o hacer con él lo que quiera

Formas de hacerlo:

  1. Crearse un web crawler que descargue todos los html de cada una de los artículos de la Wikipedia.
  2. Descargarse los volcados de las bases de datos y hacer las operaciones offline

La primera forma está bien para aprender cómo hacer un web crawler y poder entender más en detalle las tags y cómo funciona en si Wikipedia. PERO si lo que buscas es descargarte toda la Wikipedia, esta opción no es recomendable por diversos motivos:

  1. El rastreo agresivo puede causar un dramático impacto en los tiempos de respuesta de Wikipedia y sobrecargar los servidores.
  2. Ganarás karma negativo
  3. El tiempo que vas a malgastar haciéndolo

Por lo tanto, el primer procedimiento NO ES LA FORMA CORRECTA DE HACERLO. Solo sirve para casos aislados o descarga de un numero bajo de artículos (¿quieres un número? Venga, 200 o menos)

Primer paso: Buscar en la base de datos de Wikipedia

Wikipedia es una fuente de información gratuita, y por tanto ofrece todo los recursos posibles para ayudar a la gente. Cada mes, los administradores de Wikipedia hacen un volcado de TODA la base de datos. Esto les sirve para ofrecer los datos a la gente, protegerse en caso de hecatombe. Estos volcados de datos, comúnmente denominados “dumps” se publican en Wikipedia y varios servidores espejos (para reducir la carga a un solo servidor, duplicidad, etc.). Es más, si tienes alojamiento de sobra, puede cooperar con ellos y colgar los dumps en tu servidor.

La página de descarga es la siguiente: https://dumps.wikimedia.org/backup-index.html

En caso de que queráis descargaros desde otro servidor espejo, buscad el que mejor os convenga aquí.

Seguimos, una vez en la página para la descarga de archivos, veréis una lista MUUUUUUY larga, parecida a esto:

  • 2018-04-14 22:31:06 dewiki: Dump in progress
  • 2018-04-07 17:28:46 in-progress All pages with complete page edit history (.bz2)
  • 2018-04-14 22:31:05: dewiki (ID 10784) 86456 pages (2.0|5191.6/sec all|curr), 1788000 revs (41.2|60.0/sec all|curr), 25.0%|25.0% prefetched (all|curr), ETA 2018-06-02 23:30:26 [max 176486829]
  • dewiki-20180401-pages-meta-history1.xml-p1p3341.bz2 4.4 GB (written)
  • dewiki-20180401-pages-meta-history1.xml-p3342p6321.bz2 3.9 GB (written)
  • dewiki-20180401-pages-meta-history1.xml-p6322p11609.bz2 3.3 GB (written)
  • 2018-04-14 21:20:22 wikidatawiki: Dump complete, 3 items failed
  • 2018-04-14 16:28:31 frwiki: Dump complete
  • 2018-04-13 23:05:37 commonswiki: Dump complete
  • 2018-04-13 17:49:02 mediawikiwiki: Dump in progress
  • 2018-04-13 14:06:48 in-progress history content of flow pages in xml format
  • 2018-04-13 11:59:23 eswiki: Dump complete
  • 2018-04-04 11:00:56 csbwiki: Dump complete
  • 2018-04-04 10:59:52 sswiki: Dump complete

Básicamente esa lista tiene dos funciones:

  1. Informar el estado del volcado de datos
  2. Link a los archivos pertinentes

Segundo paso: Identificando qué parte de la Wikipedia necesitas

Como todos bien deberíais saber, Wikipedia no es solo la enciclopedia, tiene todo un ecosistema:

Por ejemplo, para vuestro corpus es posible que no os interese wikispecies, ya que contiene mayoritariamente palabras científicas en latín que añadirían ruido.

Una vez identifiques que es lo que os interesa, pincháis en el link. Si os habéis dado cuenta, dado que lo que buscamos es la Wikipedia española, pues haciendo una busque (Ctrl + F o Cmd + F), si escribís: “eswiki” os van a salir todos los links.

Tercer paso: Dentro de la página de descarga de cada volcado de datos

Dentro de la página para la descarga de cada volcado, aparece bastante información interesante. Si tenéis tiempo y curiosidad, os recomiendo que le echéis un vistazo para ver como vuelcan la información paso a paso.

Yo no daré muchos más detalles aquí, por desconocimiento y falta de tiempo.

Lo qué buscamos

Busca los apartados con los artículos de la Wikipedia. Podéis hacer una búsqueda con el término de “pages-articles”. Como podéis observar, primero generan los artículos por lotes, y el siguiente paso los combina todos en un mismo archivo, ejemplo:

  • 2018-04-02 15:05:28 done Recombine articles, templates, media/file descriptions, and primary meta-pages.
  • eswiki-20180401-pages-articles.xml.bz2 2.6 GB
  • 2018-04-02 14:23:57 done Articles, templates, media/file descriptions, and primary meta-pages.
  • eswiki-20180401-pages-articles1.xml-p5p229076.bz2 277.9 MB
  • eswiki-20180401-pages-articles2.xml-p229079p1083449.bz2 421.1 MB

Una vez descargado el archivo, tan solo lo tenéis que descomprimir, y ¡voila! Ya tenéis descargados todos los archivos que componen la Wikipedia!

En un siguiente post hablaré como podéis extraer el texto de estos archivos, pero primero, ¡os reto a que lo intentéis solos!

Nota: Wikipedia nos informa que hay que leerse la información acerca del copyright. NO TODOS los datos pueden ser usados, publicados sin permiso. ¡Atentos!

by

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

*

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>