Blog de Gonzalo

WEB SCRAPING

Hace un tiempo un compañero de trabajo me comentó que un amigo suyo tenía una web que recogía información de varias webs sobre resultados de fútbol. No le di importancia hasta wue en un blog leí sobre el web scraping y me acordé de lo que me contó este antiguo compañero.
La verdad es que no es nada complicado: Se trata de obtener el html de la web, o webs, de donde se quiere obtener la información y obtener dicha información.
Dicho html se puede obtener con una llamada curl o con la función de php file_get_contents, que aparte de obtener el contenido de un fichero obtiene el html de una página web.
El html se puede parsear con expresiones regulares o con DOM. Yo personalmente prefiero con DOM porque es más limpio. La única pega es que el html puede estar mal formado y no serviría.
Os pongo un ejemplo que obtiene la combinación del euromillones:


class Scrape {
// Declaring class variables and arrays
public $url;
public $source;
public $baseUrl;

private $parsedUrl = array();
// Construct method called on instantiation of object
function __construct($url) {
$this->url = $url; // Setting URL attribute
$this->source = $this->curlGet($this->url);
$this->xPathObj = $this->returnXpathObject($this->source);
$this->parsedUrl = parse_url($this->url);
$this->baseUrl = $this->parsedUrl['scheme'] . '://' . $this->parsedUrl['host'];
}
// Method for making a GET request using cURL
public function curlGet($url) {
$ch = curl_init(); // Initialising cURL session
// Setting cURL options
curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE); // Returning transfer as a string
curl_setopt($ch, CURLOPT_URL, $url); // Setting URL
$results = curl_exec($ch); // Executing cURL session
curl_close($ch); // Closing cURL session
return $results; // Return the results
}
// Method to return XPath object
public function returnXPathObject($item) {
$xmlPageDom = new DomDocument(); // Instantiating a new DomDocument object
@$xmlPageDom->loadHTML($item); // Loading the HTML fromdownloaded page
$xmlPageXPath = new DOMXPath($xmlPageDom); // Instantiatingnew XPath DOM object
return $xmlPageXPath; // Returning XPath object
}
}

Este código no lo explico demasiado ya que con este post solo quería explicar el concepto de lo que es el web scraping.
Un saludo y gracias.

Compartir en twitter