WebCijfers SEO

Screenshots maken met phantomJs

Screenshots maken met phantomJs

In SEO om 26-11:2015 door Arjen

Wanneer je geautomatiseerd screenshots wilt maken van een webpagina kun je daarvoor PhantomJS gebruiken. PhantomJS is eigenlijk een headless browser (dus het heeft geen schermmanager nodig om te draaien). PhantomJS is te gebruiken om een flink aantal taken te automatiseren zoals het draaien van tests en dus ook het maken van screenshots.

Problemen met PhantomJS

Er zijn een aantal issues waar je direct (of later) tegenaan loopt wanneer je PhantomJS wilt gaan gebruiken. Dit zijn de belangrijkste.

 • PhantomJS volgt geen redirects.
 • Veel ssl pagina's laden niet.
 • PhantomJS crasht.
 • PhantomJS crasht de webserver.
 • De afbeeldingen worden wel heel erg groot.

Hieronder laten wij jullie zien hoe je deze issues oplost.

Installatie van PhantomJS

Voor onze setup gebruiken we PhantomJS voor het maken van screenshots en een lichtgewicht webserver voor het tonen van de foto's. Als scripttaal gebruiken we php-fpm. voor het omzetten van de afbeeldingen gebruiken wij imagemagick.

installeer de onderdelen
apt-get install phantomjs php5-fpm nginx imagemagick

Een screenshot maken met PhantomJS

Als eerste gaan we onze eerste screenshot maken met PhantomJS. Het onderstaande script is een aanvulling op het standaard screenshot script van de PhantomJS website. Wij hebben een maximale executietijd van 15 seconden, volgen redirects en accepteren alle ssl cyphers om een screenshot te maken.

screenshot.js
  // deze variabelen hebben wij nodig var page; 
  var system = require('system');
  var myurl = system.args[1];
  var output = system.args[2];
  var screenwidth = 1900;
  var screenheight = 1200 // kijken of de aanroep correct is 
  if (system.args.length != 3) {
    console.log('Prutsertje :-) gebruik: screenshot.js url bestandsnaam');
    phantom.exit(1);
  } // PhantomJs mag er maximaal 15 seconden over doen 
  window.setTimeout(function() {
    phantom.exit();
  }, 15000);
  var maakScreenshot = function(url) {
    page = require('webpage').create();
    page.settings.resourceTimeout = 3000;
    page.onNavigationRequested = function(url, type, willNavigate, main) { // vang de redirect af 
      if (main && url != myurl) {
        // nieuwe url 
        myurl = url;
        // belangrijk, sluit de pagina 
        page.close(); // maak een neiuwe screenshot 
        maakScreenshot(url);
      }
    }; // open de pagina 
    page.open(url, function(status) { // pagina is klaar 
      if (status === "success") { // zet de viewport grootte 
        page.viewportSize = {
          width: screenwidth,
          height: screenheight
        };
        page.clipRect = {
          top: 0,
          left: 0,
          width: screenwidth,
          height: screenheight
        }; // maak een screenshot 
        page.render('/Screenshots/cache/' + output + '-f.png');
        phantom.exit(0);
      } else { // er is eits fout gegaan 
        phantom.exit(1);
      }
    });
  }
  maakScreenshot(myurl);

Maak nu jouw eerste screenshot. Sla de bovenstaande code op als screenshot.js. Let op dat je --ssl-protocol=any toevoegt aan de aanroep.

phantomjs --ssl-protocol=any ./screenshot.js http://www.webcijfers.nl wwwwebcijfersnl

Automatiseer de screenshots

Om de screenshots direct vanaf een webserver te laten zien maken we gebruik van de webserver nginx, de programeertaal php en imagemagick (convert).

screenshot.php
<?php

// png header, exires max
header ( 'Content-Type: image/png' );
header ( 'Expires: ' . gmdate ( 'D, d M Y H:i:s GMT', time () + 3600 * 24 * 31 * 365 ) );

// url en naam van de afbeelding
$sUrl = $_GET ['url'];
$sName = preg_replace ( "/[^A-Za-z0-9 ]/", '', $sUrl ).'.png';

// indien url niet met http(s) begint, probeer dan http://
if(substr($sUrl, 0,5) != 'http'){
  $sUrl = 'http://'.$sUrl;
}; 

// PhantomJS aanroepen
shell_exec ('phantomjs --ssl-protocol=any /Screenshots/cache/screenshot.js ' . escapeshellcmd ( $sUrl . ' ' . $sName ) );

// Als de screenshot bestaat
if (file_exists ( '/Screenshots/cache/' . $sName . '-f.png' )) {
  // Converteren naar een kleiner formaat
  shell_exec ( 'convert /Screenshots/cache/' . $sName . ' -resize 370x230 //Screenshots/cache/' . $sName );
  // Laat de screenshot zien
  echo readfile ( '/Screenshots/cache/' . $sName . '-f.png' );
} else {
  // lege pixel
  echo base64_decode ( 'iVBORw0KGgoAAAANSUhEUgAAAAEAAAABAQMAAAAl21bKAAAAA1BMVEUAAACnej3aAAAAAXRSTlMAQObYZgAAAApJREFUCNdjYAAAAAIAAeIhvDMAAAAASUVORK5CYII=' );
}?>

NginX Configuratie

NginX is een lichtgewicht webserver die prima geschikt is voor deze taak. De configuratie is simpel. Maak een bestand aan in /etc/nginx/sites-enabled/ met de volgende inhoud. Herstart hierna de webserver (service nginx restart).

/etc/nginx/sites-enabled/screenshot
server { listen 80; server_name screenshot.website.nl; 
location / { 
  include fastcgi_params; 
  fastcgi_pass 127.0.0.1:9000; 
  fastcgi_index index.php; 
  fastcgi_param SCRIPT_FILENAME /Screenshot/screenshot.php;
  } 
}

Php-fpm configuratie

Het probleem met deze setup is dat er in korte tijd veel php processen kunnen worden opgestart die relatief lang uitgevoerd worden. Daarom configureren we php-fpm 'ondemand'. Hiermee voorkom je dat er een te grote rij ontstaat waardoor processen een time-out krijgen. Je kunt altijd met deze variabelen spelen. Vergeet niet php5-fpm te herstarten (service php5-fom restart).

  pm = ondemand 
  pm.max_children = 15 
  pm.start_servers = 3 
  pm.min_spare_servers = 3 
  pm.max_spare_servers = 8 
  pm.max_requests = 500
wenbiq mijngereedschapskist leadbuilders krl media seo consultant brandfirm seo goeiezaak doublesmart online marketing bsetmedia begreat