Gérer les nombres avec une notation scientifique dans Pentaho Data Integration

Dans le cas de figure d’un fichier .csv comportant des nombres ayant une notation scientifique (exemple : 7.8e-005), il est faut suivre les étapes suivantes pour pouvoir les utiliser correctement en tant que nombres :

  • paramétrer le typage du champs comme chaîne de caractère (« String ») dans le step d’extraction,
  • si besoin, remplacer le e minuscule par un E majuscule avec le step « Remplacer dans chaînes de caractères »,
  • utiliser l’onglet « Méta-données » du step « Altération structure flux » pour modifier le typage du champs en « Big Number ».

L’import dans une base PostgreSQL se déroule ensuite sans difficulté si le champs en base est typé comme double precision.

Sources :

Publicités

Intégrer des données JSON dans PDI

Sources :

Résoudre le problème de connexion à MySQL dans Pentaho Data Integration

Si le message d’erreur suivant s’affiche en cas de tentative de connexion à une base de données MySQL :

Exception while loading class org.gjt.mm.mysql.Driver

cela signifie que le driver ad hoc n’est pas installé dans Pentaho Data Integration (PDI)

Pour résoudre ce problème, il faut télécharger la dernière version du driver à cette adresse :

http://dev.mysql.com/downloads/connector/j/

et déposer le fichier .jar contenu dans l’archive dans le dossier data-integration\lib de votre installation de PDI.

Source :

Ressources : passer des paramètres et des variables dans Kettle

Sources :

Identifier les doublons dans une table avec GeoKettle

Pour identifier les enregistrements en double dans le flux de données dans GeoKettle, il faut au préalable trier les enregistrements sur le champ par lequel on compte déterminer les doublons, un identifiant par exemple (step « Tri lignes »).

On utilise ensuite le step « Déplacement dans flux » (dans le groupe Statistiques) pour ajouter au flux un nouveau champs récupérant sa valeur de l’enregistrement précédent, avec le paramétrage suivant :

analytic_query

Enfin, on intègre le step « Filtre de lignes » pour séparer les enregistrements pour lesquels les deux champs sont égaux des autres, avec le paramétrage suivant :

filter

La chaîne de traitement respecte au final l’ordre suivant :

transformation

Sources :

 

Installation de l’extension GIS dans dans Pentaho Data Integration 5.4

Extension GIS développée par Atol CD

Maven