Résoudre le problème de connexion à MySQL dans Pentaho Data Integration

Si le message d’erreur suivant s’affiche en cas de tentative de connexion à une base de données MySQL :

Exception while loading class org.gjt.mm.mysql.Driver

cela signifie que le driver ad hoc n’est pas installé dans Pentaho Data Integration (PDI)

Pour résoudre ce problème, il faut télécharger la dernière version du driver à cette adresse :

http://dev.mysql.com/downloads/connector/j/

et déposer le fichier .jar contenu dans l’archive dans le dossier data-integration\lib de votre installation de PDI.

Source :

Ressources : passer des paramètres et des variables dans Kettle

Sources :

Identifier les doublons dans une table avec GeoKettle

Pour identifier les enregistrements en double dans le flux de données dans GeoKettle, il faut au préalable trier les enregistrements sur le champ par lequel on compte déterminer les doublons, un identifiant par exemple (step « Tri lignes »).

On utilise ensuite le step « Déplacement dans flux » (dans le groupe Statistiques) pour ajouter au flux un nouveau champs récupérant sa valeur de l’enregistrement précédent, avec le paramétrage suivant :

analytic_query

Enfin, on intègre le step « Filtre de lignes » pour séparer les enregistrements pour lesquels les deux champs sont égaux des autres, avec le paramétrage suivant :

filter

La chaîne de traitement respecte au final l’ordre suivant :

transformation

Sources :

 

Installation de l’extension GIS dans dans Pentaho Data Integration 5.4

Extension GIS développée par Atol CD

Maven

Correspondance des steps entre anglais et français dans GeoKettle

La documentation de Geokettle étant rédigée en anglais, il est essentiel de connaître la correspondance des noms des steps avec le français.

N’ayant pas trouvé de tableau de correspondance, je me résous à en créer un sous forme de work in progress

Category Name Catégorie Nom
Data Warehouse Combination lookup/update Entrepôt de données Mise à jour dimension junk
Data Warehouse Dimension lookup/update Entrepôt de données Dimension à variation lente
Joins Join Rows (cartesian product) Jointure lignes Produit cartésien
Joins Merge Join Jointure lignes Jointure comparaison lignes
Joins Merge rows (diff) Jointure lignes Comparaison lignes
Joins Sorted Merge Jointure lignes Comparaison triée lignes
Scripting Formula Exécution de scripts Calculateur
Statistics Analytic Query Statistiques Déplacement dans flux
Statistics Group By Statistiques Agrégation valeurs
Transform Add sequence Transformation Ajout séquence
Transform Calculator Transformation Calcul
Transform Select Values Transformation Altération structure flux

Sources :

Calcul Vs. Calculateur dans Geokettle

La traduction française de GeoKettle peut parfois prêter à confusion : ainsi le step « Calculator » est nommé « Calcul » en français et le step « Formula » est quant à lui traduit par « Calculateur« . Ceci rend la bonne page du manuel difficile à identifier !

Documentation :

NB : dans le step « Formula« , entourer les noms de champs de crochets […] pour éviter les messages d’erreur.