Oracle big data SQL, le chaînon manquant ?

La sortie récente de la version 3.0 du produit Big Data SQL d’Oracle constitue une nouvelle plus qu’intéressante si vous êtes un client Oracle Database et que vous avez un projet de déploiement de cluster Hadoop dans vos perspectives (ou même si vous avez déjà ce type de configuration).

En effet, les nouvelles fonctionnalités et l’ouverture de cette version vont vous permettre un accès unifié à vos données, qu’elles soient stockées dans votre base de données relationnelle (Oracle) ou dans un cluster Hadoop.

Petit rappel pour ceux qui ne sont pas familiers de Hadoop : si le framework est excellent pour stocker et accéder facilement à de grandes quantités de données, son utilisation pour du requêtage nécessite des outils tiers, l’écriture de procédures de type Map/Reduce n’étant pas triviale.

D’où l’apparition d’outils facilitant ce requêtage, on peut citer Pig, mais surtout Hive qui offre une interface SQL pour accéder aux données stockées dans un cluster Hadoop. Les choses se compliquent si l’on considère que les principaux fournisseurs de frameworks Hadoop (Cloudera et Hortonworks) développent chacun leur propres outil pour remplacer/compléter Hive (respectivement Impala et Stinger), sans compter les autres initiatives parallèles (Tajo, Presto, …). Pour celui qui souhaite investir à long terme sur une technologie et des outils de requêtage SQL sur cluster Hadoop, le choix devient cornélien ….

Par ailleurs le SQL implémenté dans ces différents outils reste basique et très loin des fonctionnalités implémentées dans Oracle (pas de fonctions analytiques, …).

Enfin, la gestion des droits d’accès et de la sécurité peut vite devenir un casse-tête.

D’où Oracle Big Data SQL.

Le principe ?

Requêter les données stockées dans le cluster Hadoop en SQL directement depuis la base Oracle.

Dans le détail cela conduit à créer dans la base Oracle des tables externes d’un nouveau type pointant sur les fichiers stockés sur le cluster Hadoop.

Ces tables externes sont ensuite interrogeables en SQL directement depuis la base, avec toute la richesse du SQL implémenté dans Oracle, et avec une gestion de la sécurité similaire à celle de tables ‘normales’ (VPD, Data redaction, … )

Plus bien évidemment les possibilités de jointure, d’utilisation de fonctions, …

Originellement cette offre n’était accessible que si vous possédiez 1 Exadata et 1 appliance Big Data, donc une configuration pas adaptée à tout le monde (en tout cas pas à tous les budgets J).

Avec la version 3.0 les possibilités d’utilisation sont étendues aux configurations suivantes :

– Oracle Database 12c sous Linux

– Cluster Hadoop Cloudera ou Hortonworks (toujours sous linux)

Soit une grande majorité des configurations existantes.

Ainsi Oracle Big Data SQL peut constituer le chaînon manquant entre le monde relationnel et le monde Hadoop, vous permettant d’interroger de manière unifiée l’ensemble de vos données, où qu’elles soient stockées, et ainsi obtenir le meilleur des deux mondes…

N’hésitez pas à nous contacter pour plus de détails si le sujet vous intéresse !

Suivez-nous aussi sur nos comptes Twitter, Viadeo et LinkedIn