La semaine dernière, Oracle a annoncé qu’il livrerait au 3ème trimestre 2014, une fonction d’accès en SQL aux bases de données Hadoop et NoSQL. De quoi redonner le sourire aux professionnels des bases de données relationnelles lorsqu’il leur faudra interroger des sources de données Hadoop et NoSQL.
Démocratiser le Big Data
Oracle parle d’ailleurs de démocratiser le Big Data, et de ne pas devoir embaucher un diplômé d’un doctorat pour faire fonctionner la machine. La fonction s’intitule Oracle Big Data SQL. Elle sera livrée sur l’appliance Big Data d’Oracle.
L’objectif est d’amener les professionnels des bases de données relationnelles, et des commandes Oracle en particulier, à tirer le meilleur parti des nouvelles sources de données. L’outil n’est pas là pour remplacer des outils de requête tels que Hive ou Impala. Il fonctionne uniquement sur l’appliance Big Data d’Oracle.
Compatibilité Oracle uniquement
On ne peut pas l’employer sur d’autres sources de données Hadoop, a indiqué Oracle à InformationWeek. L’appliance Big Data d’Oracle utilise la distribution Cloudera d’Hadoop. De même, la fonction n’est utilisable qu’avec la base de données NoSQL d’Oracle, embarquée dans la même appliance. Cependant, dans ce cadre, l’outil pourrait être ouvert à d’autres produits non Oracle tels que Cassandra, Hbase et MongoDB.
La fonction Big Data SQL va utiliser le service Smart Scan, qui analyse les données au niveau du disque, et permet de ne remonter que l’information nécessaire, ce qui accélère les traitements. Big Data SQL va fonctionner sur Hadoop en exploitant les méta données créées par Hive. Cela permettra de ne déplacer que les bonnes données depuis Hadoop vers la base Oracle.
Corréler Twitter avec les transactions financières
L’exemple d’usage présenté par Oracle et cité par InformationWeek consiste à corréler les données issues de twitter avec les transactions de clients présentes dans une base de données Oracle. Le smart scan élimine les tweets dans lesquels aucun sentiment n’est réellement discernable, ce qui représente la moitié des données, puis a éliminé les tweets pour lesquels il manquait les informations de géo-localisation, latitude et longitude.
Le sous ensemble conservé représentait moins de 1% des données d’origine stockées dans Hadoop. De quoi réduire de 99% le mouvement des données vers la base Oracle. Le tout a été réalisé par une seule requête SQL. Le résultat final est une carte représentant la profitabilité selon le lieu corrélée avec le sentiment. L’outil d’Oracle permet d’interroger simultanément plusieurs sources de données : une base Oracle, Hadoop et NoSQL.
Illustration, le diable s’habille en Prada (film).