Apache Spark klaszter RStudio stack-el

Az Apache Spark egy gyors és általános célú klaszter keretrendszer. Magas szintű API-kat biztosít Java, Scala, Python és R programnyelvekhez. Továbbá számos magas szintű eszközt támogat, többet között a Spark SQL-t a strukturált adatfeldolgozáshoz, MLlib-et a gépi tanuláshoz, GraphX-et a gráf feldolgozáshoz, és Spark Streaming-et a nagy mennyiségű adatok valós idejű feldolgozásához. További információkért látogasson el az Apache Spark hivatalos weboldalára.

Az Apache Spark klaszter a HDFS-el (Hadoop Distributed File System) együtt a Big Data és a a gépi tanulási alkalmazások egyik legfontosabb eszköze, amely lehetővé teszi a nagy adatállományok párhuzamos feldolgozását több virtuális gépen, amelyek a Spark Workerek. Azonban, egy Spark klaszter létrehozása a HDFS-el a felhőben nem egyszerű, a felhő rendszerek és az Apache Spark architektúrájának mély ismeretét igényli. Azért, hogy a kutatókat megóvjuk ettől a munkától, létrehoztuk és közzétettük azokat a szükséges infrastruktúra leírókat, amelyek segítségével az Occopus automatikusan építi a Spark klasztert, a felhasználó által megadott Workerek számával. A Big Data technológiák egyik legjellemzőbb alkalmazási területe a statisztikai adatfeldolgozás, amelyet általában az R programozási nyelv végez. A Sparkot felhőn használó statisztikusok munkájának megkönnyítése érdekében létrehoztunk egy kiterjesztett változatot a Spark infrastruktúra leírókról, amely esetében a Spark Workereken a sparklyr könyvtár is elérhető. Végül integráltuk a felhasználóbarát RStudio felületet. Ennek eredményeként a statisztikai R csomagot használó kutatók könnyen és gyorsan telepíthetnek egy teljes R-orientált Spark fürtöt a felhőkre amelyek a következő összetevőket tartalmazzák: RStudio, R, sparklyr, Spark és HDFS.

Ez a bemutató egy teljes Apache Spark infrastruktúrának a kiépítését mutatja be az Occopus orkesztrációs eszköz használatával, amely integrálva van a HDFS, R, RStudio és sparklyr rendszerekkel. Tartalmaz egy Spark Master csomópontot és Spark Worker csomópontokat, amelyek számát felfelé vagy lefelé lehet skálázni. Apache Spark keretrendszer többféle tárolási megoldást is támogat (HDFS, Kafka, Flume, Kinesis, HBase, Cassandra, MySQL, MongoDB, PostgreSQL, stb.). Az alábbi referencia architektúra a HDFS tárolási rendszert integrálja a Sparkhoz. Lehetőség van Kafka integrációra is, melyet a felhasználó elkészíthet magának a Kafka klaszter leírás alapján vagy támogatásért kérjen segítséget a kommunikációs csatornák egyikén.