Morzsák

Header

Oldal címe

Apache Spark klaszter

Címlapos tartalom

A referencia architektúra egy Apache Spark klaszter infratstruktúrát hoz létre, amely integrálva van a HDFS elosztott tárolási megoldással, valamint opcionálisan telepítésre kerülhet több fejlesztői környezet (Python, R) is.

Ez a bemutató áttekintés ad arról, hogy hogyan lehet létrehozni egy skálázható Apache Spark infrastruktúrát az Terraform eszköz segítségével. Az Apache Spark egy gyors és általános célú klaszter keretrendszer. Magas szintű API-kat biztosít Java, Scala, Python és R programnyelvekhez. Továbbá számos magas szintű eszközt támogat, többet között a Spark SQL-t a strukturált adatfeldolgozáshoz, MLlib-et a gépi tanuláshoz, GraphX-et a gráf feldolgozáshoz, és Spark Streaming-et a nagy mennyiségű adatok valós idejű feldolgozásához. További információkért látogasson el az Apache Spark hivatalos weboldalára.

Az Apache Spark klaszter a HDFS-el (Hadoop Distributed File System) együtt a Big Data és a a gépi tanulási alkalmazások egyik legfontosabb eszköze, amely lehetővé teszi a nagy adatállományok párhuzamos feldolgozását több virtuális gépen. Azonban, egy Spark klaszter létrehozása a HDFS-el a felhőben nem egyszerű, a felhő rendszerek és az Apache Spark architektúrájának mély ismeretét igényli. Azért, hogy a kutatókat megóvjuk ettől a munkától, létrehoztuk és közzétettük azokat a szükséges infrastruktúra leírókat, amelyek segítségével az Terraform automatikusan elindítja a Spark klasztert, a felhasználó által megadott erőforrásokkal. A Spark egy "MLlib" nevű speciális könyvtárat biztosít a gépi tanulási alkalmazások támogatására. Hasonlóképpen, az R-orientált Spark környezethez, kifejlesztettük az infrastruktúra-leírókat a gépi tanulási környezet létrehozásához a felhőben.

A referencia architektúra paraméterek beállításával elérhető Python és R stackkel, melyről a használati utasításban olvashat többet a felhasználó. A környezet az alábbi komponensekből tevődik össze:

  • Python stack esetén: Jupyter, Python, PySpark és HDFS
  • R stack esetén: R:base, RStudio és sparklyr

Apache Spark keretrendszer többféle tárolási megoldást is támogat (HDFS, Kafka, Flume, Kinesis, HBase, Cassandra, MySQL, MongoDB, PostgreSQL, stb.). Az általunk készített referencia architektúra a HDFS tárolási rendszert integrálja a Sparkhoz, de egyszerűen személyre szabható egyéb megoldásra is (pl. Kafka), melyet a felhasználó elkészíthet magának a Kafka klaszter leírás alapján vagy támogatásért forduljon hozzánk a kommunikációs csatornák egyikén.