Hình 2.7. Cơ chế hoạt động của Spark

from Phân tích hành vi sử dụng dịch vụ viễn thông của khách hàng dựa trên thuật toán phân cụm đưa ra chín

Hình 4.8. So sánh tỷ lệ triển khai thực tế TG và MHO

Cung cấp khả năng tính toán trên bộ nhớ RAM và cả bộ dữ liệu tham chiếu trong các hệ thống cho phép mở rộng bộ nhớ vật lý (external storage).

Spark SQL: là một thành phần nằm trên Spark Core, giới thiệu một khái niệm trừu tượng hóa dữ liệu mới gọi là SchemaRDD, cung cấp hỗ trợ cho dữ liệu có cấu trúc và bán cấu trúc.

Spark Streaming: tận dụng khả năng lập lịch memory-base của Spark Core để thực hiện streaming analytics. Nó lấy dữliệu theo mini-batches và thực hiện các phép biến đổi RDD (Bộ dữ liệu phân tán có khả năng phục hồi) trên các mini-batches dữ liệu đó. MLlib (Machine Learning Library): là một framework machine learning phân tán trên Spark tận dụng khả năng tính toán tốc độ cao nhờ distributed memory-based của kiến trúc Spark.

GraphX: là một framework xử lý đồ thị phân tán. Nó cung cấp một API để thực hiện tính toán biểu đồ có thể mô hình hóa các biểu đồ do người dùng xác định bằng cách sử dụng API đã được tối ưu sẵn.

Hoạt động

Hình 2.7. Cơ chế hoạt động của Spark

Chương trình Spark chạy như một bô process độc lập trên mỗi cluster. Các process này được điều khiển bởi SparkContext trong chương trình điều khiển (Driver program), được thể hiện trong Hình 2.7. SparkContext sẽ kết nối với một số loại Cluster Manager (các trình quản lý cụm chạy standalone của Spark hoặc YARN hoặc MESOS) trình quản lý việc phân bố tài nguyên cho các ứng dụng để xác định các nút sẽ làm việc. Sau đó, Spark sẽ kết nối tới một số 23

Executor trên các nút này (thực chất là các tiến trình chạy các tác vụ tính toán, lưu trữ dữ liệu cho ứng dụng), sau đó sẽ gửi mã của ứng dụng (được gửi từ SparkContext) tới các Executor này. Cuối cùng SparkContext sẽ gửi các tác vụ tới các Executor để chạy.

Ưu điểm:

Mỗi ứng dụng sẽ được chạy trong một executor riêng biệt, các tác vụ sẽ được chạy đa luồng multithread. Các task của các ứng dụng khác nhau sẽ được chạy trong các JVM khác nhau, tách biệt được việc lập lịch chạy ứng dụng và việc thực thi ứng dụng. Nhược điểm ở đây là dữ liệu của các ứng dụng khác nhau không được chia sẻ trừ khi ghi vào một bộ nhớ bên ngoài.

Spark độc lập với các trình quản lý cụm (chỉ cần nó có thể liên hệ được với tiến trình executor), có thể tích hợp được với nhiều trình quản lý cụm khác nhau (YARN, MESOS …).

Các trình điều khiển lập lịch được đặt trên các cụm được đặt trong cùng mạng LAN với các Nút (Nodes), giúp cho quá trình điều khiển sẽ nhanh và tin cậy hơn.

d. Các cơ chế quản lý cụm mà Spark hỗ trợ:

Theo [26], các cơ chế quản lý cụm dữ liệu sẽ có một số cơ chế như sau: Standalone – cơ chế quản lý cụm đơn giản được tích hợp ngay trong chính Spark.

Apache Mesos – cơ chế quản lý cụm cơ bản hỗ trợ chạy Spark, Hadoop MapReduce và các ứng dụng giao tiếp ngầm.

Hadoop YARN – quản lý tài nguyên trên Hadoop.

e. Spark vs Hadoop MapReduce

Theo [27], Về cơ chế hoạt động của Map-Reduce: dữ liệu đầu vào được đọc từ HDFS (ứng dụng phụ trách việc lưu trữ trong Hadoop), xử lý bằng các thao tác chỉ định, dữ liệu đầu ra được ghi vào HDFS, dữ liệu tiếp tục được đưa lên, thao tác tiếp theo được thực hiện, dữ liệu đầu ra tiếp tục ghi vào HDFS … chuỗi các bước [đọc - xử lý - ghi] đó được lặp cho đến khi hoàn thành tác vụ.

Hình 2.7. Cơ chế hoạt động của Spark

Next Article

Hình 4.8. So sánh tỷ lệ triển khai thực tế TG và MHO

Hoạt động

Ưu điểm:

d. Các cơ chế quản lý cụm mà Spark hỗ trợ:

e. Spark vs Hadoop MapReduce

More articles from this publication:

Hình 4.8. So sánh tỷ lệ triển khai thực tế TG và MHO

Hình 4.9. So sánh tỷ lệ triển khai thực tế MHO và HO

Hình 4.7. Phương pháp đo lường kết quả trong thực tế

Hình 4.6. Tỷ lệ độ chính xác trung bình của các mô hình cây khác

Bảng 4-2: Danh mục thuộc tính được sử dụng

Hình 4.1. Quá trình kết hợp K-Means và RandomForest

Bảng 4-1: Danh mục thuộc tính đánh giá xây dựng C360

Hình 3.6. Ví dụ của task DAG cho một cây quyết định của PRF

Hình 3.7. Hình dạng cụm dữ liệu được khám phá bởi k-means

This article is from:

Phân tích hành vi sử dụng dịch vụ viễn thông của khách hàng dựa trên thuật toán phân cụm đưa ra chín