3 minute read

Hình 2.9. Zeppelin và phương thức hoạt động

f. Apache Zeppelin trên nền tảng Spark

Là một loại trình thông dịnh chú có thể chạy trên nhiều nền ứng dụng khác nhau như Spark Core; Python hay NoSQL. Việc sử dụng Spark MLib Machine Learning cùng với Zeppelin (Spark Interpreter for Zeppelin), cho phép thực thi các thư việc Machine Learning một cách tối đa hóa thời gian, sử dụng cơ chế hoạt động của Spark để tăng hiệu quả khi xây dựng và huấn luyện các mô hình học máy cũng như giảm thời gian huấn luyện.

Advertisement

Hình 2.9. Zeppelin và phương thức hoạt động Việc sử dụng Apache Zeppelin sẽ nâng cao tốc độ xử lý các mô hình học máy và gia tăng được hiệu quả khi phải xử lý với dữ liệu lớn, Zeppelin cũng hỗ trợ tối đa cho các chuyên viên khoa học máy tính thực thi và xử lý các model. Hình 2.9 mô tả thành phần và các phân đoạn hoạt động của Zeppelin, lưu lại các thành phần và phân loại từng nhóm code. Ngoài ra, Zeppelin cũng có một số API cho phép cài đặt để huấn luyện các mô hình một cách tự động. Sử dụng cho quá trình tự động hóa các mô hình huấn luyện trong quá trình ứng dụng học máy vào triển khai thực tế, và vận hành khai thác. Cung cấp các ứng dụng nền tảng (service) cho các ứng dụng ngoài có thể gọi, thực thi câu lệnh cũng như trả về kết quả thông qua các ứng dụng ngầm này.

2.2. Giới thiệu về học máy

Học máy (machine learning) là một ngành khoa học nghiên cứu, xây dựng các kĩ thuật trên nền tảng của trí tuệ nhân tạo giúp cho máy tính có thể suy luận (dự đoán) kết quả tương lai thông qua quá trình huấn luyện (học) từ dữ liệu lịch sử.

Do việc xây dựng mô hình học máy và ứng dụng vào thực tế cần nhiều mô hình học máy và mô hình ứng dụng, việc sử dụng mô hình tổng hợp để cho ra kết quả tối ưu là điều cần thiết. Việc sử dụng và lựa chọn một mô hình đủ nhanh, mạnh và hiệu quả về chi phí và tài nguyên là cần thiết, theo [20], các loại học máy có thể phân chia thành 3 nhóm: Học có giám sát supervised, học không giám sát unsupervised, học bán giám sát semisupervised và học tăng cường Reinforcement Learning.

Trong sốnhững mô hình đó, cây quyết định với những ưu điểm của mình được đánh giá là một công cụ mạnh, phổ biến và đặc biệt thích hợp cho khai thác dữ liệu lớn nói chung và phân lớp dữ liệu nói riêng. Có thể kể ra những ưu điểm của cây quyết định như: xây dựng tương đối nhanh; đơn giản, dễ hiểu. Hơn nữa các cây có thể dễ dàng được chuyển đổi sang các câu lệnh SQL để có thể được sử dụng để truy nhập cơ sở dữ liệu một cách hiệu quả. Cuối cùng, việc phân lớp dựa trên cây quyết định đạt được sự tương tự và đôi khi là chính xác hơn so với các phương pháp phân lớp khác.

Ngoài ra trong quá trình đề tài, các thuật toán được sử dụng nhằm mục tiêu kiểm định và phân lớp theo rừng ngẫu nhiên (random forest), phân cụm (K-Means) khách hàng để có thể tương tác tới tập khách hàng chính xác và mang lại tỷ lệ cao nhất.

Mô hình toán học: Cho một tập dữ liệu X: Một tập mẫu T  X Một hàm mục tiêu f: X → {đúng, sai} Một tập huấn luyện D = {(x, y) | x T, y = f(x)} Tính toán một hàm f’: X → {đúng, sai} sao cho f’(x)  f(x), xX.

2.2.1. Một số khái niệm cơ bản

Không gian biểu diễn là một tập hợp:

This article is from: