Khác nhau giữa các chế độ triển khai giữa Local, Standalone và YARN trong Spark

Trong Apache Spark, có ba chế độ triển khai chính: Local, Standalone và YARN. Dưới đây là sự khác biệt giữa chúng:

Chế độ triển khai Local là chế độ đơn giản nhất và được sử dụng cho môi trường phát triển và kiểm thử.
Khi chạy trong chế độ Local, Spark sẽ chạy trên một máy tính duy nhất bằng cách sử dụng tất cả các luồng CPU có sẵn trên máy đó.
Đây là chế độ phù hợp cho các tác vụ nhỏ và không yêu cầu phân tán dữ liệu.

Chế độ triển khai Standalone cho phép bạn triển khai một cụm Spark độc lập bao gồm nhiều máy tính.
Trong chế độ này, một máy tính được chọn làm "Spark Master" và các máy tính khác được kết nối với Spark Master như là "Spark Workers".
Spark Master quản lý việc phân phối công việc và quản lý tài nguyên giữa các Spark Workers.
Chế độ Standalone phù hợp cho triển khai Spark trên các cụm máy tính riêng lẻ mà không có hệ thống quản lý cụm chuyên dụng.

YARN (Yet Another Resource Negotiator) là một hệ thống quản lý cụm phân tán của Apache Hadoop, được sử dụng để quản lý tài nguyên trong môi trường phân tán.
Chế độ triển khai YARN cho phép bạn triển khai Spark trên cụm YARN đã tồn tại, sử dụng các tài nguyên quản lý bởi YARN.
Spark sẽ là một ứng dụng YARN và sẽ gửi yêu cầu tài nguyên tới YARN ResourceManager để thực hiện các tác vụ tính toán.
Chế độ triển khai YARN phù hợp cho việc tích hợp Spark với hệ sinh thái Hadoop và triển khai Spark trên các cụm dữ liệu lớn.
Tùy thuộc vào yêu cầu và môi trường triển khai, bạn có thể chọn chế độ triển khai phù hợp với nhu cầu của mình.

Tham khảo video:

IT Blog