[SEMINAR BIG DATA] APACHE SUPERSET

# [SEMINAR BIG DATA] APACHE SUPERSET Xin chào thầy cô và tất cả các bạn, em tên là Lê Phước Phát, đại diện nhóm KHDL12 thuyết trình về chủ đề Apache Superset, một công cụ tuyệt vời trong việc xử lý và trực quan dữ liệu. Trong buổi trình bày hôm nay, nhóm sẽ đi qua chi tiết 5 mục nội dung chính bao gồm: * Đầu tiên, là về phần tổng quan về Apache Superset trình bày chi tiết thế nào là Apache Superset, mục đích sử dụng, độ phổ biến, tính cạnh tranh, ưu điểm nhược điểm. * Thứ hai, về kiến trúc của Apache Superset, cụ thể về tech stack mà Superset sử dụng để phát triển ứng dụng, các thành phẩn, luồng xử lý, ... * Thứ ba, về chức năng của Apache Superset trình bày các chức năng chính nổi bật của superset * Thứ tư về so sánh Apache Superset với các tools tương đồng khác Grafana, Metabase, hay Redash trên nhiều tiêu chí. * Cuối cùng, nhóm sẽ đi đến kết luận và demo các chức năng cụ thể của Superset. ## I. TỔNG QUAN Đầu tiên về phần tổng quan, nhóm sẽ đi qua các nội dung sau: ### 1. Apache Superset là gì ? Nếu bạn đang tìm kiếm một công cụ Business Intelligence (BI) mã nguồn mở mạnh mẽ, Apache Superset chắc chắn là một trong những cái tên đáng chú ý. Apache Superset là một nền tảng khám phá dữ liệu và trực quan hóa hiện đại, sẵn sàng được sử dụng cho doanh nghiệp. Superset được thiết kế để xử lý các tập dữ liệu lớn, hỗ trợ nhiều loại cơ sở dữ liệu phổ biến, từ PostgreSQL, MySQL cho đến BigQuery và Druid. Điểm nổi bật của nó là khả năng tùy chỉnh cao và linh hoạt, phù hợp với những ai làm về dữ liệu ở các môi trường phức tạp, đặc biệt là khi bạn cần kiểm soát kỹ lưỡng và tối ưu hóa các truy vấn SQL. ### 2. Lịch sử ra đời ? (DONE) Apache Superset khởi nguồn từ một dự án hackation bởi Maxime Beauchemin (người sau này sáng lập Apache Airflow) trong khi ông làm việc tại công ty AirBnB vào năm 2015, với tên gọi đầu tiên là Panoramix (sau đổi thành Caravel). Đến năm 2016, Airbnb đã công khai mã nguồn Superset dưới giấy phép Apache và duy trì nó như nền tảng tự phục vụ BI cho công ty. Sau đó, dự án được đề xuất vào Hệ sinh thái Apache vào tháng 5/2017 và đã hoàn thành quá trình này để trở thành một Dự án Cấp Cao của Apache vào tháng 1/2021. Tính đến hiện tại, Superset vẫn được liên tục phát triển và duy trì bởi một Ủy ban quản lý dự án (PMC) thuộc ASF và có nhiều phiên bản mới được phát hành định kỳ. ### 3. Mục đích sử dụng ? Mục đích sử dụng chính của Apache Superset là giúp chúng ta trong việc: * **Trực quan hóa dữ liệu:** nhờ vào giao diện kéo-thả trực quan và bộ template biểu đồ phong phú, superset giúp cả team không chuyên lẫn chuyên gia đều có thể dựng dashboard đẹp, tương tác và dễ chia sẻ; đồng thời, khả năng nhúng dashboard cho phép đưa insight trực tiếp vào ứng dụng hay báo cáo nội bộ. * **Khám phá dữ liệu:** Superset không chỉ là công cụ vẽ biểu đồ — nó là môi trường phân tích thực thụ, nơi nhà phân tích có thể viết, thử nghiệm và lưu lại truy vấn SQL ngay trên web, định nghĩa metric chuẩn trong semantic layer và tái sử dụng logic đó trên nhiều báo cáo. SQL Lab cho phép kiểm tra giả thuyết, tối ưu truy vấn và tiền xử lý nhanh trước khi đưa vào dashboard; trong khi caching và scheduled queries giúp chạy phân tích lặp đi lặp lại mà không làm tắc nghẽn nguồn dữ liệu. Nhờ vậy, Superset rút ngắn chu kỳ từ câu hỏi đến kết luận, hỗ trợ team đưa ra quyết định dựa trên dữ liệu chính xác và kịp thời. * **Phân tích dữ liệu:** Superset cho phép slice & dice dữ liệu, cross-filter giữa các biểu đồ, thử các phân nhóm thời gian và ngay lập tức nhìn thấy hiệu ứng thay đổi trên các biểu đồ khác nhau. Đó là không gian để tìm outlier, phát hiện seasonality hay kiểm chứng giả thuyết ban đầu trước khi chuyển sang phân tích sâu hơn; tính năng sampling, annotation và time-series tools giúp bạn hiểu cấu trúc dữ liệu mà không tốn quá nhiều tài nguyên. ### 4. Đối tượng sử dụng ? Về đối tượng sử dụng **Apache Superset**, đây là một công cụ vô cùng hữu ích, chủ yếu dân chuyên dữ liệu như: * **Data Analyst (Nhà phân tích dữ liệu):** với nhiệm vụ chính khám phá dữ liệu, viết truy vấn ad-hoc, tạo báo cáo & dashboard cho business, thường dùng tính năng SQL Lab, tạo dataset, virtual columns/metrics (semantic layer), dashboard building, filters, export data trong Apache Superset. * **Data Scientist / ML Engineer** với nhiệm vụ phân tích nâng cao, kiểm thử giả thuyết, trích xuất dữ liệu cho modelling, visual EDA, cũng dùng tính năng SQL Lab, export kết quả, chart tùy chỉnh để kiểm tra phân phối/feature, embedded charts cho báo cáo nghiên cứu. * **Data Engineer / Data Platform** với nhiệm vụ chính: Cấu hình kết nối DB, tối ưu hiệu năng, thiết lập caching, quản lý dataset/metadata, triển khai/scale Superset. Ngoài ra, đây là công cụ dành cho nhiều ngành nghề không chuyên về dữ liệu như: * **BI Developer** (BI Developer thường có kỹ năng code nhưng tập trung vào delivery báo cáo cho business) với nhiệm vụ chính thiết kế dashboard, đảm bảo UX/visual storytelling, chuẩn hóa KPI. * **DevOps Engineer / SRE:** với nhiệm vụ chính giám sát hoạt động Superset (availability/scale), backup & recovery, security patches * **Product Owner / Business Stakeholder:** với nhiệm vụ chính theo dõi KPI, ra quyết định dựa trên dashboard, yêu cầu báo cáo cho nhóm. ### 5. Độ phổ biến của Apache Superset ? #### 5.1. Độ phổ biến với CỘNG ĐỒNG PHÁT TRIỂN Apache Superset đã được áp dụng rộng rãi trên toàn cầu và được cộng đồng BI nguồn mở đánh giá cao. Cộng đồng phát triển của Superset rất sôi nổi với minh chứng số liệu: * 67.5k sao * 15.5 fork * Active issues 470 * và với 333 pull requests. Dự án được duy trì bởi Ủy ban Apache và có hàng trăm đóng góp từ các nhà phát triển toàn cầu, với lịch sử hơn 17,000 commit trên repo và hơn 1 ngàn 2 contributors đóng góp sửa lỗi cho mã nguồn này. Điều này cho thấy lượng người quan tâm và góp ý khổng lồ. Nhiều tập đoàn lớn như Airbnb, American Express, Dropbox, Lyft, Netflix, Nielsen, Twitter, Udemy… đều đang sử dụng Superset và phát triển công cụ này. Sự xuất hiện tại các công ty này chứng tỏ tính ổn định và hữu ích của Superset trong môi trường sản xuất. Tóm lại, Superset có cộng đồng lớn mạnh và phát triển liên tục, đảm bảo tính cập nhật và hỗ trợ lâu dài cho người dùng. #### 5.2. Độ phổ biến với nhiều DOANH NGHIỆP lớn Theo thống kê dữ liệu từ TheirStack, hiện có khoảng 3.086 công ty sử dụng Superset trên toàn cầu. Trong số này có nhiều tên tuổi như Coinbase, Airbnb, Wise, Canonical… Và công ty này được sử dụng hơn 66 quốc gia trên toàn thế giới #### 5.3. Độ phổ biến sử dụng tại nhiều QUỐC GIA Theo thống kê dữ liệu từ Enlyft vào tháng 08/2025, 42% khách hàng của Apache Superset ở Mỹ và 8% ở Ấn Độ. #### 5.4. Độ phổ biến trong nhiều LĨNH VỰC Đồng thời, Apache Superset cũng được áp dụng trong nhiều lĩnh vực khác nhau. Ví dụ, theo thống kê dữ liệu từ Enlyft, nhìn vào lượng khách hàng của Apache Superset trong từng ngành nghề, chúng ta có thể thấy được Information Technology and Services (25%), Computer Software (14%), Internet (7%) và Financial Services (6%). #### 5.5. Được tích hợp nhiều CÔNG NGHỆ MỚI PHỔ BIẾN Đồng thời Apache Superset cũng được tích hợp nhiều công nghệ mới phổ biến. Với các hệ như PostgreSQL, MySQL, SQL Server hay Oracle, Superset kết nối trực tiếp qua SQLAlchemy, cho phép triển khai dashboard nghiệp vụ nhanh cho mọi tổ chức có dữ liệu legacy. Ở mảng cloud, Superset cũng tương thích tốt với Snowflake, BigQuery, Redshift hay Azure Synapse — nhờ đó các doanh nghiệp cloud-native có thể dùng Superset làm lớp báo cáo mà không cần di cư dữ liệu. Đồng thời, những engine chuyên cho analytics như ClickHouse, Vertica, Firebolt hay các hệ phân tán như Trino/Presto (và bản thương mại Starburst) đem lại hiệu năng truy vấn thấp độ trễ, giúp dashboard Superset mượt mà ngay cả với khối lượng dữ liệu lớn. Đặc biệt, Trino/Presto cho phép Superset thực hiện federated queries — tức là kết hợp dữ liệu từ nhiều nguồn trong một truy vấn duy nhất — rất hữu ích cho tổ chức đa nguồn. Ngoài ra, Druid và Pinot là lựa chọn hàng đầu khi cần realtime/OLAP time-series; Superset có tích hợp chuyên sâu với Druid để phục vụ dashboard realtime. Cuối cùng, đối với hệ sinh thái big-data, Superset có thể kết nối tới Hive, Impala hoặc Databricks/Spark SQL qua JDBC/connector phù hợp, giúp trực quan hoá dữ liệu trên HDFS hoặc Lakehouse. ### 6. Độ cạnh tranh của Apache Superset Bên cạnh đó, với độ phổ biến mạnh mẽ nêu trên, Apache Superset vẫn gặp khó khăn khi cạnh tranh với các công cụ phân tích và trực quan hóa dữ liệu. Theo trang TheirStack liệt kê 141 alternatives cho Superset, trong đó các công cụ có sức hấp dẫn mạnh đến người dùng như Grafana, Tableau, Metabase, Redash, ... Và những công cụ này sẽ được nhóm phân tích so sánh chi tiết với Apache Superset trong phần 4 để tìm hiểu sao nó lại có tính cạnh tranh với Apache Superset. ### 7. Apache Superset là mã nguồn mở Được phát hành dưới Apache License 2.0 (miễn phí, cấp phép rộng) Tham gia và tuân thủ quy trình quản lý của Apache Software Foundation Mã nguồn công khai, ai cũng có thể fork, đóng góp, triển khai và tùy biến Cơ chế **Contributor License Agreement** bảo đảm tính pháp lý trong đóng góp ### 8. Chi phí sử dụng #### Phiên bản tự triển khai Phiên bản tự triển khai (Self-hosted) Ưu điểm: Toàn quyền kiểm soát, không phụ thuộc nhà cung cấp. Nhược điểm: Cần chuyên môn kỹ thuật cao, tự chịu trách nhiệm triển khai, vận hành, mở rộng và backup. ⟶ Phù hợp với doanh nghiệp có đội ngũ DevOps / BI mạnh mẽ ⟶ Phù hợp với các dự án nội bộ, hay môi trường có chính sách bảo mật bắt buộc chỉ chạy trên hệ thống công ty. ⟶ Cần chuẩn bị đầu tư nhiều thời gian cho thiết lập Redis, Celery, backup, cập nhật và xử lý sự cố. #### Phiên bản sử dụng dịch vụ quản lý Phiên bản sử dụng dịch vụ quản lý (Managed - Preset Cloud) Ưu điểm: Triển khai nhanh, ổn định, ít phải quản lý hạ tầng, hỗ trợ đầy đủ Nhược điểm: Chi phí có thể cao khi mở rộng (tính theo user); phụ thuộc nhà cung cấp. ⟶ Phù hợp với doanh nghiệp không có nhiều chuyên gia Superset, hoặc cần tích hợp Superset vào sản phẩm/sáng kiến lớn hơn. ### 9. Đặc điểm của Apache Superset Hỗ trợ trực quan đa dạng, phong phú Dễ xây dựng dashboard có tính tương tác cao Hỗ trợ giao diện no-code, dễ sử dụng ⟶ tạo biểu đồ nhanh không cần code. Hỗ trợ trình soạn thảo SQL mạnh mẽ + Tích hợp nhiều database engine. Lớp semantic layer + caching layer nhẹ, cấu hình linh hoạt Hỗ trợ hệ thống phân quyền và xác thực mở rộng Dễ dàng mở rộng kiến trúc (sử dụng kiến trúc cloud-native) ### 10. Ưu điểm vs. Nhược điểm của Apache Superset #### Ưu điểm Hỗ trợ đa dạng nhiều loại biểu đồ trực quan Giao diện dễ dùng, không yêu cầu kỹ năng chuyên sâu Mã nguồn mở Dễ dàng truy cập, phân tích số liệu Hỗ trợ và kết hợp được với nhiều nguồn dữ liệu khác nhau Tính bảo mật và phân quyền cao #### Nhược điểm * Tự động hoá qua API còn hạn chế Superset cung cấp API để quản lý người dùng, roles và permissions, nhưng khả năng tự động hoá các tác vụ này vẫn chưa đầy đủ và linh hoạt. Các endpoint hiện tại đòi hỏi phải gọi nhiều API riêng lẻ để hoàn thành một quy trình thiết lập phân quyền, khiến việc triển khai tự động hóa (Infrastructure as Code) trong các tổ chức có quy mô lớn trở nên phức tạp và dễ phát sinh lỗi. * Khả năng dashboard động (dynamic dashboarding) chưa tối ưu Khi chuyển đổi giữa các chế độ hiển thị (views) hoặc lọc dữ liệu trên dashboard, Superset đôi khi phải tải lại toàn bộ trang hoặc biểu đồ, gây gián đoạn trải nghiệm người dùng. Tính năng “dashboard as a story” hay các hiệu ứng chuyển cảnh mượt mà chưa được hỗ trợ tốt, làm giảm tính tương tác và khó tận dụng dashboard như một công cụ trình bày dữ liệu động trong các buổi họp hay báo cáo trực tiếp. * Tính năng báo cáo (reporting) cần được cải thiện Superset có cơ chế báo cáo theo lịch (scheduled reports) nhưng còn khá cơ bản: chỉ hỗ trợ gửi báo cáo qua email hoặc Slack, và khả năng tuỳ biến nội dung báo cáo (bao gồm định dạng file, bố cục, điều kiện chạy báo cáo nâng cao) chưa phong phú. Người dùng thường phải kết hợp thêm công cụ bên thứ ba hoặc viết script riêng để tạo PDF/Excel báo cáo theo đúng yêu cầu doanh nghiệp. * Vấn đề phân quyền khi có nhiều người dùng Mô hình phân quyền Role-Based Access Control (RBAC) của Superset mạnh mẽ, nhưng khi số lượng người dùng và roles tăng lên (hàng trăm, hàng nghìn tài khoản), việc quản lý permissions—như phân chia quyền xem dataset, dashboard, chart—trở nên rối và dễ sai sót. Giao diện quản trị không hỗ trợ tốt việc tìm kiếm, lọc hoặc sao chép nhanh các thiết lập phân quyền, dẫn đến tốn nhiều thời gian vận hành. * Khó khăn khi xây dựng dịch vụ phần mềm (SaaS) do giới hạn hiệu năng Mặc dù thiết kế cloud-native, Superset vẫn dựa vào đồng thời Gunicorn, Celery, và database backend để phục vụ truy vấn và rendering biểu đồ. Ở quy mô rất lớn (hàng nghìn dashboard, hàng triệu người dùng xem/ngày), việc tối ưu hiệu năng đòi hỏi nhiều công đoạn tinh chỉnh: cài đặt cache hợp lý, tăng số worker, tuning database, thậm chí can thiệp vào code gốc. Điều này làm cho việc đóng gói Superset thành một dịch vụ SaaS quản lý (multi-tenant) ổn định, hiệu quả trở nên phức tạp và tốn kém vận hành. --- ## V. KẾT LUẬN Apache Superset còn khá mới, tuy nhiên phần giao diện khá hoàn chỉnh và cung cấp công cụ trực quan cho người dùng cần làm phân tích dữ liệu, báo cáo, bảng biểu. Superset cũng cho phép trích bảng biểu để nhúng vào các màn hình ứng dụng, gửi email trực tiếp chứa đường dẫn báo cáo, xuất hình ảnh báo cáo để chia sẻ, ... Nhìn chung thì Superset đáp ứng được phần lớn nhu cầu của người làm phân tích dữ liệu và báo cáo. ### Vậy Apache Superset có thể thay thế được các công cụ khác không ? Câu trả lời là cũng không hẳn. Superset còn tồn tại nhiều điểm cần phải khắc phục. * Việc kết nối đến các CSDL đôi khi rất khó khăn do thiếu tài liệu. Ví dụ, để kết nối đến Databricks thì không có hướng dẫn đầy đủ và phải tự điều chỉnh trên thông tin kết nối được cung cấp bởi Databricks. * Luồng giao diện hơi lạ và không được thân thiện nếu so sánh với PowerBI. ### Vậy Apache Superset phù hợp với ai ? * Những người cần công cụ mạnh để có thể làm nhiều loại bảng, query liên tục trên CSDL thì không cần phải dùng thêm công cụ khác. * Những người đang tìm kiếm một công cụ làm phân tích dữ liệu miễn phí và mạnh mẽ không kém các công cụ nổi tiếng. ### Vậy khi nào sử dụng Apache Superset ? #### Cho việc xây dựng dashboard và Business Intelligence Nếu tổ chức của bạn cần một nền tảng tập trung để trực quan hoá và chia sẻ insight, Superset là lựa chọn phù hợp: * Xây dựng dashboard tương tác để theo dõi KPI và các chỉ số quan trọng. * Tạo biểu đồ và đồ thị bằng cách sử dụng truy vấn SQL hoặc công cụ trực quan (visual builder) mà không cần code phức tạp. #### Cho các nhóm làm việc với nhiều nguồn dữ liệu khác nhau Những tổ chức có dữ liệu phân tán trên nhiều hệ thống (cơ sở dữ liệu, data warehouse hoặc query engine) sẽ hưởng lợi từ khả năng kết nối liền mạch của Superset với đa dạng nguồn dữ liệu. Superset cho phép bạn tổng hợp và trực quan hoá dữ liệu từ nhiều nguồn khác nhau mà không cần di chuyển dữ liệu nhiều. #### Cho phân tích có thể mở rộng (Scalable Analytics) Nếu khối lượng dữ liệu của bạn lớn và còn tăng nhanh, Superset có thể mở rộng cùng bạn khi kết hợp với các query engine hiện đại như Druid hoặc Trino/Presto. Những engine này giúp xử lý truy vấn nhanh, chịu được concurrency cao, giúp dashboard mượt ngay ở quy mô lớn. #### Cho các tổ chức quan tâm đến chi phí (Cost-Conscious Organizations) Superset phù hợp với các đội/ doanh nghiệp muốn: * Có năng lực BI ở mức doanh nghiệp mà không phải trả phí bản quyền phần mềm. * Ưu tiên giải pháp mã nguồn mở để tránh bị ràng buộc với một nhà cung cấp (vendor lock-in). #### Cho môi trường thân thiện với developer (Developer-Friendly Environments) Superset là lựa chọn tốt cho các team kỹ thuật vì: * Họ sẵn sàng triển khai và vận hành phần mềm mã nguồn mở. * Có thể mở rộng và tuỳ biến Superset bằng plugin, tích hợp hoặc thay đổi code để phù hợp nhu cầu nội bộ.