Mẹo nhỏ: Để tìm kiếm chính xác các bài viết của Vuihecungchocopie.vn, hãy search trên Google với cú pháp: "Từ khóa" + "vuihecungchocopie". (Ví dụ: công thức giải rubik 3x3 vuihecungchocopie). Tìm kiếm ngay
12 lượt xem

Tìm hiểu về Apache Spark

Bạn đang xem: Tìm hiểu về Apache Spark Tại Vuihecungchocopie                        

Bạn đang quan tâm đến Tìm hiểu về Apache Spark phải không? Nào hãy cùng Vuihecungchocopie đón xem bài viết này ngay sau đây nhé, vì nó vô cùng thú vị và hay đấy!

Tìm hiểu về Apache Spark

Hiện nay, có nhiều hệ thống sử dụng hadoop để phân tích và xử lý dữ liệu lớn. Ưu điểm lớn nhất của hadoop là dựa trên mapreduce, một mô hình lập trình song song để xử lý dữ liệu lớn, cho phép khả năng mở rộng tính toán, tính linh hoạt, khả năng chịu lỗi và chi phí thấp. Điều này tăng tốc thời gian xử lý dữ liệu lớn để duy trì tốc độ và giảm thời gian chờ khi dữ liệu trở nên lớn hơn.

Bạn đang xem: Apache spark là gì

Mặc dù tính toán song song có nhiều ưu điểm và khả năng chịu lỗi cao, nhưng apache haddop có một nhược điểm là mọi thao tác phải thực hiện trên đĩa cứng, điều này sẽ làm giảm tốc độ tính toán xuống nhiều lần.

Để khắc phục khuyết điểm này, apache spark đã ra đời. apache spark chạy nhanh hơn 10 lần so với haddop trên đĩa cứng và nhanh hơn 100 lần trên ram.

apache spark là một khuôn khổ tính toán cụm mã nguồn mở được phát triển ban đầu bởi amplab vào năm 2009. Sau đó, spark đã được trao cho nền tảng phần mềm apache vào năm 2013 và đã phát triển cho đến ngày nay.

Xem thêm: Modul là gì? Tổng hợp các kiến thức về module – Rửa xe tự động

Tốc độ xử lý của Spark là do tính toán đồng thời trên nhiều máy khác nhau. Trong khi đó, việc tính toán được thực hiện trong bộ nhớ trong (in-memory) hoặc hoàn toàn trong ram.

spark cho phép xử lý dữ liệu theo thời gian thực, vừa nhận dữ liệu từ các nguồn khác nhau vừa thực hiện xử lý dữ liệu nhận được ngay lập tức (phát trực tuyến tia lửa).

spark không có hệ thống tệp riêng, nó sử dụng các hệ thống tệp khác như hdfs, cassandra, s3 …. Spark hỗ trợ nhiều định dạng tệp khác nhau (văn bản, csv, json …) và hoàn toàn độc lập với bất kỳ hệ thống tệp nào.

Tìm hiểu về Apache Spark

apache spark bao gồm 5 thành phần chính: spark core, spark streaming, spark sql, mllib và graphx, trong đó:

  • lõi tia lửa là nền tảng của các thành phần còn lại. Các thành phần này cần được chạy qua lõi tia lửa, đóng vai trò của tính toán trong bộ nhớ và cũng tham chiếu đến dữ liệu được lưu trữ trong hệ thống lưu trữ bên ngoài.

  • Xem thêm: Thâm canh là gì? Vai trò và bản chất của thâm canh – Phân Bón Huy Long

    spark sql cung cấp một kiểu trừu tượng hóa dữ liệu mới (schemard) để hỗ trợ dữ liệu có cấu trúc và bán cấu trúc. dữ liệu phụ thuộc vào nội dung của chính dữ liệu). spark sql hỗ trợ DSL (ngôn ngữ dành riêng cho miền) để thực hiện các thao tác trên khung dữ liệu bằng ngôn ngữ scala, java hoặc python và cũng hỗ trợ ngôn ngữ sql với giao diện dòng lệnh và máy chủ odbc / jdbc. p>

  • phát trực tuyến tia lửa được sử dụng để thực hiện phân tích phát trực tuyến, coi luồng đó là các lô nhỏ dữ liệu và thực hiện các chuyển đổi lần lượt trên các lô nhỏ đó. .Do đó cho phép sử dụng lại mã được viết để xử lý hàng loạt trong quá trình xử lý luồng, giúp phát triển kiến ​​trúc lambda dễ dàng hơn. Tuy nhiên, điều này tạo ra độ trễ trong quá trình xử lý dữ liệu (chủ yếu là độ trễ tương đương với thời lượng của một loạt nhỏ), vì vậy nhiều chuyên gia coi phát trực tuyến tia lửa không phải là một công cụ phát trực tuyến thực sự như bão hoặc nhấp nháy.

  • mllib (thư viện học máy): mllib là một kiến ​​trúc dựa trên bộ nhớ phân tán và một nền tảng học máy phân tán dựa trên tia lửa. Theo so sánh điểm chuẩn, spark mllib nhanh hơn 9 lần so với phiên bản chạy trên hadoop (apache mahout).

  • grapx : Grapx là một nền tảng xử lý đồ họa dựa trên tia lửa. Nó cung cấp các API để biểu diễn các phép tính trong đồ thị bằng cách sử dụng API pregel.

    • Xử lý dữ liệu: xử lý hàng loạt tia lửa và xử lý dữ liệu thời gian thực
    • Khả năng tương thích: Có thể được tích hợp với tất cả các nguồn dữ liệu và định dạng tệp được hỗ trợ bởi cụm hadoop.
    • Hỗ trợ ngôn ngữ: java, scala, python và r được hỗ trợ.
    • Phân tích thời gian thực:

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *