Apache Hive Là Gì

Thuật ngữ Big Data được áp dụng cho những bộ tập tài liệu mập mạp bao gồm cân nặng bự, vận tốc cao cùng những các loại dữ liệu sẽ tăng lên từng ngày. Sử dụng những khối hệ thống cai quản dữ liệu truyền thống cuội nguồn, cực kỳ khó khăn nhằm cách xử trí Big data. Do đó, Quỹ phần mềm Apabịt (Apabịt Software Foundation) đã giới thiệu một framework tên là Hadoop nhằm giải quyết những thử thách thống trị và xử lý Big data.

Bạn đang xem: Apache hive là gì

Hadoop

Hadoop là 1 framework open-source để tàng trữ và xử lý Big data trong môi trường phân tán. Nó cất hai mô-đun, một là MapReduce với một mô-đun không giống là Hệ thống tệp phân tán Hadoop (Hadoop Distributed File System - HDFS).

MapReduce: Đây là mô hình xây dựng tuy nhiên tuy vậy để giải pháp xử lý một lượng Khủng tài liệu bao gồm cấu tạo, buôn bán kết cấu và không cấu tạo trên những nhiều lớn của phần cứng tmùi hương mại (commodity hardware).HDFS: Hệ thống tệp phân tán Hadoop là một phần của framework Hadoop, được sử dụng nhằm lưu trữ và cách xử lý các cỗ dữ liệu. Nó cung cấp một khối hệ thống tập tin Chịu đựng lỗi nhằm chạy trên Hartware thương thơm mại.

Hệ sinh thái Hadoop đựng những sub-project (tool) khác nhau như Sqoop, Pig với Hive sầu được thực hiện nhằm trợ giúp những mô-đun Hadoop.

Sqoop: Nó được sử dụng nhằm nhập với xuất dữ liệu mang lại với đi giữa HDFS cùng RDBMS.Pig: Đây là 1 căn cơ ngữ điệu thủ tục được áp dụng để cách tân và phát triển tập lệnh cho những buổi giao lưu của MapReduce.

Xem thêm: Xem Nếu Vô Tình Ta Làm Tổn Thương Nhau (Cover), Nếu Vô Tình Ta Làm Tổn Thương Nhau (Cover)

Hive: Đây là một căn nguyên được sử dụng nhằm cách tân và phát triển các tập lệnh loại Squốc lộ nhằm triển khai các hoạt động MapReduce.

Crúc ý: Có rất nhiều cách thức khác biệt nhằm thực hiện những chuyển động MapReduce:

Cách tiếp cận truyền thống cuội nguồn áp dụng chương trình Java MapReduce cho tài liệu tất cả kết cấu, bán cấu tạo với ko kết cấu.Cách tiếp cận cần sử dụng câu lệnh đến MapReduce nhằm cách xử trí dữ liệu bao gồm cấu tạo với phân phối cấu tạo bởi Pig.Ngôn ngữ truy nã vấn Hive sầu (Hivequốc lộ hoặc HQL) đến MapReduce nhằm xử trí dữ liệu bao gồm kết cấu bằng Hive.Hive là gì?

Hive là 1 mức sử dụng cơ sở hạ tầng kho tài liệu nhằm cách xử trí dữ liệu bao gồm cấu trúc vào Hadoop. Nó vị trí đỉnh Hadoop để bắt tắt Dữ liệu bự với giúp truy nã vấn và so sánh dễ dàng.

Ban đầu Hive sầu được cải tiến và phát triển do Facebook, tiếp nối Quỹ Phần mềm Apache đã lấy với trở nên tân tiến nó thành một mối cung cấp mngơi nghỉ bên dưới tên Apađậy Hive. Nó được thực hiện vày những công ty khác nhau. Ví dụ: Amazon sử dụng nó vào Amazon Elastic MapReduce.

Hive không hẳn là:Một DataBase quan lại hệMột kiến thiết nhằm cách xử trí giao dịch Online (OnLine Transaction Processing - OLTP)Một ngôn từ cho các truy tìm vấn thời gian thực cùng update cấp cho hàngnổi bật của HiveNó tàng trữ lược vật dụng vào các đại lý tài liệu cùng xử lý dữ liệu vào HDFS.Nó được thiết kế với mang đến OLAP.Nó cung ứng ngôn từ kiểu Squốc lộ nhằm truy nã vấn được Call là HiveQL hoặc Hquốc lộ.Nó là rất gần gũi, gấp rút, có chức năng mở rộng.Kiến trúc của Hive

Sơ trang bị dưới đây biểu hiện kiến trúc của Hive:

*
Sơ thứ nguyên tố này đựng các đơn vị khác biệt.

User Interface: Hive là một trong những phần mượt cơ sở hạ tầng kho dữ liệu rất có thể làm nên shop giữa người tiêu dùng và HDFS. Các giao diện người dùng mà Hive sầu cung cấp là Hive sầu Web UI, Hive sầu comm& line và Hive sầu HD Insight (Trong sever Windows).Meta Store: Hive chọn các sever cửa hàng dữ liệu tương ứng nhằm lưu trữ lược thứ hoặc metadata của các bảng, các đại lý dữ liệu, các cột trong một bảng, những loại tài liệu của bọn chúng cùng ánh xạ HDFS.Hivequốc lộ Process Engine: Hivequốc lộ tựa như nlỗi SQL nhằm tầm nã vấn báo cáo lược đồ vật trên Metastore. Đây là 1 trong những trong những sửa chữa thay thế của phương pháp truyền thống lịch sử mang đến chương trình MapReduce. Ttốt vì viết chương trình MapReduce bởi Java, chúng ta có thể viết một truy nã vấn mang đến quá trình MapReduce và giải pháp xử lý nó.Execution Engine: Phần kết hợp của cách thức xử trí Hivequốc lộ với MapReduce là Công thay thực thi Hive sầu (Hive Execution Engine). Công thay tiến hành giải pháp xử lý tầm nã vấn với sản xuất tác dụng hệt như hiệu quả MapReduce.HDFS hoặc HBASE: Hệ thống tệp phân tán Hadoop hoặc HBASE là các kỹ thuật tàng trữ tài liệu nhằm lưu trữ dữ liệu vào khối hệ thống tệp.Cách thao tác làm việc của Hive

Sơ đồ dùng sau miêu tả tiến trình thao tác làm việc thân Hive sầu cùng Hadoop.

*

Cách Hive sầu địa chỉ với framework Hadoop:

Thực thi query: Giao diện Hive nlỗi Comm& line hoặc Giao diện người tiêu dùng website gửi truy nã vấn mang đến Trình điều khiển (ngẫu nhiên trình tinh chỉnh và điều khiển đại lý tài liệu làm sao nlỗi JDBC, ODBC, v.v.) nhằm thực hiện.Nhận kế hoạch: Trình điều khiển bao gồm sự hỗ trợ của trình biên dịch truy vấn để đối chiếu cú pháp truy nã vấn để kiểm soát cú pháp cùng planer truy tìm vấn hoặc thử dùng của truy nã vấn.Nhận metadata: Trình biên dịch gửi trải đời metadata cho Metastore (bất kỳ các đại lý dữ liệu nào).Gửi metadata: Metastore gửi metadata như một đánh giá mang lại trình biên dịch.Gửi kế hoạch: Trình biên dịch kiểm tra yêu cầu và gửi lại kế hoạch đến trình tinh chỉnh. Đến đây, Việc đối chiếu cú pháp với biên dịch một tróc nã vấn vẫn hoàn tất.Kế hoạch thực hiện: Trình tinh chỉnh gửi kế hoạch tiến hành mang lại luật pháp xúc tiến.Thực xây dựng việc: Trong nội cỗ, quá trình tiến hành các bước là 1 trong những quá trình MapReduce. Công nỗ lực triển khai gửi quá trình mang đến JobTracker, vào node Name và nó gán quá trình này cho TaskTracker, trong node Data. Tại trên đây, truy vấn vấn thực thi công việc MapReduce.Hoạt đụng metadata: Trong Lúc thực hiện, hiện tượng triển khai có thể tiến hành các chuyển động metadata với Metastore.Lấy kết quả: Công gắng triển khai dấn kết quả tự các node Data.Gửi kết quả: Công nạm tiến hành gửi những giá trị kết quả đó mang đến trình điều khiển và tinh chỉnh.Gửi kết quả: Trình tinh chỉnh gửi tác dụng mang lại Giao diện Hive sầu.