Khai thác dữ liệu là một quy trình phân tích dữ liệu mà các công ty và chủ sở hữu doanh nghiệp sử dụng để kiểm tra dữ liệu thô, bao gồm số lượng bán hàng, giá cả và khách hàng, nhằm phát triển các chiến lược tiếp thị tốt hơn, cải thiện hiệu suất hoặc giảm chi phí vận hành doanh nghiệp. Khai thác dữ liệu cũng giúp khám phá các kiểu hành vi mới của người tiêu dùng.
Khi một công ty phân tích dữ liệu có liên quan thông qua các tiện ích quản lý cơ sở dữ liệu như SQL Server của Microsoft hoặc Data Mining Suite của Oracle, công ty sẽ áp dụng thông tin kết quả như một cách để dự đoán các yếu tố liên quan đến doanh nghiệp trong tương lai. Ví dụ: cửa hàng tạp hóa và siêu thị sử dụng kỹ thuật khai thác dữ liệu để phân tích thông tin về việc người tiêu dùng mua sản phẩm nào, họ chi tiêu bao nhiêu cho những sản phẩm đó và thời điểm họ có nhiều khả năng chi tiêu nhất. Sau đó, họ sử dụng thông tin thu được từ quy trình để xác định thời điểm giảm giá và cách nhắm mục tiêu sản phẩm đến những người tiêu dùng nhất định dựa trên thói quen mua hàng của họ. Huấn luyện viên của một số đội bóng rổ, chẳng hạn như Toronto Raptors, sử dụng tính năng khai thác dữ liệu để đưa ra cách tiếp cận cụ thể khi đối đầu với các đội khác nhau.
Tính đến năm 2015, hai thuật toán phổ biến nhất mà các công ty sử dụng để phân tích dữ liệu bao gồm hồi quy và phân loại. Công thức trước đây phát triển một công thức toán học dựa trên dữ liệu hiện có, cho phép các công ty áp dụng công thức đó cho tập dữ liệu mới để dự đoán hiệu quả hành vi trong tương lai, nhưng nó chỉ hữu ích cho dữ liệu liên tục, bao gồm trọng lượng, thời gian hoặc tốc độ. Loại thứ hai phù hợp hơn với dữ liệu phân loại, bao gồm màu sắc, tên hoặc giới tính.