Dữ liệu chuỗi thời gian là gì

  -  

redeal.vn và các bạn đã cùng nhau đi qua nhiều phương pháp, thuật toán trong phân tích dữ liệu nói riêng và trong khai phá dữ liệu nói chung từ tóm tắt, thống kê mô tả dữ liệu, thống kê suy luận đến các thuật toán phân tích hỗ trợ phân loại, phân cụm, dự báo về các đối tượng dữ liệu trong nghiên cứu. Tiếp tục với một chủ đề, một mảng kiến thức quan trọng tuy cũ mà mới và tuy mới mà rất cũ, đó chính là Time series hay còn gọi phân tích dãy số/ chuỗi thời gian.

Bạn đang xem: Dữ liệu chuỗi thời gian là gì

Trong bài viết phần 1, bài viết đầu tiên về chủ đề chuỗi thời gian, chúng ta sẽ tìm hiểu Time series là gì, ứng dụng của nó trong lĩnh vực kinh tế cùng với một số nhận định, lưu ý, sau đó tìm hiểu về các thành phần chính trong dữ liệu chuỗi thời gian. Ngoài ra, cũng lưu ý thêm đến các bạn về chủ đề đầu tiên của Time series, trong bài viết phần 1 và các bài viết sau, redeal.vn chỉ tập trung giới thiệu những kiến thức, phương pháp phân tích cơ bản dãy số thời gian cũng như dự báo xu hướng chủ yếu nằm trong thống kê, còn những phương pháp nâng cao, phức tạp hơn của Time series trong Data mining sẽ được chúng tôi gửi đến các bạn ở một chủ đề khác về Time series nếu có dịp.


*

Time series là gì?

Time series thực ra không phải là tên gọi của một thuật toán phân tích, cũng không phải tên của bất kỳ một phương pháp khai phá, phân tích dữ liệu nào đó mà là tên của một loại dữ liệu rất phổ biến, là nguồn dữ liệu mà hầu như mọi tổ chức đều có: dữ liệu biến động theo thời gian, dữ liệu lịch sử, dữ liệu thu thập theo thời gian của các đối tượng nghiên cứu, sự vật, sự việc, hiện tượng được quan tâm. Ví dụ dữ liệu bán hàng/ doanh thu theo tháng của một sản phẩm, dữ liệu tiêu thụ năng lượng theo ngày của một nhà máy, dữ liệu thu chi tài chính của một tổ chức công,…

Nếu cắt nghĩa thuật ngữ Time series, các bạn sẽ dễ hiểu hơn. Time có nghĩa là thời gian, series là chuỗi, thể hiện sự có trình tự, tức là một dãy các giá trị, thông tin ghi nhận được từ đối tượng nghiên cứu và được sắp xếp theo thứ tự của thời gian hay theo các mốc của thời gian.

Thời gian đo lường có thể tính bằng giờ, ngày, tháng, quý, đến năm hoặc bất cứ khoảng thời gian nào được quy ước trước đó như theo quý, 6 tháng, 3 tháng,…

Dữ liệu của dãy số thời gian có thể được ghi nhận theo nguyên một thời kỳ hoặc tại thời điệm cụ thể:


*

Ví dụ doanh thu sản phẩm A của công ty được ghi nhận theo thời kỳ mà ở đây là năm, tổng doanh thu các tháng trong năm 2015, hay doanh thu trong năm 2015 là 1400 triệu VND = 1.4 tỷ


*

Ngoài xác định các mốc thời gian là biểu hiện rõ nét của dữ liệu Time series, thì biểu đồ thể hiện dữ liệu Time series hay còn gọi Time plots là dấu hiệu nhận biết rõ nét thứ hai của Time series. Biểu đồ với trục hoành sẽ là các mốc thời gian và trục tung là giá trị ghi nhận của đối tượng nghiên cứu.


*

Biểu đồ time plot sử dụng các chấm điểm


*

Biểu đồ Time series dạng line (đường) không thể hiện rõ điểm

Nếu định nghĩa Time series là công cụ nói chung thì Time series sẽ bao gồm các công thức phương pháp, mô hình giúp chúng ta phân tích dữ liệu dãy số thời gian, trích xuất được những thông tin tiềm ẩn có giá trị, nắm bắt được xu hướng biến động ở lịch sử, hiện tại và hỗ trợ dự báo giá trị của đối tượng nghiên cứu trong tương lai.

Dự báo trong Time series

Khi nhắc đến Time series nhiều người làm việc trong lĩnh vực Data science đều sẽ liên tưởng đến tính năng dự báo của nó và nếu có ai hỏi đến liệu có thuật toán nào đưa ra dự báo (Forecast) chính xác nhất trên dữ liệu lịch sử thì chỉ có thể là Time series.

Dự báo dựa trên chuỗi thời gian là việc đưa ra các dự đoán khoa học dựa trên dữ liệu Time series. Nó liên quan đến xây dựng các mô hình thông qua phân tích dữ liệu lịch sử và sử dụng chúng để ra những quyết định chiến lược trong tương lai. Một điểm quan trọng trong dự báo là tại thời điểm phân tích, kết quả trong tương lai là hoàn toàn không có sẵn và chỉ có thể được ước tính thông qua các phương pháp thống kê, công thức toán học đã được kiểm chứng.

Kết quả dự báo không phải lúc nào cũng chính xác và khả năng dự báo có thể rất khác nhau — đặc biệt là khi xử lý các yếu tố biến động trong dữ liệu chuỗi thời gian cũng như các yếu tố nằm ngoài tầm kiểm soát.

Phân biệt một chút về dự báo và dự đoán. Mặc dù “dự báo” và “dự đoán” thường có nghĩa giống nhau, nhưng có một điểm khác biệt đáng chú ý. Trong một số ngành, dự báo có thể đề cập đến dữ liệu tại một thời điểm cụ thể trong tương lai, trong khi dự đoán đề cập đến dữ liệu tương lai nói chung.

Xem thêm: Hậu Tây Du Bạch Cốt Ngộ Không Tình, Bach Cot Ngo Khong Tinh Full

Dự báo chuỗi thời gian thường được sử dụng cùng với phân tích chuỗi thời gian. Phân tích chuỗi thời gian liên quan đến việc phát triển các mô hình để có được sự hiểu biết về dữ liệu, để hiểu các thành phần nguyên nhân, yếu tố tác động cơ bản. Quá trình phân tích sẽ cho chúng ta “lý do” đằng sau những giá trị hiện diện trong tập dữ liệu. Tiếp theo đưa ra các dự báo dựa trên việc kiểm soát tốt các “lý do”ấy, và các giải pháp hành động cụ thể.

Có rất rất nhiều mô hình, phương pháp phân tích chuỗi thời gian được ra đời, được cải tiến cho đến ngày hôm nay, nhưng tổng quan, như đã nói ở trên sẽ chỉ bao gồm 2 loại chính: hỗ trợ phân tích biến động, xu hướng; và hỗ trợ để đưa ra dự báo, đo lường độ chính xác của các kết quả dự báo. Chúng ta sẽ đi vào các phần này ở những bài viết sắp tới.

Vài nét lịch sử Time series

Nếu thực sự kể từ khi con người biết dự báo dựa trên dữ kiện lịch sử, dữ kiện thời gian thì đó cũng là lúc ứng dụng đầu tiên của Time series xuất hiên, như vậy có thể đã từ mấy trăm năm trước. Mô hình đầu tiên của Time series là Auto-regressive được đưa vào ứng dụng bắt đầu từ năm 1920 đến những năm 1930, là thành tựu nghiên cứu của 2 chuyên gia G. U Yule và J. Walker. Cũng trong khoảng thời gian này, phương pháp Time series cốt lõi và không thể không biết đến là Moving Average (trung bình trượt) ra đời để loại bỏ các biến động chu kỳ trong chuỗi thời gian, hay biến động do tính thời vụ để dự báo xu hướng của chuỗi thời gian tốt hơn. Mô hình ARIMA (Auto-Regressive Moving Average) được giới thiệu lần đầu bởi chuyên gia Herman Wold năm 1938. Đây là phương pháp phân tích và dự báo trên Time series được sử dụng phổ biết nhất từ trước đến nay. Năm 1970, cuốn sách cổ điển đầu tiên về Time series được xuất bản có tên “Time series analysis” của 2 tác giả G. E. P. Box và G. M. Jenkins. Moving Average, Autoregressive model, hay ARIMA redeal.vn sẽ nói đến chúng ở các bài viết tiếp theo.

Như vậy, đôi nét về lịch sử lâu đời của Time series cũng có thể giúp chúng ta hình dung được những ứng dụng của Time series từ trước đến nay ở các lĩnh vực sẽ nhiều như thế nào. Tuy không thể kể hết nhưng chúng ta khẳng định được mục đích sử phân tích chuỗi thời gian, thông qua phần giải thích khái niệm ở trên, thì chính là phân tích xu hướng biến động của dãy số thời gian hỗ trợ cho phân tích dự báo về đối tượng nghiên cứu.

Ứng dụng của Time series trong lĩnh vực kinh doanh

*

Công nghệ, kỹ thuật phát triển vượt bậc với tốc độ một cách chóng mặt, việc tiếp cận các xu hướng công nghệ là yêu cầu bắt buộc đối với hầu hết mọi công ty và tổ chức, đặc biệt trong bối cảnh dịch bệnh Covid-19 như hiện nay thì yêu cầu ấy càng cấp bách hơn. Cơ hội tiếp cận nguồn dữ liệu dồi dào là ngày càng lớn, cơ hội khai thác cũng tăng cao.

Time series đã có từ rất lâu nhưng ngày nay nó cùng với những thuật toán đang được quan tâm nhiều hơn bao giờ hết vì chúng là công cụ hỗ trợ đạt được những giá trị từ dữ liệu.

Xu hướng người tiêu dùng ưa chuộng sự tiện ích, nhanh chóng, mong muốn trải nghiệm nhiều hơn, và nhận được nhiều hơn những gì mình bỏ ra, cũng như có sự so sánh chọn lựa kỹ càng giữa sản phầm, dịch vụ của nhiều công ty nên vì thế sự cạnh tranh trên thị trường ngày càng khốc liệt. Khai thác nguồn tài sản dữ liệu một cách tốt nhất sẽ giúp các công ty đạt được những lợi thế nhất định mà cụ thể là đưa ra các chiến lược sản phẩm, dịch vụ tốt hơn, cải thiện các kế hoạch bán hàng, marketing hiệu quả hơn thông qua việc tìm hiểu được hành vi tiêu dùng của khách hàng, dự báo nhu cầu của khách hàng ở những thời điểm cụ thể. Và khi nhắc đến dự báo, thì Time series là một lựa chọn không tồi để các công ty sử dụng.

Xem thêm: Tôi Muốn Chơi Game Nấu Ăn 12+, Game Nấu Ăn, Trò Chơi Nấu Ăn Hay Nhất

Nếu lấy Forecasting hay dự báo làm mục đích chính để khai thác dữ liệu (và dĩ nhiên dữ liệu phải đảm bảo tính chất dãy số thời gian) thì Time series có lẽ được ứng dụng trong rất nhiều lĩnh vực không chỉ riêng kinh tế, từ y học, sinh học, khoa học, xã hội, tự nhiên, môi trường, điển hình nhất là Dự báo thời tiết…Trong bài viết lần này, redeal.vn chỉ tập trung vào khía cạnh kinh tế và kinh doanh mà thôi vì lĩnh vực này quá quen thuộc, dễ hiểu, dễ nắm bắt, và các bạn chắc hầu hết cũng đang làm việc trong các công ty, doanh nghiệp.