Trong cuốn sách này, các tác giả cũng mô tả cho chúng ta thấy từ khởi đầu với một dữ liệu nhỏ được thu thập trên giấy và xử lý thủ công, cho đến dữ liệu lớn ngày nay và các phương pháp phân tích thống kê, học máy, học sâu được áp dụng, cùng với khả năng xử lý khủng khiếp của các máy tính. Hãy thử tưởng tượng nếu bạn mang 1 TB dữ liệu trở về quá khứ cho Nhà thiên văn học-nhà toán học Piere-Simon Laplace, ông ấy sẽ ngỡ ngàng đến thế nào?
Câu chuyện này tôi nhờ ChatGPT viết giúp, ngoài việc mô tả bối cảnh và tình huống cuốn hút, nội dung lời thoại mà ChatGPT viết tôi đánh giá thể hiện đúng bản chất của các vấn đề khoa học dữ liệu.
1 TERABYTE CHO NGÀI LAPLACE
Paris, 1799: Tiến sĩ V.N.L., nhà khoa học dữ liệu thế kỷ 21, thức dậy sau một thí nghiệm thời gian thất bại và thấy mình đang đứng trước Viện Hàn lâm Khoa học Pháp. Trong tay là một chiếc laptop hiện đại chứa 1TB dữ liệu, một ổ cứng di động, và... một cục sạc dự phòng.
CỖ MÁY CỦA TƯƠNG LAI
Nhà khoa học đứng trước một người đàn ông mặc áo choàng dài, ánh mắt sắc như dao – ngài Pierre-Simon Laplace, người vừa hoàn thành bản thảo cuốn Thuyết Xác Suất.
- Tôi đến từ tương lai, nhà khoa học nói, và tôi mang theo một món quà: 1 terabyte dữ liệu thực tế từ thế giới hiện đại.
Ngài Laplace cau mày:
- Một tera...byte? Là đơn vị đo gì vậy? Hơn bao nhiêu so với một cuốn sách?
Nhà khoa học cười : “Một cuốn sách như của ngài có thể chứa 1 triệu ký tự. Tôi có khoảng... 1 triệu cuốn như vậy trong chiếc hộp này.
Laplace lùi lại một bước : - Một triệu cuốn sách? Chỉ trong cái máy kia? Không thể nào.
THỐNG KÊ HIỆN ĐẠI
Nhà khoa học bật laptop. May mắn thay, pin vẫn còn, mở ra một thư mục các file Excel: dữ liệu dân số thế giới, tăng trưởng nhiệt độ, log truy cập web, dữ liệu COVID, cảm biến IoT, tín hiệu não...
Mỗi tệp dữ liệu đều có hàng triệu dòng. Nhà khoa học dữ liệu cho ông xem một biểu đồ về sự tăng trưởng dân số từ năm 1800 đến 2025. Ngài Laplace lặng đi.
- Chúa ơi… cô có thể thấy được tương lai?
Tiến sĩ mỉm cười:
- Không, tôi chỉ phân tích dữ liệu quá khứ đủ nhiều để dự đoán điều gì sẽ xảy ra tiếp theo. Đó chính là thống kê hiện đại. Ngài đã phát minh ra xác suất – nhưng bây giờ, chúng tôi dùng nó để dự đoán mọi thứ.
Tiến sĩ N. lại mở Google Colab, chạy một mô hình hồi quy dự đoán xác suất sống sót của bệnh nhân ung thư. Tiếp theo là một mô hình phân loại cảm xúc từ văn bản. Cuối cùng là một chatbot giống ChatGPT, phân tích ý nghĩa văn bản.
Ngài Laplace, một trong những cha đẻ của "Quỷ Laplace", lặng im một hồi lâu.
- Tôi từng nói rằng, nếu biết tất cả vị trí và động lượng của mọi vật thể, tôi có thể tiên đoán tương lai... Nhưng có vẻ như các bạn đã hiện thực hóa điều đó bằng dữ liệu.
Một khoảnh khắc im lặng. Ngài Laplace tiến đến gần laptop, chỉ vào dòng dữ liệu:
- Tất cả những điều này… là quan sát? Không phải lý thuyết?
Tiến sĩ N. gật đầu:
- Dữ liệu là thứ quan trọng nhất. Mô hình có thể thay đổi – nhưng nếu không có dữ liệu, mô hình chỉ là ảo tưởng.
Ngài Laplace ngẫm nghĩ: Vậy thì… tương lai của khoa học, không nằm ở lý thuyết thuần túy nữa, mà nằm ở việc hiểu thế giới thực một cách định lượng.
CUỘC CHIA TAY
Sắp cạn pin, cỗ máy thời gian bắt đầu hú lên nhẹ nhàng. Trước khi biến mất, nhà khoa học dữ liệu tương lai để lại một quyển sổ tay có ghi:
- Các khái niệm về hồi quy, kiểm định giả thuyết.
- Thuật toán Decision Tree, SVM, mạng nơ-ron...
- Cách phân tích dữ liệu.
... và cuốn sách "LỊCH SỬ TIẾN HÓA CỦA DỮ LIỆU". Ngài Laplace cầm chúng trên tay, mắt sáng rực: - Tôi không hiểu hết ngay lúc này. Nhưng tôi biết một điều – bạn vừa ném cho chúng tôi ánh sáng của tương lai.
TRỞ LẠI TƯƠNG LAI... Mọi thứ vẫn y nguyên... Nhưng tiến sĩ N. nhìn thấy trên bàn làm việc một bản thảo cũ từ năm 1802 với dòng chữ: "Journal des idées statistiques: Une visiteuse avec la lumière d’un autre siècle."