LAVIETNGA - LỊCH SỬ TIẾN HÓA CỦA DỮ LIỆU

LAVIETNGA

HOW DATA HAPPENDED

(LỊCH SỬ TIẾN HÓA CỦA DỮ LIỆU)

Tác giả:

Chris Wiggins (Nhà Toán học và Khoa học dữ liệu)

Matthew L. Jones (Nhà lịch sử)

Làm thế nào mà chúng ta lại đang sống trong một thực tại được điều khiển bởi các thuật toán và làm thế nào chúng ta có thể chọn một cách sống khác. Chúng ta có thể đã không có công nghệ tiến bộ vượt bậc như hiện này và cũng không có nhiều sự tranh cãi đến vậy nếu không có dữ liệu. Vậy lịch sử đã tạo ra dữ liệu như thế nào và để làm gì?
Mọi lịch sử đều có một điểm khởi đầu và khởi đầu hữu ích cho Lịch sử dữ liệu là vào cuối thế kỉ XVIII, khoảng thời gian khi từ "thống kê" (statistics) xuất hiện trong ngôn ngữ tiếng Anh. Cho đến nay, dữ liệu có vai trò quan trọng trong mối quan hệ giữa quyền lực nhà nước, quyền lực của nhân dân và quyền lực của doanh nghiệp.

Dữ liệu được sử dụng cho việc trị quốc

Trong thế kỉ 18 ở Châu Âu, chiến tranh, thuế và những vấn đề liên quan đến sự sống và cái chết thường xuyên là mối quan tâm của các nhà cai trị. Thời đại này liên tục chứng kiến sự đan xen liên tục giữa chiến tranh với những khoảng lặng ngắn ngủi của hòa bình. Chiến tranh cần tiền, tiền cần thuế, thuế cần đòi hỏi sự phát triển của các cơ quan hành chính, và các cơ quan này cần dữ liệu: dân số, đất đại, kim loại, khả năng công nghiệp. Ban đầu, từ thống kê (statistics) chỉ đơn giản là thông tin về nhà nước và tài nguyên.

Dữ liệu để cải thiện xã hội

Bước sang thế kỉ 19, dữ liệu được áp dụng nhiều hơn vào mục tiêu cải thiện và quản lý xã hội, cùng với việc áp dụng toán học vào dữ liệu đã tạo ra một nền học thuật gọi là thống kê toán học.

Nhân vật lịch sử được kể đến là Adolphe Quetelet, nhà thiên văn học, toán học, thống kê học và xã hội học. Ông rất thích số liệu và đề nghị một hệ thống chính trị mới được tổ chức một cách khoa học, dựa vào dữ liệu về dân chúng để tái cấu trúc quyền lực, chứ không phải sử dụng vũ lực cách mạng vì theo ông: "Các động thái đột ngột (của cách mạng) không bao giờ diễn ra mà không có sự mất mát nhất định về lực lượng."

Dữ liệu và thống kê đã thay đổi cách thức quản trị truyền thống và sự hiểu biết về xã hội. Kể từ đó, dữ liệu chính là chính trị.

Dữ liệu trong chiến tranh, kinh doanh và AI

Trong chiến tranh thế giới lần thứ hai (thế kỉ 20), dữ liệu đã được ứng dụng cho việc giải mã các tin tức của quân Đức. Sự giải mã thành công phải kể đến việc áp dụng lý thuyết thống kê Bayes, mặc dù nhà thống kê học Thomas Bayes đề xuất lý thuyết này từ thế kỉ 18. (Những ai quan tâm có thể tìm hiểu về Frequentist Statistics và Bayesian Statistics)

Nhiều bạn đọc sẽ nhận ra tên tuổi của các nhà khoa học thống kê mà chúng ta vẫn thường sử dụng những phương pháp của họ như Fisher, Neyman, Pearson, vv.

Cuối thế kỉ 20, đầu thế kỉ 21 là sự bùng nổ của dữ liệu, và chúng ta đều biết giá trị của nó đối với kinh doanh, sự phát triển AI và quản lý nhà nước. Vì vậy, tôi sẽ không viết lại điểm này, cũng như các vấn đề đạo đức, bảo vệ thông tin và tự do của nhân dân.

Trong cuốn sách này, các tác giả cũng mô tả cho chúng ta thấy từ khởi đầu với một dữ liệu nhỏ được thu thập trên giấy và xử lý thủ công, cho đến dữ liệu lớn ngày nay và các phương pháp phân tích thống kê, học máy, học sâu được áp dụng, cùng với khả năng xử lý khủng khiếp của các máy tính. Hãy thử tưởng tượng nếu bạn mang 1 TB dữ liệu trở về quá khứ cho Nhà thiên văn học-nhà toán học Piere-Simon Laplace, ông ấy sẽ ngỡ ngàng đến thế nào?

Câu chuyện này tôi nhờ ChatGPT viết giúp, ngoài việc mô tả bối cảnh và tình huống cuốn hút, nội dung lời thoại mà ChatGPT viết tôi đánh giá thể hiện đúng bản chất của các vấn đề khoa học dữ liệu.

1 TERABYTE CHO NGÀI LAPLACE

Paris, 1799: Tiến sĩ V.N.L., nhà khoa học dữ liệu thế kỷ 21, thức dậy sau một thí nghiệm thời gian thất bại và thấy mình đang đứng trước Viện Hàn lâm Khoa học Pháp. Trong tay là một chiếc laptop hiện đại chứa 1TB dữ liệu, một ổ cứng di động, và... một cục sạc dự phòng.

CỖ MÁY CỦA TƯƠNG LAI

Nhà khoa học đứng trước một người đàn ông mặc áo choàng dài, ánh mắt sắc như dao – ngài Pierre-Simon Laplace, người vừa hoàn thành bản thảo cuốn Thuyết Xác Suất.

- Tôi đến từ tương lai, nhà khoa học nói, và tôi mang theo một món quà: 1 terabyte dữ liệu thực tế từ thế giới hiện đại.

Ngài Laplace cau mày:

- Một tera...byte? Là đơn vị đo gì vậy? Hơn bao nhiêu so với một cuốn sách?

Nhà khoa học cười : “Một cuốn sách như của ngài có thể chứa 1 triệu ký tự. Tôi có khoảng... 1 triệu cuốn như vậy trong chiếc hộp này.

Laplace lùi lại một bước : - Một triệu cuốn sách? Chỉ trong cái máy kia? Không thể nào.

THỐNG KÊ HIỆN ĐẠI

Nhà khoa học bật laptop. May mắn thay, pin vẫn còn, mở ra một thư mục các file Excel: dữ liệu dân số thế giới, tăng trưởng nhiệt độ, log truy cập web, dữ liệu COVID, cảm biến IoT, tín hiệu não...

Mỗi tệp dữ liệu đều có hàng triệu dòng. Nhà khoa học dữ liệu cho ông xem một biểu đồ về sự tăng trưởng dân số từ năm 1800 đến 2025. Ngài Laplace lặng đi.

- Chúa ơi… cô có thể thấy được tương lai?

Tiến sĩ mỉm cười:

- Không, tôi chỉ phân tích dữ liệu quá khứ đủ nhiều để dự đoán điều gì sẽ xảy ra tiếp theo. Đó chính là thống kê hiện đại. Ngài đã phát minh ra xác suất – nhưng bây giờ, chúng tôi dùng nó để dự đoán mọi thứ.

Tiến sĩ N. lại mở Google Colab, chạy một mô hình hồi quy dự đoán xác suất sống sót của bệnh nhân ung thư. Tiếp theo là một mô hình phân loại cảm xúc từ văn bản. Cuối cùng là một chatbot giống ChatGPT, phân tích ý nghĩa văn bản.

Ngài Laplace, một trong những cha đẻ của "Quỷ Laplace", lặng im một hồi lâu.

- Tôi từng nói rằng, nếu biết tất cả vị trí và động lượng của mọi vật thể, tôi có thể tiên đoán tương lai... Nhưng có vẻ như các bạn đã hiện thực hóa điều đó bằng dữ liệu.

Một khoảnh khắc im lặng. Ngài Laplace tiến đến gần laptop, chỉ vào dòng dữ liệu:

- Tất cả những điều này… là quan sát? Không phải lý thuyết?

Tiến sĩ N. gật đầu:

- Dữ liệu là thứ quan trọng nhất. Mô hình có thể thay đổi – nhưng nếu không có dữ liệu, mô hình chỉ là ảo tưởng.

Ngài Laplace ngẫm nghĩ: Vậy thì… tương lai của khoa học, không nằm ở lý thuyết thuần túy nữa, mà nằm ở việc hiểu thế giới thực một cách định lượng.

CUỘC CHIA TAY

Sắp cạn pin, cỗ máy thời gian bắt đầu hú lên nhẹ nhàng. Trước khi biến mất, nhà khoa học dữ liệu tương lai để lại một quyển sổ tay có ghi:

- Các khái niệm về hồi quy, kiểm định giả thuyết.

- Thuật toán Decision Tree, SVM, mạng nơ-ron...

- Cách phân tích dữ liệu.

... và cuốn sách "LỊCH SỬ TIẾN HÓA CỦA DỮ LIỆU". Ngài Laplace cầm chúng trên tay, mắt sáng rực: - Tôi không hiểu hết ngay lúc này. Nhưng tôi biết một điều – bạn vừa ném cho chúng tôi ánh sáng của tương lai.

TRỞ LẠI TƯƠNG LAI... Mọi thứ vẫn y nguyên... Nhưng tiến sĩ N. nhìn thấy trên bàn làm việc một bản thảo cũ từ năm 1802 với dòng chữ: "Journal des idées statistiques: Une visiteuse avec la lumière d’un autre siècle."

Trở lại trang chính

Page updated

Google Sites

Report abuse