Tim Harford
Dữ liệu lớn là thuật ngữ mơ hồ chỉ một hiện tượng có quy mô đồ sộ đã nhanh chóng trở thành mối quan tâm thường trực của các chủ doanh nghiệp, các nhà khoa học, các chính phủ và giới truyền thông.
Cách đây năm năm, một nhóm các nhà nghiên cứu của Google đã công bố một kết quả nghiên cứu đáng chú ý trên tạp chí Nature, một trong các tạp chí khoa học hàng đầu thế giới. Không cần sử dụng đến kết quả của bất cứ chương trình khám sức khỏe nào, ấy vậy mà họ vẫn có thể theo dõi được sự lây lan của dịch cúm trên khắp nước Mỹ. Không chỉ vậy, họ còn có thể làm được điều này nhanh hơn cả các trung tâm kiểm soát và phòng ngừa ịch bệnh (Centers for Disease Control and Prevention – CDC). Google lần theo dấu vết và báo cáo kết quả chỉ sau một ngày, trong khi CDC phải mất một tuần hoặc lâu hơn để tổng hợp tình hình dựa trên báo cáo của các phòng mạch. Google đã nhanh hơn vì nó theo dõi sự bùng phát của dịch cúm bằng cách lần ra sự tương quan giữa nội dung người ta tìm kiếm trực tuyến và hiệu chứng nhiễm cúm của người dùng.
“Google Flu Trends” (Công cụ dự báo dịch cúm của Google) không những nhanh, chính xác và rẻ tiền, mà lại không bị chi phối bởi lý thuyết nào cả. Các kỹ sư của Google đã không phải bận tâm xây dựng giả thuyết về từ khóa nào – “các triệu chứng cúm” hay “các hiệu thuốc gần nhà” – có thể tương quan với sự lây lan của dịch bệnh. Nhóm kỹ sư của Google chỉ chọn ra 50 triệu từ khóa phổ biến nhất và phần việc còn lại do các thuật toán đảm nhiệm.
Sự thành công của Google Flu Trends đã trở thành biểu trưng cho một xu hướng mới nổi bật trong kinh doanh, công nghệ và khoa học: “Dữ liệu lớn”. Các nhà báo phấn khởi hỏi rằng: Giới khoa học có thể học được gì từ Google?
So với nhiều thuật ngữ thời thượng, “dữ liệu lớn” là một thuật ngữ mơ hồ, thường được giới kinh doanh bàn tán đến. Một số người nhấn mạnh quy mô đồ sộ của các bộ dữ liệu hiện hữu – ví dụ như hệ thống máy tính của máy gia tốc hạt lớn (LHC hay Large Hadron Collider) lưu trữ 15 Petabytes dữ liệu mỗi năm, tưng đương với dung lượng của kho nhạc yêu thích của bạn được tải trong 15.000 năm.
Nhưng loại “dữ liệu lớn” đang thu hút sự quan tâm của nhiều công ty có thể được xem là “dữ liệu tìm được” từ các tập tin kỹ thuật số do các trình duyệt tạo ra chúng ta khi lướt web, từ các giao dịch thanh toán bằng thẻ tín dụng và từ các thiết bị di động kết nối với cột ăngten điện thoại gần nhất. Google Flu Trends được xây dựng trên nền tảng các dữ liệu tìm được và chính loại dữ liệu này mới là loại tôi quan tâm ở đây. Các bộ dữ liệu như vậy thậm chí còn lớn hơn dữ liệu của LHC – dữ liệu của Facebook là dữ liệu lớn – nhưng điều đáng chú ý chính là việc thu thập loại dữ liệu này không mấy tốn kém khi xét trong tương quan với quy mô của chúng. Các bộ dữ liệu lớn là sự chắp nối lộn xộn các đơn vị dữ liệu được thu thập cho nhiều mục đích khác nhau và được cập nhật liên tục theo thời gian thực. Khi hoạt động truyền thông, giải trí và thương mại được đẩy lên Internet và Internet được tích hợp trên điện thoại, trong xe hơi và thậm chí trên kính đeo mắt của chúng ta, cuộc sống có thể được lưu lại và được phân tích theo cách thức mà chỉ cách đây một thập kỷ thôi con người khó lòng mà hình dung ra.
Những người cổ vũ cho dữ liệu lớn đã đưa ra bốn tuyên bố khẳng định thú vị, tuyên bố nào cũng mang lại thành công của Google Flu Trends: thứ nhất, việc phân tích dữ liệu lớn tạo ra các kết quả chính xác đến kỳ lạ; thứ hai, có thể nắm bắt không sót một đơn vị dữ liệu nào, khả năng này khiến cho kỹ thuật thống kê chọn mẫu truyền thống trở nên lỗi thời; thứ ba, không còn phải băn khoăn đâu là nhân đâu là quả nữa, bởi vì sự tương quan về mặt thống kê sẽ cho chúng ta biết những gì chúng ta cần biết; và thứ tư, các mô hình khoa học hay các mô hình thống kê không còn cần thiết nữa vì “khi có đủ dữ liệu trong tay, các con số sẽ nói lên tất cả” (nội dung trong ngoặc kép được trích trong bài “The End of Theory” (Sự cáo chung của lý thuyết)), một bài luận đầy khiêu khích đăng trên Wired năm 2008.
Chẳng may, trong tình huống tốt nhất thì bốn tuyên bố khẳng định trên mang lại sự giản tiện hóa cao độ khả quan. Trong tình huống xấu nhất, theo David Spiegelhalter, Giáo sư Winton nghiên cứu Hiểu biết của Công chúng về Rủi ro tại Đại học Cambridge, thì dữ liệu lớn có thể là “thứ rác rưởi đơn thuần. Hoàn toàn vô nghĩa”.
Dữ liệu tìm được hình thành nên cơ sở vững chắc cho nền kinh tế Internet mới khi các công ty như Google, Facebook và Amazon tìm kiếm những phương cách mới nhằm hiểu thấu cuộc sống của chúng ta thông qua các dấu vết được lưu lại khi chúng ta lướt web. Kể từ khi Edward Snowden tiết lộ bí mật về quy mô và phạm vi hành vi theo dõi của Hoa Kỳ bằng các thiết bị điện tử, chúng ta càng thấy rõ các dịch vụ an ninh cũng chỉ quan tâm đến những thông tin mà họ thu thập được từ các dấu vết chúng ta để lại khi lướt web mà thôi.
Các chuyên gia tư vấn thúc giục những ai thờ ơ với dữ liệu cần phải tỉnh ngộ trước tiềm năng của dữ liệu lớn. Một báo cáo gần đây của Viện McKinsey Toàn cầu đã ước lượng rằng hệ thống chăm sóc sức khỏe của Hoa Kỳ đã có thể tiết kiệm 300 tỷ USD mỗi năm – tức 1000 USD tính bình quân trên mỗi công dân Hoa Kỳ – thông qua việc tích hợp và phân tích dữ liệu được sinh ra từ các thử nghiệm lâm sàng, các giao dịch bảo hiểm y tế cho đến các đôi giày chạy bộ thông minh.
Nhưng trong khi dữ liệu lớn hứa hẹn nhiều triển vọng dành cho các nhà khoa học, các doanh nhân và các chính phủ, thì chính dữ liệu lớn sẽ làm chúng ta thất vọng nếu chúng ta không quan tâm đến những bài học thống kê hết sức quen thuộc.
Spiegelhalter cho rằng: “Có rất nhiều vấn đề của dữ liệu nhỏ mà dữ liệu lớn cũng phải đối mặt”. “Các vấn đề đó không tiêu biến đi vì bạn có trong tay nhiều dữ liệu. Dữ liệu càng lớn, các vấn đề đó càng trầm trọng hơn”.
…
Bốn năm sau khi bài báo nguyên thủy được công bố trên tạp chí Nature, Bản Tin của tạp chí Nature đã loan báo một tin không hay: đợt bùng phát gần nhất của dịch cúm đã tấn công một nạn nhân bất ngờ: Google Flu Trends. Qua nhiều mùa đông cung cấp báo cáo chính xác và nhanh chóng về các đợt bùng phát của dịch cúm một cách đáng tin cậy, thì mô hình không bị chi phối bởi lý thuyết và có nguồn dữ liệu phong phú đã không còn đánh hơi được dịch cúm đang lan tới đâu. Mô hình của Google đã chỉ ra một đợt bùng phát dữ dội, nhưng khi dữ liệu chậm mà chắc của CDC đổ về thì người ta phát hiện ra rằng các ước lượng của Google về sự lây lan của những căn bệnh có vẻ như cúm đã bị khuếch đại lên gần như gấp 2 lần.
Vấn đề là Google không biết – không thể có sự khởi đầu để biết – điều gì đã tạo ra sự tương quan các từ khóa với sự lây lan của dịch cúm. Các kỹ sư của Google đã không cố gắng tìm hiểu đâu là nhân đâu là quả. Họ hầu như chỉ tìm ra các mô thức mang tính thống kê trong dữ liệu. Họ quan tâm đến tương quan hơn là nhân quả. Điều này khá phổ biến trong các phân tích sử dụng dữ liệu lớn. Xác định đâu là nhân đâu là quả không hề dễ dàng (một số người còn cho là bất khả). Xác định sự tương quan lại ít tốn kém và dễ dàng hơn. Theo nội dung cuốn sách Big Data của Viktor Mayer-Schӧnberger và Kenneth Cukier, đó chính là lý do tại sao “quan hệ nhân quả sẽ không bị vứt bỏ, nhưng lại đang bị hạ bệ, không còn được coi là cội nguồn của ý nghĩa nữa”.
(còn tiếp)
Người dịch: Trần Thị Minh Ngọc
Nguồn: Big data: are we making a big mistaker? – FT Magazine, 28/03/2014.