Tuy nhiên, dữ liệu mà ứng dụng Street Bump thực sự tạo ra, được lưu lại trên các thiết bị có cài ứng dụng này, là sơ đồ ổ gà tập trung một cách có hệ thống ở những vực trẻ, giàu có, là nơi có nhiều người sở hữu điện thoại thông minh. Ứng dụng Street Bump cho chúng ta bộ dữ liệu lớn “N = Tất cả” theo nghĩa là ghi nhận lại từng cái xóc nảy của từng chiếc điện thoại có cài đặt ứng dụng. Việc này không giống như việc ghi nhận lại từng cái ổ gà. Kate Crawford, nghiên cứu viên của Microsoft, chỉ rõ rằng dữ liệu được tìm thấy ẩn chứa những độ chệch mang tính hệ thống và phải thật cẩn trọng mới có thể phát hiện và khắc phục chúng. Các bộ dữ liệu lớn dường như có tính bao hàm như “N = Tất cả” thường chỉ là sự huyễn hoặc quyến rũ.
…
Tuy nhiên, ai bận tâm đến quan hệ nhân quả hay độ chệch khi chọn mẫu trong khi người ta có thể kiếm tiền từ dữ liệu lớn? Các tập đoàn trên khắp thế giới ắt hẳn là thèm nhỏ dãi khi họ chiêm ngắm thành công thần kỳ của chuỗi cửa hàng bách hóa Target của Mỹ, Charles Duhigg đã tường thuật thành công của Target bằng một bài viết đình đám trên tờ The New York Times vào năm 2012. Duhigg lý giải rằng Target đã thu thập rất nhiều dữ liệu về khách hàng của họ, và Target rất tài tình khi phân tích bộ dữ liệu đó, và Target cực kỳ thấu hiểu khách hàng.
Giai thoại chết người của Duhigg là về một người đàn ông đã xông vào cửa hàng Target gần Minneapolis và phàn nàn với người quản lý về việc công ty gửi phiếu giảm giá mặt hàng quần áo trẻ sơ sinh và thời trang thai sản cho cô con gái tuổi teen của ông. Người quản lý đã xin lỗi rối rít và sau đó còn gọi điện xin lỗi thêm lần nữa – mục đích chỉ là muốn nghe người cha thú nhận rằng cô gái tuổi teen thực sự đang mang thai. Cha cô gái không biết con mình có thai. Target thì biết sau khi họ phân tích các giao dịch mua khăn giấy ướt không mùi và thuốc bổ sung magiê của cô gái.
Huyền thuật thống kê ư? Có một cách lý giải thực tế hơn.
Theo Kaiser Fung,, người đã bỏ ra nhiều năm nghiên cứu phát triển các phương pháp tương tự cho những nhà bán lẻ và các công ty quảng cáo, thì “Có rất nhiều vấn đề tưởng thật nhưng là sai lầm”. Ý Fung muốn nói là người ta đã không nhắc đến vô số câu chuyện về những phụ nữ nhận phiếu giảm giá mặt hàng quần áo trẻ sơ sinh nhưng lại không đang mang thai.
Căn cứ vào các giai thoại, người ta dễ ngộ nhận rằng các thuật toán của Target không bao giờ sai – bất cứ ai nhận được phiếu giảm giá mặt hàng áo liền quần của trẻ sơ sinh và khăn giấy ướt đều đang mang thai. Rõ ràng không đúng. Thực tế, những phụ nữ đang mang thai nhận được phiếu giảm giá chỉ đơn giản vì Target đã gửi phiếu giảm giá đến toàn bộ khách hàng trong danh sách của họ. Trước tiên, chúng ta không nên đồng tình với suy nghĩ cho rằng Target sử dụng những nhân viên đọc được suy nghĩ của khách hàng rồi mới ngồi đếm xem mỗi lần đúng thì có mấy lần sai.
The cách lý giải của Charles Duhigg, Target xáo trộn các phiếu giảm giá ngẫu nhiên, ví dụ như phiếu giảm giá mặt hàng ly uống rượu, vì các khách hàng đang mang thai sẽ cảm thấy kinh sợ nếu họ nhận ra máy tính công ty hiểu họ tường tận như thế nào.
Fung còn có một cách lý giải khác: Target xáo trộn các phiếu giảm giá không phải vì họ sợ gửi tập phiếu giảm giá toàn mặt hàng trẻ sơ sinh cho một phụ nữ đang mang thai nào đó mà vì công ty biết rằng trong số các tập phiếu giảm giá đó rốt cuộc sẽ có nhiều tập đến tay những người phụ nữ đang không mang thai.
Những cách lý giải trên không có ý phủ nhận giá trị của việc phân tích dữ liệu khách hàng: các phân tích kiểu như vậy có thể sinh ra lợi nhuận rất đáng kể. Thậm chí khi mức độ chính xác của việc gửi phiếu giảm giá đặc biệt có mục tiêu xác định gia tăng lên chút ít cũng là một thành tựu đáng kể để phấn đấu. Tuy nhiên, không nên kết hợp khả năng sinh lời với sự toàn tri.
Năm 2005, John Ioannidis, chuyên gia dịch tễ học, đã công bố một bài nghiên cứu có tiêu đề rõ ràng đến mức không cần giải thích gì thêm, “Why Most Published Research Findings Are False” (Tại sao hầu hết các kết quả nghiên cứu đều sai). Bài nghiên cứu nổi đình nổi đám vì đã lột tả một vấn đề hệ trọng một cách đầy khiêu khích. Một trong các ý tưởng chủ chốt đằng sau công trình của Ioannidis chính là “vấn đề kiểm định nhiều giả thuyết” theo ngôn ngữ của các chuyên gia thống kê.
Khi khảo sát một mô thức trong dữ liệu, người ta thường đặt câu hỏi về khả năng mô thức đó xuất hiện một cách ngẫu nhiên. Nếu mô thức được quan sát ít có khả năng xảy ra một cách ngẫu nhiên, thì mô thức đó “có ý nghĩa thống kê”.
Vấn đề kiểm định nhiều giả thuyết xuất hiện khi một nhà nghiên cứu xem xét nhiều mô thức khả dĩ cùng một lúc. Xét một ví dụ về thực nghiệm ngẫu nhiên, theo đó người ta phát vitamin cho một số học sinh tiểu học, số khác được phát cho giả dược. Liệu rằng vitamin có tác dụng không? Câu trả lời hoàn toàn phụ thuộc vào việc chúng ta hiểu “tác dụng” là như thế nào. Các nhà nghiên cứu có thể nhìn vào chiều cao, cân nặng của trẻ, tỉ lệ sâu răng, hành vi trong lớp học, điểm kiểm tra, thậm chí là lý lịch tư pháp hoặc thu nhập khi 25 tuổi (chờ đến khi trẻ trưởng trẻ giàu, trẻ trai, trẻ gái hay không? Việc kiểm định đầy đủ các tương quan khác nhau và các kết quả may ra mới trúng sẽ nhấn chìm mọi khám phá thực sự.
Có nhiều cách giải quyết nhưng vấn đề lại càng trầm trọng hơn đối với các bộ dữ liệu lớn, vì có nhiều giả thuyết để kiểm định hơn là có nhiều dữ liệu để kiểm định. Nếu không phân tích cẩn thận, tỉ lệ mô thức thực sự so với mô thức giả tạo – một dấu hiệu của nhiễu – sẽ nhanh chóng tiến về 0.
Tệ hại hơn nữa, một trong các liều thuốc giải đối với vấn đề nhiều giả thuyết là sự minh bạch, cho phép những nhà nghiên cứu khác xác định số lượng giả thuyết được kiểm định và số lượng kết quả trái ngược đang mòn mỏi đợi chờ trong các ngăn kéo vì chúng có vẻ không hấp dẫn để công bố rộng rãi. Nhưng, dữ liệu được tìm thấy hiếm khi được bạch hóa. Amazon và Google, Facebook và Twitter, Target và Tesco – những công ty này không sẵn sàng chia sẻ thông tin với bạn hay với bất kỳ ai khác.
Các bộ dữ liệu mới, đồ sộ, rẻ tiền và các công cụ phân tích mạnh mẽ sẽ tạo ra tiền cổ tức – không ai nghi ngờ điều này. Và có một vài trường hợp, việc phân tích dữ liệu lớn đã mang lại kết quả thần kỳ. David Spiegelhalter đến từ Cambridge đề cập đến Google Translate, một công cụ vận hành bằng cách phân tích thống kê hàng trăm triệu tài liệu đã được con người chuyển ngữ và tìm kiếm mô thức mà nó có thể sao chép. Đây là ví dụ về “học máy” (machine learning) theo ngôn ngữ của các nhà khoa học máy tính, và công cụ dịch có thể cho ra các kết quả đáng kinh ngạc mà không cần đến những nguyên tắc ngữ pháp được lập trình sẵn. Công cụ dịch này của Google gần giống chiếc hộp đen chứa các thuật toán vận hành dựa vào dữ liệu và không bị chi phối bởi lý thuyết – và theo Spiegelhalter thì đó là “một thành tựu tuyệt vời”. Thành tựu đó được tạo ra trên nền tảng xử lý khéo léo các bộ dữ liệu khổng lồ.
Nhưng dữ liệu lớn không giúp giải quyết vấn đề đã ám ảnh các chuyên gia thống kê và các nhà khoa học trong nhiều thế kỷ qua: vấn đề thấu hiểu, vấn đề suy diễn điều gì đang xảy ra, và vấn đề xác định cách thức chúng ta có thể can thiệp nhằm cải thiện hệ thống.
Giáo sư David Hand đến từ trường Imperial College London nói rằng: “Chúng ta có một nguồn lực mới ở đây”. “Nhưng không ai muốn có “dữ liệu” đơn thuần cả. Cái họ muốn là các câu trả lời”.
Các phương pháp thống kê cần phải có những bước tiến dài để có thể làm được điều ấy.
Patrick Wolfe đến từ trường Đại học London (London College) phát biểu rằng: “Hiện trạng còn rất hoang sơ”. “Những người khôn ngoan và có động cơ sẽ xoay sở và tận dụng mọi công cụ khiến cho các bộ dữ liệu này lên tiếng, và quả là tuyệt vời. Nhưng trước mắt, chúng ta vẫn đang mò mẫm”.
Các chuyên gia thống kê đang vật lộn để phát triển các phương pháp mới nhằm đón bắt cơ hội của dữ liệu lớn. Chúng ta cần những phương pháp mới đó, nhưng chúng ta không được bỏ qua mà phải lấy các bài học thống kê truyền thống làm nền tảng phát triển các phương pháp mới để chúng có thể phát huy tác dụng.
Nhắc lại tuyên bố khẳng định của dữ liệu lớn. Độ chính xác kỳ lạ dễ thổi phồng kết quả nếu chúng ta lờ đi các trường hợp tưởng thật nhưng là sai lầm, như trường hợp dự báo về thai kỳ của Target. Tuyên bố cho rằng quan hệ nhân quả “đã bị hạ bệ” là đúng nếu chúng ta dự báo trong môi trường ổn định, nhưng lại là sai nếu thế giới biến động không ngừng (như trường hợp Dịch cúm) hay khi bản thân chúng ta muốn thay đổi thế giới. Sự hứa hẹn “N = Tất cả”, và do đó mà vấn đề độ chệch khi lấy mẫu không còn nữa, lại không đúng trong hầu hết các trường hợp được nhắc đến. Quan điểm cho rằng “khi có đủ dữ liệu trong tay, các con số sẽ nói lên tất cả” có vẻ chất phác một cách tuyệt vọng khi gặp phải những bộ dữ liệu mà các mô thức giả tạo lấn át các khám phá thực sự.
Thời đại “dữ liệu lớn” đã đến, nhưng thời đại của nhận thức sâu sắc thì chưa. Thách thức hiện tại là giải quyết các vấn đề mới và tìm được các câu trả lời mới mà không lặp lại những sai lầm về mặt thống kê trên một quy mô lớn hơn bao giờ hết.
Người dịch: Trần Thị Minh Ngọc
Nguồn: Big data: are we making a big mistaker? – FT Magazine, 28/03/2014.