Công khai thông tin tình báo sớm, nên hay không?


Amy B. Zecart

Tại sao Mỹ lại hăng hái tới vậy trong việc công khai các thông tin tình báo bí mật khi Nga chuẩn bị tấn công Ukraine? Bởi không gian mạng cũng là một mặt trận, và dữ liệu là một vũ khí.

Cuộc tấn công của Nga vào Ukraine giống như một cuộc Chiến tranh Lạnh kinh hoàng đang trở lại. Một lần nữa, xe tăng Nga lại lăn bánh qua biên giới, và một quốc gia có chủ quyền đang chiến đấu cho sự tồn tại của mình, ban đầu chẳng được trang bị gì ngoài những chai bom xăng thô sơ và một niềm tin mãnh liệt vào tự do. Đối với tất cả các cuộc thảo luận về các công nghệ mới nổi và những mối đe dọa mới, thì bạo lực ở Ukraine mang lại cảm giác thô sơ và công nghệ thấp, và thế giới đột nhiên trong cũ kỹ trở lại.

Tuy nhiên, giữa tất cả những dư âm này của quá khứ, cuộc tấn công của Nga đã mở ra một bước phát triển hoàn toàn mới và có thể thay đổi đáng kể địa chính trị trong tương lai: công khai các thông tin tình báo tuyệt mật vào ngay thời điểm sự việc đang diễn ra.

Chưa bao giờ Chính phủ Hoa Kỳ tiết lộ nhiều, chi tiết, nhanh chóng và liên tục về một kẻ thù như vậy. Mỗi ngày dường như đều có những cảnh báo mới, không phải kiểu cảnh báo mơ hồ “Nga có thể có hoặc có thể không”, mà là kiểu cảnh báo “đây là hình ảnh vệ tinh hiển thị lên đến 175.000 quân Nga tại các địa điểm cụ thể gần biên giới”. Ngay cả khi nhà lãnh đạo Nga Vladimir Putin tuyên bố rằng ông không có kế hoạch xâm lược và Tổng thống Ukraine Volodymyr Zelensky phàn nàn rằng Hoa Kỳ đang thổi phồng mối đe dọa và làm chao đảo nền kinh tế của nước ông, các thông tin tình báo vẫn tiếp tục được tung ra – nêu chi tiết về số lượng và địa điểm quân được cập nhật, lịch trình xâm lược, thương vong ước tính và hơn thế nữa. Cảm giác như đang xem một trận cuồng phong sắp đổ bộ vào đất liền.

Thông tin tình báo được tiết lộ không chỉ về các hoạt động quân sự, mà còn về các kế hoạch bí mật là nòng cốt trong hoạt động tình báo của Nga. Các sĩ quan tình báo của Mỹ và Anh đã gióng lên hồi chuong cảnh báo về những âm mưu dàn dựng một cuộc đảo chính ở Kyiv, dựng lên chế độ bù nhìn và tiến hành các chiến dịch “treo cờ giả” để tạo ra những cái cớ giả tạo nhằm biện minh cho một cuộc xâm lược thực sự. Theo các quan chức Mỹ, có một kế hoạch của Nga liên quan đến việc cử những kẻ phá hoại đến miền Đông Ukraine để tấn công lực lượng ly khai Nga ở đó, khiến Ukraine có vẻ như là kẻ gây hấn và quân đội của Putin sẽ đến giải cứu. Một kế hoạch khác liên quan đến việc tạo một video giả mô tả sự bàn bạo của người Ukraine, được hoàn chỉnh với các diễn viên và xác chết.

Ba cách giải thích

Sẽ không dễ để nói quá về mức độ thay đổi mà điều này thể hiện. Tình báo là một thế giới được bảo vệ chặt chẽ, trong đó các quan chức không thích công khai những gì họ biết, hoặc làm thế nào họ biết, vì sợ đặt các nguồn tin vào rủi ro hoặc tiết lộ cho đối  thủ biết họ có bao nhiêu thông tin. Trong quá khứ, Hoa Kỳ chỉ công khai chia sẻ thông tin tình báo với những đồng minh thân cận nhất và hạn chế việc sử dụng các thông tin này. Lần này tại sao Nhà Trắng lại cởi mở như vậy? Cho đến nay, chính quyền Biden không nói gì nhiều về mục tiêu của chiến lược tình báo thẳng thắn đầy cấp tiến này. Nhưng dường như có ba cách giải thích.

Cách lý giải đầu tiên cho hành động này là phải truyền bá thông tin ra thế giới để chống lại chiến tranh thông tin bằng cách đưa ra sự thật trước khi những lời nói dối xuất hiện. Bản chất của các tiết lộ tình báo của Hoa Kỳ và đồng minh là “Đừng tin một lời nào mà Điện Kremlin sẽ nói với bạn. Tất cả chỉ là trò lừa bịp”. Người Nga là những chuyên gia trong lĩnh vực này, và trong các sự kiện trước đây – như gần đây là việc sáp nhập Crimea năm 2014 và cuộc bầu cử Hoa Kỳ năm 2016 – họ đã chiếm ưu thế. Chiến lược của Putin là làm tràn ngập khu vực với các thông tin giả, lan truyền thông tin sai lệch từ sớm và thường xuyên. Nghiên cứu tâm lý học cho thấy lý do tại sao cách này lại hiệu quả như vậy. Một khi đã tin những lời nói dối, chúng sẽ khó lay chuyển được, ngay cả khi đối mặt với những sự thật áp đảo. Lợi thế của người đi đầu trong chiến tranh thông tin là rất lớn. Đưa sự thật ra ánh sáng trước kẻ lừa đảo sẽ giúp tập hợp các đồng minh và tăng cường sự hỗ trợ ở Hoa Kỳ và ở nước ngoài.

Việc tiết lộ thông tin tình báo cũng tạo thêm khó khăn cho Putin, khiến ông ta mất thăng bằng. Thay vì làm chủ cuộc chơi và xử lý cuộc khủng hoảng Ukraine theo lịch trình của mình, Putin phải đáp trả với Washington. Và thay vì hành động mà không bị trừng phạt, ông ta phải dành tài sản quý giá nhất của mình – là thời gian – để lo lắng về những điểm yếu tình báo của chính mình. Làm thế nào mà Hoa Kỳ và các đồng minh biết được những gì họ biết? Họ sẽ làm gì với những thông tin có được từ sớm này? Những lỗ hổng tình báo nào của Nga phải được sửa chữa? Putin càng lo lắgn về các lỗ hổng tình báo của mình thì ông ta càng ít chú ý đến việc làm tổn thương người khác.

Bộ Tư lệnh không gian mạng Hoa Kỳ đã áp dụng một cách tiếp cận tương tự vào năm 2018 và gọi đó là “sự tham gia bền bỉ”. Ý tưởng rất đơn giản nhưng mạnh mẽ: Làm suy yếu hành vi tấn công của đối phương bằng cách khiến nó phải hoạt động nhiều hơn rất nhiều trong việc phòng thủ. Putin là một mục tiêu lý tưởng cho loại chiến lược này. Ông ta là một cựu đặc nhiệm tình báo có chút hoang tưởng và bị ám ảnh về các kẻ thù ở cả trong nước, chứ không chỉ riêng kẻ thù ở nước ngoài. Bạn có thể đưa người đàn ông đó ra khỏi KGB, nhưng không thể đưa KGB ra khỏi ông ta.

Cuối cùng, việc chủ động tiết lộ thông tin tình báo khiến các quốc gia khác khó đứng ngoài cuộc xung đột hoặc hỗ trợ thầm lặng cho Putin bằng cách ẩn sau những câu chuyện che đậy của ông ta. Hãy thử nghĩ nếu ngược lại, đó là một hành động bí mật – bắt buộc phải công khai những gì đang thực sự diễn ra để mọi người phải chọn bên.

Trong kiểu hành động bí mật, các chính phủ che giấu sự tham gia chính thức của họ vào một hoạt động nào đó. Một trong những lợi ích chính của hành động bí mật là nó cho phép các quốc gia khác giúp đỡ những “kẻ ranh mãnh”. Ngay cả khi tất cả mọi người đều biết sự thật, họ vẫn giả vờ như không biết, và lịch sử cho thấy ngay cả những cái cớ mỏng manh nhất cũng có thể cho các quốc gia một cơ hội đáng ngạc nhiên. Ví dụ, khi Liên Xô tấn công Afghanistan năm 1979, Hoa Kỳ đã tiến hành một chiến dịch bí mật khổng lồ để trang bị cho các mujahid (chiến binh thánh chiến) Afghanistan. Liên Xô biết Hoa Kỳ đang làm gì, và Hoa Kỳ biết rằng Liên Xô biết. Nhưng hành động bí mật cho phép Pakistan và Ai Cập âm thầm giúp đỡ các nỗ lực của Mỹ mà không sợ bị Liên Xô trả đũa. Nó cũng mang lại lợi ích cho Liên Xô, giữ cho một cuộc chiến ủy nhiệm ở Afghanistan không trở thành một cuộc chiến nóng bỏng chống lại Hoa Kỳ và kho vũ khí hạt nhân của nước này.

Trong cuộc khủng hoảng Ukraine hiện nay, các tiết lộ thông tin tình báo đang làm điều ngược lại. Bằng cách loại bỏ tấm màn che đậy, Washington và các đồng minh đang để lại khoảng trống quý giá rất nhỏ cho các nước khác có thể đứng bên lề hoặc dễ dàng hỗ trợ Putin. Thụy Sĩ, một quốc gia nổi tiếng về tính trung lập và sẵn sàng giao dịch với “kẻ xấu”, đã ký vào các lệnh trừng phạt của Liên minh châu Âu. Nước Đức không còn lung lay nữa, cuối cùng đã từ chối đường ống dẫn khí Nord Stream 2 và trong nháy mắt đã chuyển từ một nước tụt hậu về chi tiêu quốc phòng của NATO thành một nước dẫn đầu. Cách đây không lâu, khoảng một trăm nhà ngoại giao đã quay lưng lại với Nga theo đúng nghĩa đen, bước ra khỏi cuộc họp của Hội đồng Nhân quyền Liên hợp quốc khi Ngoại trưởng Nga Sergey V. Lavrov phát biểu.

Chiến thuật có thể phản tác dụng

Chắc chắn là sự thống nhất của thế giới về bất kỳ cuộc khủng hoảng nào cũng không bao giờ kéo dài. Trung Quốc vẫn nghiêng nhiều về Moscow trong hầu hết mọi việc. Và tình báo chỉ là một trong số nhiều yếu tố trong cuộc chơi. Không quốc gia nào muốn bị cuốn vào làn sóng của các lệnh trừng phạt toàn cầu, bị coi là mắt xích yếu trong NATO, hoặc bị coi là chọn sai bên trong lịch sử. Nhưng việc tiết lộ thông tin tình báo đã trở thành một công cụ mới rất mạnh mẽ. Các quốc gia sẽ khó trốn tránh sau câu chuyện giả dối của Nga hơn rất nhiều khi câu chuyện bị bóc trần trước khi nó được Putin nói ra.

Chiến lược tình báo này rất mới và thông minh, nhưng không phải là không có rủi ro. Sử dụng bí mật lúc này có thể đồng nghĩa với việc bị mất bí mật sau này. Bất cứ khi nào thông tin tình báo được tiết lộ công khai, sẽ có nguy cơ đối phương phát hiện ra các nguồn tin và phương pháp, đe dọa tính mạng và gây nguy hiểm cho khả năng tiếp tục thu thập thông tin tình báo từ các nguồn kỹ thuật và con người trong tương lai. Đó là lý do tại sao các cơ quan tình báo luôn quyết liệt chống lại việc tiết lộ thông tin.

Tiết lộ thông tin tình báo cũng có thể khiến các cuộc khủng hoảng khó xử lý hơn. Công khai những ý định và khả năng bí mật của kẻ thù còn có thể gây bẽ mặt. Điều đó có thể khiến bạn cảm thấy vui, nhưng chìa khóa để giải quyết khủng hoảng không phải là khiến kẻ thù của bạn bị dồn vào chân tường; mà là tìm các lối thoát để giữ thể diện. Ngoại giao tức là mang lại cho bên kia một lối thoát ngay cả khi bạn ghét anh ta vì những gì anh ta đã làm.

Cuối cùng, trong một thế giới tiết lộ triệt để, những thành công trong lĩnh vực tình báo có thể bị hiểu nhầm là thất bại. Ví dụ, hãy tưởng tượng rằng những tiết lộ tình báo về kế hoạch xâm lược của Putin đã khiến ông ta thay đổi suy nghĩ và quyết định không tấn công Ukraine nữa. Thông tin tình báo lẽ ra đã chính xác và hiệu quả  nhưng lại có vẻ sai lầm và vô ích. Nhiều người sẽ kết luận rằng ban đầu Putin hẳn là không bao giờ có ý định xâm lược, và các cơ quan gián điệp của Mỹ – từng bị chỉ trích về cuộc chiến Iraq, về sự thất bại trong việc ngăn chặn vụ 11/09 và vô số những bước đi sai lầm khác – lại mắc sai lần lần nữa. Niềm tin vào cộng đồng tình báo của Mỹ sẽ bị xói mòn, mặc dù điều đó không nên xảy ra.

Tuy nhiên, cho đến nay, bằng chứng từ cuộc chiến tranh ở Ukraine cho thấy thành tựu của chiến lược tiết lộ thông tin tình báo này lớn hơn nhiều so với rủi ro. Từ trước tới nay, sự lừa dối nhờ có không gian mạng dường như đang chiếm ưu thế. Cuộc chiến Ukraine đã dạy chúng ta rằng sự thật và tiết lộ vẫn có thể là vũ khí mạnh mẽ, ngay cả trong thời đại kỹ thuật số.

Người dịch: Minh Thư

Nguồn: Tạp chí Phương Đông – số 45 – 09/2022

Việt Nam cần xây dựng hệ thống rà quét tự động các nội dung xấu, độc đối với trẻ em


Theo đài RFA, thời gian qua, các vụ việc liên quan đến các thông tin xấu, độc trên môi trường mạng ngày càng phổ biến và có những tác hại có thể nhìn thấy rõ rệt đối với trẻ em. Ông Hoàng Minh Tiến – Phó cục trưởng Cục An toàn thông tin, Bộ Thông tin và Truyền thông – khi trả lời báo chí trong nước mới đây cho rằng Việt Nam cần hệ thống rà quét tự động các nội dung xấu, độc đối với trẻ em.

Liên quan vấn đề này, ông Nguyễn Tử Quảng, Chủ tịch Tập đoàn Công nghệ BKAV, cho biết việc xây dựng hệ thống rà quét tựđộng các nội dung xấu, độc với trẻ em trên quy mô lãnh thổ không hề dễ dàng. Ông Quảng cho rằng: “Vấn đề này đang gây nhức nhối ở Việt Nam, vì trẻ em hiện nay được cầm smart phone tương đối phổ biến và gần như mọi người chưa áp dụng các biện pháp bảo vệ trước những thông tin xấu… dẫn đến việc trẻ em tiếp xúc chưa đúng lứa tuổi. Đây là vấn đềlớn của Việt Nam. Việc xây dựng bộ lọc cho toàn hệ thống Internet ở Việt Nam là có thể nhưng không hề dễ, giống như câu chuyện của Facebook, họ đang rất đau đầu với việc ngăn chặn các thông tin xấu, độc trên mạng của họ”.

Mới đây, Thủ tướng Chính phủ Việt Nam đã ký Quyết định số 830 phê duyệt Chương trình “Bảo vệ và hỗ trợ trẻ em tương tác lành mạnh, sáng tạo trên môi trường mạng giai đoạn 2021 – 2025”. Tuy nhiên, theo một báo cáo của Quốc hội vào tháng 5/2020, Việt Nam có khoảng 24 triệu trẻ em dưới 16 tuổi, 10% trong số đó không được đến trường và sẽ khó tiếp cận những chương trình giáo dục về kỹ năng bảo vệ bản thân trên môi trường mạng.

Một giáo viên tiểu học ở TPHCM, cũng là một phụ huynh có con nhỏ, cho tôi biết:

Tôi thấy thông tin trên mạng, nhất là YouTube, ảnh hưởng rất tiêu cực đến trẻ khi mà cha mẹ cho con tự do xem điện thoại di động. Bản thân tôi thấy có những lời lẽ mà khi đã xem rồi sẽ ăn sâu vào tâm lý trẻ. Sau đó, trẻ sẽ bắt chước làm lại hay nói lại với bạn bè trong giờ chơi bằng những lời lẽ trên YouTube…”.

Theo giáo viên này, phụ huynh nên hạn chế cho con em sử dụng iPad hay điện thoại riêng: “Nếu phải cho trẻ sử dụng điện thoại thì nên tùy theo lứa tuổi. Ví dụ như học sinh cấp hai trở lên, khi cần tìm hiểu bài trên Internet… phụ huynh phải cài đặt để các em chỉ sử dụng Google chứ không vào YouTube được, vì trên YouTube có thể em mọi mặt của xã hội. Đồng thời, phải giáo dục tư tưởng cho trẻ, vì mình cũng không thể kiểm soát hết được. Do đó, các em phải có ý thức tự giác như thế nào để hkông xem thông tin độc hại”.

Tuy nhiên, một phụ huynh khác, cũng sống tại TPHCM, cho biết không dễ khi cấm trẻ em truy cập Internet: “Trong thời đại hiện nay thì thật sự rất khó để có thể hạn chế hay cấm con xem điện thoại hay iPad cho nên, với vai trò là cha mẹ thì cũng cố gắng để có cách gọi là hạn chế con xem thôi”.

Ông Nguyễn Tử Quảng cho biết thêm, hiện nay, Tập đoàn Công nghệ BKAV cũng đang phát triển giải pháp để bảo vệ trẻ em trước những thông tin xấu, độc trên mạng, nhưng vẫn trong giai đoạn nghiên cứu. Theo ông, đây là một việc không hề đơn giản. Ông cho biết: “Giải pháp của chúng tôi là các phụ huynh sẽ cài trên máy của các cháu nhỏ và có sự giám sát của phụ huynh kết nối với máy đó để nắm được tình hình. Ứng dụng sẽ chặn tự động một phần, một phần do phụ huynh tự triển khai chứ không phải bộ lọc cho toàn bộ hệ thống Internet tại Việt Nam”.

Ngoài việc cho rằng “Việt Nam cần hệ thống rà quét tự động các nội dung xấu, độc với trẻ em”, Phó cục trưởng Hoàng Minh Tiến cũng cho biết, Việt Nam có Luật Trẻ em, trong đó có điều luật bảo vệ trẻ em trên không gian mạng. Tuy nhiên, theo ông, bên cạnh hành lang pháp lý cơ bản, Việt Nam cần chi tiết hóa các điều luật, nhiệm vụ cụ thể để giao cho các bộ, ngành liên quan.

Về cá biện pháp chế tài đối với các cá nhân đưa những thông tin không tốt cho trẻ em lên Internet, Luật sư Nguyễn Văn Hậu, Chủ tịch Trung tâm Trọng tài Luật gia Việt Nam cho rằng: “Phải xử phạt những cá nhân từ 10 đến 20 triệu đồng và đối với các cá nhân cố tình sử dụng những thông tin trên máy tính và mạng viễn thông để đưa những tin thất thiệt… đặc biệt đối với trẻ em hoặc đối với đạo đức xã hội, thuần phong mỹ tục… sẽ phải bị truy cứu trách nhiệm hình sự về tội “đưa hoặc sử dụng những thông tin trái phép trên máy tính và mạng viễn thông” theo điều 288”.

Chuyên gia tâm lý – Tiến sĩ Tô Nhi A cho biết nếu trẻ em tiếp xúc với những nội dung không phù hợp, hay vượt khỏi khả năng nhận thức để trẻ có thể hiểu và phân định được đâu là đúng, đâu là sai… có thể dẫn đến việc hình thành những kinh nghiệm chưa đúng đắn cho trẻ em.

Theo Tiến sĩ Tô Nhi A, để có thể có những thông tin thật sự lành mạnh để cung cấp cho thế hệ trẻ, khi các em tiếp cận các nền tảng Internet… vai trò của phụ huynh là vô cùng lớn trong việc giữ một màng lọc cho các trẻ, để trẻ em tiếp cận được với các nội dung thật sự sạch, thật sự phù hợp và có giá trị với sự phát triển của trẻ em.

Nguồn: TKNB – 24/06/2021

Thất bại của Trung Quốc trong giám sát xã hội


Dịch COVID-19, hay còn gọi là dịch “Viêm phổi Vũ Hán” đã lan ra toàn Trung Quốc và nhiều nước trên thế giới, trở thành một cuộc khủng hoảng y tế toàn cầu. Sự kiện này bề ngoài dường như không mang tính chính trị, nhưng trên thực tế đã khiến các nước xung quanh Trung Quốc giảm niềm tin vào Chính phủ Trung Quốc. Trên phương diện chính trị quốc tế, có thể nói Trung Quốc đã thua cuộc.

Hiện tại, Chính phủ Trung Quốc chỉ có thể giảm thiểu chứ không thể ngăn chặn tổn thất về sinh mạng và hình ảnh đất nước. Lần này, rõ ràng Chính phủ Trung Quốc không thể rũ bỏ trách nhiệm. Tiếng nói phê phán Trung Quốc về dịch SARS cách đây hơn 10 năm vẫn còn đó, và dường như lại vang lên một lần nữa. Trên phương diện thông tin, việc che giấu tình hình dịch bệnh dường như lại tái diễn. Hơn 10 năm qua, kể từ khi dịch SARS kết thúc, GDP của Trung Quốc tăng trưởng nhanh; biện pháp giám sát người dân của Chính phủ Trung Quốc càng chặt chẽ hơn. Tuy nhiên, trên phương diện y tế cộng đồng và an toàn tính mạng con người, Trung Quốc tiến bộ đến đâu? Đây vẫn là câu hỏi chưa có lời giải đáp.

Tại sao thành phố có tỷ lệ camera giám sát cao nhất thế giới

Điều đáng suy ngẫm nhất về dịch COVID-19 là một cuộc khủng hoảng y tế lớn như vậy lại xảy ra đúng lúc hệ thống giám sát của Chính phủ đối với người dân Trung Quốc ngày càng hiện đại. Mấy chục năm qua, chính phủ các nước trên toàn thế giới đều nỗ lực vận dụng công nghệ thông tin vào việc giám sát xã hội nhằm chiếm ưu thế trong quan hệ quốc tế và chiến tranh. Trên phương diện quan hệ quốc tế, Mỹ đương nhiên vẫn dẫn đầu trên phạm vi toàn cầu với lực lượng quân sự hùng mạnh. Ví dụ mới đây nhất là việc quân đội Mỹ dùng máy bay không người lái tiêu diệt tướng Qassem Soleimani, Tư lệnh Lực lượng đặc nhiệm Quds thuộc Vệ binh cách mạng Hồi giáo Iran (IRGC). Tuy nhiên, trên phương diện giám sát xã hội trong nước, Trung Quốc dẫn đầu và bỏ xa các nước khác. Chính phủ Trung Quốc không tiếc công sức đầu tư phát triển ngành công nghệ thông tin và đã sớm đưa Trung Quốc trở thành một cường quốc về khoa học công nghệ. Điều quan trọng hơn là Trung Quốc không có truyền thông độc lập, cũng không có chuyện xã hội dân sự và đảng đối lập giám sát Chính phủ. Vậy nên, an ninh công cộng và an ninh quốc gia mà Chính phủ Trung Quốc tuyên truyền luôn được chú ý hơn nhiều so với những vấn đề riêng tư như quyền tự do công dân. Vì thế, Chính phủ Trung Quốc có thể gia tăng thúc đẩy hệ thống giám sát trên phạm vi toàn quốc.

Theo trang mạng về khoa học công nghệ Comparitech, 8/10 thành phố trên thế giới có nhiều camera giám sát nhất tính theo bình quân đầu người đều thuộc Trung Quốc: ngoài Bắc Kinh, Thượng Hải và Quảng Châu còn có cả Trùng Khánh, Vũ Hán, tâm dịch lần này. Camera giám sát chỉ là một bộ phận nhỏ trong hệ thống giám sát. Ngoài camera còn có thiết bị nhận dạng khuôn mặt, hệ thống đánh giá niềm tin xã hội, hệ thống thu thập dữ liệu và hệ thống xử lý phân tích dữ liệu. Hơn thế, sự hợp tác giữa Chính phủ Trung Quốc và các doanh nghiệp lớn trong lĩnh vực công nghệ mạng và kết nối mạng là khá toàn diện. Ví dụ, số người và tần suất sử dụng, thanh toán qua mạng (thanh toán điện tử) ở Trung Quốc tăng với tốc độ chóng mặt trong những năm gần đây và hiện nay đang dẫn đầu toàn cầu. Điều thú vị hơn là không ít người dân thành phố do tin tưởng vào Chính phủ và mong muốn cuộc sống tiện lợi đã tự nguyện hoặc bán tự nguyện giao một lượng lớn dữ liệu cá nhân cho Chính phủ và các doanh nghiệp lớn.

Thế nhưng, cho dù không quan tâm đến quyền tự do công dân và quyền riêng tư cá nhân, nhưng chỉ cần dành chút thời gian suy ngẫm thì những người tự nguyện và bán tự nguyện này có thể đưa ra rất nhiều câu hỏi về hệ thống giám sát như vậy. Ví như hệ thống giám sát khổng lồ như vậy của Trung Quốc có thực sự khiến người dân cảm thấy an toàn hơn không? Việc họ hy sinh quyền riêng tư nhiều như vậy có đáng hay không?

Theo truyền thông Trung Quốc, ngày 8/12/2019, bệnh viện tại Vũ Hán phát hiện ca nhiễm virus SARS-CoV-2 (gây ra dịch COVID-19) đầu tiên. Cuối tháng 12/2019, Ủy ban y tế và sức khỏe thành phố Vũ Hán thông báo tình hình dịch bệnh với 27 ca nhiễm, nhưng đồng thời hấn mạnh chưa phát hiện hiện tương lây nhiễm rõ ràng từ người sang người. Ngày 31/12/2019, các hộ kinh doanh tại chợ hải sản Hoa Nam, nơi được coi là địa điểm khởi phát dịch bệnh, vẫn kinh doanh bình thường. Tuy nhiên, lúc đó, nhiều người kinh doanh và làm việc tại khu chợ này đã đổ bệnh. Họ là những người trong diện nghi nhiễm và xác định nhiễm bệnh. Một ngày sau, khu chợ hải sản Hoa Nam mới đóng cửa toàn diện. Nhìn lại, cho dù chúng ta bỏ qua những bình luận lan tràn trên mạng và muốn tin vào những số liệu được công bố chính thức thì cũng rất khó tin khi 27 ca nhiễm cuối tháng 12/2019 đều là lây nhiễm từ động vật sang người. Lẽ nào trong suốt 20 ngày từ ngày 8/12 đến cuối tháng 12/2019, Chính quyền địa phương và virus đều đang trong “kỳ nghỉ”?

Hệ thống giám sát không đảm bảo an toàn cho người dân cả nước

Có thể nói dữ liệu về người bệnh, địa điểm làm việc, nơi ở, tính chất công việc, quan hệ cá nhân… mà hệ thống giám sát của Trung Quốc thu thập được là những thông tin dễ tìm. Trên thực tế, không cần đến camera giám sát hay thiết bị nhận dạng khuôn mặt mà chỉ cần phân tích lý thuyết và dữ liệu do bệnh viện, khu chợ và tổ dân cưc ung cấp là có thể khẳng định dịch bệnh lây từ người sang người. Vì sao vấn đề này không được xác định ngay từ đầu mà phải đến ngày 20/01/2020, khi chuyên gia dịch tễ học hàng đầu Trung Quốc – giáo sư Chung Nam Sơn khi trả lời phỏng vấn của Đài truyền hình trung ương Trung Quốc (CCTV), mới được công bố với thiên hạ, chứng thực nhân viên y tế nhiễm virus gây dịch COVID-19 và virus này lây từ người sang người, đồng thời kêu gọi mọi người không nên đến Vũ Hán?

Hiển nhiên trong sự việc này, hệ thống giám sát không thể phát huy vai trò động viên người dân và chính quyền các cấp, bảo đảm an toàn cho người dân cả nước, nói gì đến việc bảo đảm an toàn cho cộng đồng trên phạm vi khu vực hay toàn cầu. Có lẽ hai nguyên nhân lý giải điều này và hai nguyên nhân này cùng tồn tại. Nguyên nhân thứ nhất, cũng là điều mà nhiều người nói đến, là cơ quan chuyên môn nhà nước hoặc một số cơ quan chính phủ đã biết nhưng che giấu tình tình dịch bệnh vì một số lý do nào đó. Ví dụ, ngày 16/1/2020, lãnh đạo thành phố Vũ Hán tuyên bố mới chỉ có 40 ca xác định nhiễm bệnh viêm phổi lạ; trong khi đó, các nước láng giềng của Trung Quốc như Nhật Bản cũng đã xuất hiện những ca bệnh đầu tiên, đều là những người đã đến Vũ Hán cho dù chưa hẳn đã đến khu chợ hải sản Hoa Nam hay tiếp xúc trực tiếp với động vật hoang dã. Rõ ràng tin tức về việc virus SARS-CoV-2 lây từ người sang người đã sớm được lan truyền bên ngoài Trung Quốc, vật mà không rõ vì sao số ca bệnh được xác nhận tại Vũ Hán và trên toàn Trung Quốc lại ít như vậy. Vài ngày sau, Vũ Hán bất ngờ công bố tổng số ca nhiễm bệnh lên đến hàng trăm, hàng nghìn rồi hàng vạn, đồng thời số ca nhiễm bệnh tại nhiều địa phương khác của Trung Quốc cũng tăng nhanh chóng. Dường như chỉ có một cách để lý giải hiện tượng này: Trước đó, các cơ quan nhà nước, không rõ ở cấp địa phương hay trung ương, cố tình công bố số liệu ít hơn nhiều so với thực tế. Có thể có quan chức sợ bị truy cứu trách nhiệm hoặc vì muốn giữ thể diện mà làm vậy. Nhưng sau đó, khi vấn đề trở nên nghiêm trọng, có người trong hàng ngũ lãnh đạo Trung Quốc cấp địa phương đã lên tiếng: đến lúc không thể che giấu tình hình dịch bệnh được nữa.

Thứ hai, cho dù là hệ thống giám sát thu thập được nhiều dữ liệu và không ngừng tiến hành xử, phân tích, nhưng đó cũng chỉ là những dữ liệu “chết” – con người mới là quan trọng. Muốn đưa ra được cảnh báo, kết luận đủ để khiến Chính phủ Trung Quốc hành động, các quan chức lãnh đạo cần sẵn sàng nhận trách nhiệm, quyết tâm coi việc ngăn chặn và kiểm soát khủng hoảng y tế là sứ mệnh tối cao, chứ không nên chỉ quan tâm đến lợi ích có được từ vị trí của mình trong bộ máy công quyền hay vì mục tiêu nào khác. Có thể thấy rõ rằng ở thời kỳ đầu của dịch bệnh, hệ thống giám sát xã hội có sứ mệnh hay chỉ thị khác cao hơn. Ví dụ, từ trung tuần đến hạ tuần tháng 12/2019, cơ quan công an đã nhanh chóng triệu tập 8 cư dân mạng vì cho rằng họ tung tin đồn nhảm về dịch bệnh. Đương nhiên về cơ bản, đây không phải là tin đồn nhảm mà là sự thực, và hành động của những công dân này là lời nhắc nhở từ sớm đối với người dân cả nước. Người ta có lý do để tin rằng hệ thống giám sát xã hội của Trung Quốc và những con người làm việc trong đó về mục tiêu và chương trình làm việc đều có sự thiên lệch đến mức nghiêm trọng – họ rất nhạy cảm với quyền tự do ngôn luận và các quyền tự do khác của công dân. Vì vậy, họ nhanh chóng đưa ra phản ứng nhằm ngăn chặn mọi hành vi cá nhân hay tập thể thể hiện quyền tự do nhưng lại tỏ ra thiếu năng lực trong việc giám sát dịch bệnh và người bệnh.

Dữ liệu thu thập vượt quá năng lực xử lý và phân tích

Một đặc điểm lớn của thời đại số là việc thu thập dữ liệu diễn ra tới mức thái quá. Thái quá ở chỗ điều này không chỉ xâm phạm quyền riêng tư của con người, mà còn vượt quá khả năng xử lý, phân tích của công nghệ và các cơ quan chức năng. Ngoài việc trấn áp ý kiến bất đồng, rất nhiều dữ liệu thuộc nhiều lĩnh vực khác nhau được thu thập và lưu lại trước để sử dụng sau nhằm các mục đích khác như truy bắt tội phạm. Tuy nhiên, việc có nguồn dữ liệu lớn không có nghĩa là chính phủ đã trở thành “quái vật” hay “đại quản gia” toàn năng và biết hết mọi thứ. Lấy Chính phủ Trung Quốc làm ví dụ: Mặc dù Đảng Cộng sản Trung Quốc được tuyên bố là nắm quyền lãnh đạo, nhưng trong rất nhiều vấn đề có sự bất đồng ý kiến, chưa hẳn lúc nào dữ liệu cũng được chia sẻ.

Trong xã hội Trung Quốc hiện nay, dưới sự giám sát nghiêm ngặt của Chính phủ, không ít nhân sỹ bất đồng chính kiến thận trọng trong phát ngôn và hành động nhưng vẫn thường xuyên bị cơ quan công an triệu tập. Điều đáng chú ý là khi cơ quan công an triệu tập, trình tự cảnh cáo, nói chuyện hay chất vấn chỉ là thứ yếu; quan trọng là họ được yêu cầu phải giao nộp điện thoại di động để công an lấy dữ liệu, khiến họ hết sức bất bình. Điều này được cho là cần thiết vì điện thoại di động và phần mềm ứng dụng đều đã được kiểm duyệt, bất kể dữ liệu nào cũng có thể được cơ quan công an hay hệ thống giám sát xã hội thu thập trong thời gian sớm nhất. Vậy thì vì sao công an vẫn dùng biện pháp nguyên thủy là tải dữ liệu từ điện thoại di động của người khác?

Rõ ràng Chính phủ Trung Quốc hiện nay cũng rơi vào vũng lầy với kho dữ liệu lớn. Họ không ngừng thu thập dữ liệu thông qua hệ thống giám sát nhưng vẫn hành động theo thói quen của mình. Chính vì vậy, khi thực sự hành động, như lúc phải đối mặt với một cuộc khủng hoảng y tế lớn như vậy, họ lại mắc sai lầm không thể bào chữa.

Nguồn: Tờ Minh báo (Hong Kong) – 23/03/2020

TLTKĐB – 28/03/2020.

Dữ liệu lớn để trợ giúp quá trình chuyển đổi năng lượng?


Eric Vidalenc

Việc phổ biến các thiết bị kết nối (máy tính, đồng hồ, xe hơi, điện thoại thông minh…) và các thiết bị cảm biến còn được gọi là Internet of Things (IoT – Mạng lưới thiết bị kết nối Internet) trong cuộc sống hàng ngày có hệ luận của nó: Dữ liệu lớn, có nghĩa là tạo ra hàng đống dữ liệu khổng lồ cho tất cả các khía cạnh cuộc sống chúng ta. Từ các thành tích thể thao (nhịp tim, tốc độ,… số Kcal năng lượng tiêu hao), đến thông tin theo thời gian thực trên các mạng lưới giao thông công cộng (x phút trước giờ đến của chuyến tàu tiếp theo), qua các ứng dụng từ điện thoại di động như Uber (y phút trước khi bác tài đến đón bạn), hay các thiết bị đo thông minh trong nhà (đếm “một cách thông minh” số kWh điện tiêu dùng), đặt cạnh nhau tất cả những thứ trên góp phần vào việc dữ liệu hóa cuộc sống chúng ta.

Và lan ra cùng một lúc trực giác: hiểu tốt hơn có nghĩa là hành động tốt hơn. Đặc biệt nhân bội dữ liệu vào việc sử dụng năng lượng, cũng có nghĩa là nhân bội những hành động có hiểu biết đầy đủ, như phân tích này trong tạp chí La Tribune có đề cập. Tuy nhiên, một giả định như vậy còn xa mới rõ ràng. Liệu phạm trù luôn “nhiều hơn” (trong trường hợp này, nhiều dữ liệu hơn) có là một con đường không thể lẩn tránh, cần thiết, hữu ích… hay thừa thãi của quá trình chuyển đổi năng lượng và kỹ thuật số?

Luôn nhiều hơn có tất nhiên là luôn tốt hơn không?

Hãy lấy ví dụ về thông tin. Từ những làn sóng liên tục các kênh chuyên đề đến các trang web tin tức, qua các tin nhắn trên điện thoại thông minh, con người cũng đã bị “say khướt” bởi những dòng chảy thông tin ấy. Liệu trình độ kiến thức và hiểu biết của chúng ta, ở cấp độ cá nhân hay tập thể, về sự vật và thế giới có tốt hơn không so với cách đây 10 năm, 20 năm, 30 năm?

Nếu tập trung vào những chiếc đồng hồ mới kết nối, để xác định số lượng Kcal năng lượng hấp thụ được vào mỗi bữa ăn, số bước chân đã đi trong ngày…, thì con người đã mở rộng ảnh hưởng cảu dữ liệu vào những lĩnh vực riêng tư hơn và cá nhân hơn. Con người chưa bao giờ được trang bị tốt hơn như ngày nay (máy cân, đồng hồ và vòng đeo tay kết nối, ứng dụng y tế, các loại thiết bị đếm khác nhau…), thế nhưng những người bị bệnh béo phì (chỉ nói đến bệnh này mà thôi) cũng chưa bao giờ đông như ngày nay.

Đây mới chỉ là hai ví dụ, một ví dụ phi vật chất gần với kiến thức, và một ví dụ vật chất gắn với việc dinh dưỡng. Nhưng trong nhiều lĩnh vực khác, giờ đây chúng ta có thể khẳng định rằng “nhiều hơn” thường biến thành “quá nhiều”, để rồi cuối cùng trở thành kẻ thù của “tốt hơn”.

Taleb và sự quá tải thông tin, Damasio và sự đãi vàng

Nicolas Taleb, tác giả cuốn Black Swan (Thiên Nga đen) và gần đây hơn là cuốn Antifragile (Cải thiện nghịch cảnh), phát triển trong tác phẩm sau ấy một biện luận khá thuyết phục về thông tin. “Lượng thông tin mà thế giới hiện đại bao phủ xuống con người đã biến họ […] thành những người nhiễu tâm”. Nhìn vào quá khứ (theo định nghĩa, việc tạo dựng dữ liệu chỉ là việc lưu trữ, thống kê các sự kiện đã xảy ra), chúng ta không có khả năng hiểu được những rạn nứt và những cách vận hành mới. Bằng cách tập trung vào “tiếng ồn”, chúng ta tập trung vào những sự kiện vô nghĩa. “Tiếng ồn” làm cho chúng ta bận tâm, trong khi phải chú ý đến “tín hiệu”.

Alain Damasio, tác giả truyện khoa học viễn tưởng và của một suy tưởng hiện đại về kỹ thuật, cũng phê phán trận đại hồng thủy về thông tin kỹ thuật số này. Trong nhiều cuộc phỏng vấn gần đây, của Rue89 hay của Inrockuptibles, ông tự hỏi: “Làm thế nào có thể đãi được khối lượng thông tin khổng lồ rối rắm này để tìm ra vài điều nhỏ có giá trị?”. Nếu cần diễn dịch lại thì là: hầu hết các dữ liệu mà cá nhân đã tạo ra đều không có giá trị. Hơn nữa, tất cả những dữ liệu ấy làm suy giảm tính nhạy cảm của chúng ta và làm xao lãng sự chú ý về cảm xúc của chúng ta. Công nghệ được triển khai như thế có thể làm biến chất khả năng cảm nhận, suy nghĩ và hành động của chúng ta; sự giảm tốc đơn giản của thông tin sẽ tự động làm giảm sự chú ý sẵn có đối với một dữ liệu thông tin. Và điều này xảy ra trong những quy mô cực kỳ mới với kỹ thuật số, “Ảo giác làm cho chúng ta tin rằng một khối lượng thông tin vô hạn có thể có lợi cho một khả năng lắng nghe vô hạn”.

Bị kẹt trong vòng xoáy này, chúng ta không còn có khả năng lắng nghe và chú ý đến các tín hiệu quan trọng và có sẵn cho những nỗ lực dài hạn đòi hỏi phải tổng hợp và giữ độ lùi.

Quá nhiều dữ liệu chỉ làm rối trí mà thôi?

Hiểu biết là điều cần thiết để đưa ra những lựa chọn “thông minh”. Nhưng vượt quá một lượng dữ liệu nhất định nào đó, thay vì để giúp chúng ta suy nghĩ và có công cụ để hành động hiệu quả, thì có nhiều khả năng dữ liệu làm cho chúng ta bất động hoặc đánh lạc hướng chúng ta về những vấn đề quan trọng nhất. Một lần nữa chúng ta viện dẫn Ivan Illich và thuyết phản tác dụng của ông.

Ở cấp độ cá nhân, ví dụ. Trong khi chú tâm vào thiết bị đếm, chiếc đồng hồ hay bất cứ thiết bị kết nối nào của chúng ta, để tiết kiệm 1 KWh điện tiêu dùng, thì chúng ta cũng có thể bỏ lỡ những thay đổi mang tính cấu trúc. Chúng ta sẽ khởi động máy giặt một giờ trước, sẽ lập trình máy sưởi một giờ sau đó nhờ vào các đường cong trọng tải tối ưu hóa. Nhưng nếu thay vào đó là một sự cách nhiệt, hay thậm chí là một sự giảm nhiệt theo quy định; nói tóm lại, một cách tiếp cận đầy đủ các nhu cầu năng lượng của môi trường sống và thậm chí của lối sống, thì những điều trên sẽ có ý nghĩa gì?

Ở cấp độ tập thể, về vấn đề khí hậu và năng lượng, chúng ta chưa bao giờ định lượng tốt đến thế vai trò của con người trong sự biến đổi khí hậu. Tuy nhiên, chưa bao giờ con người phát tán nhiều khí thải nhà kính đến thế và các kỷ lục về nhiệt độ và những sự rối loạn khí hậu lại không ngừng bị phá vỡ… Như vậy, dữ liệu chỉ hữu ích trong việc theo sau và theo dõi thảm họa?

Vì vậy theo thực nghiệm, chúng ta không thể khẳng định rằng cần phải định lượng nhiều hơn, để hiểu biết nhiều hơn… và để hành động tốt hơn. Những người bảo vệ tích cực nhất việc số hóa thế giới sẽ nói với chúng ta rằng chỉ cần “nhiều hơn một chút”. Luôn luôn “nhiều hơn một chút”. Nhưng sự cường điệu đơn thuần về số lượng ấy cũng không mang tính thuyết phục. Động lực của sự thay đổi hành vi dường như không nằm trong phạm trù “luôn luôn nhiều hơn”, mà chắc chắn nằm trong một sự hiểu biết tốt hơn về các mối tương quan diễn ra trong nhiều lĩnh vực khác nhau.

Người dịch: Huỳnh Thiện Quốc Việt

Nguồn: Le Big Data à là resource de la transition énergétique? – Alternatives Economiques, 8 September 2015.

Phát triển mạng xã hội của Việt Nam liệu có đang đi sai hướng?


Theo đài BBC, hàng trăm mạng xã hội đã ra đời tại Việt Nam tính từ năm 2014, nhưng số trụ lại chỉ đếm trên đầu ngón tay. Xu thế “nhà nhà làm mạng xã hội” như vậy liệu có đạt được mục đích kinh tế cũng như mục tiêu “chủ quyền chính trị” ẩn đằng sau?

Số liệu được tổng hợp về Giấy phép thiết lập mạng xã hội trên mạng trên trang web của Cục Phát thành – Truyền hình và Thông tin điện tử (Bộ Thông tin và Truyền thông của Việt Nam) cho thấy, từ tháng 10/2014 đến tháng 7/2018, đã có 455 giấy phép thiết lập mạng xã hội trên mạng được cấp.

Hôm 21/9, lễ ký kết đầu tư và ra mắt dự án mạng xã hội Astra được tổ chức tại Trung tâm Hội nghị quốc gia Mỹ Đình (Hà Nội) với hơn 1500 khách mời là các nhà đầu tư và các đối tác mạng. Dự kiến, bản beta mạng này sẽ ra mắt vào cuối tháng 11/2019. Mạng Astra sẽ tập trung vào lĩnh vực du lịch.

Theo truyền thông trong nước, trước đó trong chương trình Shark Tank Việt Nam – Thương vụ bạc tỷ mùa 3 phát sóng tối 18/9, CEO của Astra, ông Nguyễn Tiệp đã gửi đến nhà đầu tư lời mời 1 triệu USD cho 10% cổ phần, với tham vọng chiếm 5% thị phần du lịch online toàn cầu, trở thành một trong những công ty công nghệ du lịch hàng đầu thế giới và khu vực trong vòng 5 năm tới.

Theo facebook Astra Network, mạng này được Shark Phạm Thành Hưng rót vốn 1 triệu USD, và sẽ có mô hình trả thưởng cho những người dùng đóng góp nội dung chất lượng bằng việc ứng dụng công nghệ blockchain.

Trước đó một tuần, Lotus – mạng xã hội do Công ty Cổ phần VCCorp nghiên cứu, phát triển – cũng đã ra mắt với tham vọng thu hút được khoảng 50 triệu người dùng thường xuyên.

Việc ra đời của mạng Lotus thu hút nhiều sự chú ý nó ra đời ngay sau khi Bộ trưởng Bộ Thông tin và Truyền thông Nguyễn Mạnh Hùng nhiều lần kêu gọi Việt Nam xây dựng mạng xã hội “nhà trồng được” để cạnh tranh, không cho các mạng xã hội nước ngoài thu thập toàn bộ thông tin về người Việt.

Ra đời hoành tráng, trải nghiệm buồn tẻ

Nhận xét về mạng xã hội Lotus, TS Nguyễn Đức An – Phó Giáo sư ngành Báo chí tại Đại học Bournemouth (Anh), nói rằng cần thêm thời gian để có thể nhận định kỹ lưỡng hơn về khả năng thành công của Lotus: “Trên thực tế, họ ra mắt rầm rộ nhưng có lẽ là hơi vội vì hiện vẫn chưa có giao diện trên web, chỉ là một ứng dụng trên thiết bị di động”.

Tuy nhiên, ông An nhận xét sơ khởi rằng, hai trụ cột mà Lotus muốn xây dựng để thu hút người dùng là nội dung và sự trải nghiệm của người dùng đã cho thấy thất bại ngay từ vài quan sát trực quan ban đầu. Ông nói: “Ai vào trang chủ sẽ thấy màu sắc và đồ họa hơi lòe loẹt, buồn tẻ và quan trọng nhất là thiếu tính trực quan. Ai tiến bước nữa để vào ứng dụng thì thấy cấu trúc giao diện không có sắc thái gì riêng, trông cũng hao hao giống Facebook hay Twitter. Còn nội dung thì có vẻ rất nhiều thứ vô thưởng vô phạt, với lượng tin bài gái xinh – trai đẹp và những chuyện cướp – giết – hiếp chiếm tỷ trọng lớn. Dòng trạng thái đầu tiên tôi nhận trên Lotus là hình ảnh từ một tài khoản gọi là Hội gái xinh Việt Nam”.

Ông Kevin Doan, Giám đ6óc điều hành và cũng là người sáng lập (CEO & founder) của Reputable Asia – một công ty chuyên ứng dụng kỹ thuật vào tiếp thị số tại Việt Nam – nhận xét buổi ra mắt Lotus tuy rất hoành tráng, nhưng đó là cái hoành tráng của một công ty chuyên kinh doanh một ngành nghề nào đó rất cao cấp, chứ không cho thấy đây là một sản phẩm về công nghệ. Ông Kevin nói: “Cảm giác những người đang làm Lotus đang cố tạo ra những cái buzz chứ không phải là những quá thành thạo về việc phát triển mạng xã hội. Ngay cả về tính năng cũng thiếu sót như Lotus định hướng desktop, trong khi truy cập mạng xã hội bằng mobile hiện chiếm số lượng áp đảo”.

Cùng ngày, ông Lê Ngọc Sơn (Chuyên gia truyền thông, Đại học Công nghệ Ilmenau, CHLB Đức), cho biết dù ông rất ủng hộ việc xây dựng và phát triển một mạng xã hội của Việt Nam, nhưng cảm nhận ban đầu về Lotus là có quá nhiều lỗi về kỹ thuật. Bên cạnh đó, có một số nghịch lý đáng chú ý: “Chẳng hạn, tuyên ngôn của Lotus là mạng xã hội thuần Việt, nhưng lại có tên tiếng Anh – Lotus, thuần Việt phải là “Sen” chứ? Thứ hai, họ nói là mạng xã hội dựa trên nội dung, nhưng nội dung kiểu gì mà khi vào thì toàn nội dung rẻ tiền, không hấp dẫn. Mạng xã hội này đang có cách tiếp cận chưa ổn về thực tiễn. Họ nhắm đến những người có ảnh hưởng trên mạng (Key opinion leaders – KOLs), họ mời đến buổi ra mắt cũng như đề cập nhiều đến chuyện này trong các quảng cáo của họ. Nhưng vấn đề là họ muốn nhắm đến KOLs hay nhắm đến người dùng? Trong khi mạng xã hội tồn tại được là nhờ người dùng và chính người dùng tạo ra các KOLs chứ không phải ngược lại. Tôi cho rằng, cách tiếp cận như vậy là “khôn” nhưng chưa “ngoan””.

Mạng xã hội hay chỉ là mạng nội dung?

Lotus ra đời với triết lý “Content is King” (Nội dung là vua).

Tuy nhiên, với nhãn quan của một người nghiên cứu về báo chí, TS Nguyễn Đức An cho rằng, đây là một xuất phát điểm không ăn nhập, nếu không nói là trái ngược với yếu tố “xã hội” trong “mạng xã hội”. Ông nói: “Lotus bắt đầu từ nội dung để lôi kéo sự tương tác. Trong khi mô hình mạng xã hội lâu nay thì ngược lại. Họ không bắt đầu từ nhu cầu thông tin hay nội dung mà từ một nhu cầu rất con người, nhu cầu được thấy mình đang sống giữa cộng đồng (a sense of belonging). Trên cơ sở đó, họ xây dựng một nền tảng (platform) giúp người dùng được tự do tương tác, biểu đạt với thế giới bên ngoài, để họ thỏa mãn nhu cầu sống giữa cộng đồng đó. Nội dung đến từ các tác xã hội, chứ không phải ngược lại.

Đó là lý do vì sao Facebook trở thành hãng truyền thông lớn nhất thế giới mà không hề sản xuất một tí nội dung nào. Với mạng xã hội, nền tảng là vua, chứ không phải nội dung là vua”.

TS An nói thêm: “Ở thời điểm này, tôi chỉ có thể nói, về bản chất, Lotus giống như một trang web tích tụ thông tin từ các nguồn họ tự tổ chức sản xuất hoặc thu thập từ nguồn khác, có bổ sung thêm tính năng khuyến khích người dùng đánh giá, chia sẻ nội dung thông qua hệ thống thu lượm và đổi điểm thưởng (token). Nói cách khác là một tờ báo với giao diện có vẻ như của mạng xã hội. Yếu tố kết nối và tương tác xã hội giữa người với người gần như mờ nhạt, thứ yếu. Triết lý rõ ràng là không thích hợp với môi trường số. Và nền gọi đó là mạng nội dung thì đúng hơn. Đó là tôi chưa nói đến chuyện, nội dung được chia sẻ trên đó như thế nào”.

Còn ông Kevin Doan nhận xét: “Không chỉ Lotus mà các mạng xã hội “Made in Vietnam” thời gian qua đang cố tìm ra một con đường ngắn nhất để tạo ra một phần mềm và từ đó đẩy lên mạng, chứ chưa thấy bóng dáng của khả năng và kinh nghiệm trong việc xây dựng một cộng đồng số cũng như nghiên cứu các hành vi của con người để tìm ra con đường đi chiến lược của mình”.

Cũng theo ông Kevin Doan, do chưa đầu tư về tính năng để đáp ứng nhu cầu cơ bản về mặt xã hội nên hầu hết đều tuyên bố họ dựa vào nội dung. Tuy nhiên, định hướng các mạng này về nội dung lại khá thiên lệch. Điểm đóng góp quan trọng của mạng xã hội thời gian qua là đưa ra được những tiếng nói trái chiều, để từ đó, có những vụ việc mà trước đây cố gắng đến mấy cũng khó tạo nên sự thay đổi, thì nay, tiếng nói trên mạng xã hội tạo ra sức ép rất lớn với chính quyền và buộc chính quyền vào cuộc xử lý. Ông Kevin Doan nói: “Cho nên, một mạng xã hội nếu cố gắng tô vẽ mọi thứ cho đẹp và không sát với thực tế, thì sẽ không được người Việt Nam tin dùng. Khả năng phân biệt đúng sai của người Việt Nam hiện nay rất cao, nên nếu làm nội dung mà không đúng thực tế, người dùng sẽ nhận ra và tẩy chay”.

“Nhà nhà làm mạng xã hội”: Liệu có thành công?

Trở lại với xu hướng “nhà nhà làm mạng xã hội” bùng nổ trong gần một năm nay, TS Nguyễn Đức An cho rằng cần phải xem lại trào lưu có vẻ thời thượng này. Ông cho rằng, thay vì tìm cách thay thế người khổng lồ, có lẽ cách tốt hơn là tìm cách mượn đôi vai của người khổng lồ.

Nghĩa là, theo ông An, nếu Bộ Thông tin – Truyền thông nhắm mục tiêu đẩy lùi những cái mà họ gọi là tin giả, tin độc, thì họ nên tập trung xây dựng một hệ thống báo chí chính thống mạnh mẽ, đáng tin cậy và hợp nhịp sống số, rồi tận dụng các nền tảng xã hội đang thịnh như Facebook để phát tán, lưu truyền những cái mà họ cho là lành mạnh. Ông nói: “Đừng nghĩ rằng Việt Nam có thể thành công như Trung Quốc đã làm dễ dàng với Weibo hay WeChat. Kích cỡ thị trường Việt Nam rất nhỏ so với hơn 1,4 tỷ dân Trung Quốc. Hơn nữa, các mạng xã hội Trung Quốc được hỗ trợ bởi chính sách chặn các mạng xã hội toàn cầu như Facebook và Twitter, từ cái thời mà các mạng này vẫn còn chưa lớn mạnh như bây giờ”.

Ông Kevin Doan nhận xét, từ trước đến nay, Chính phủ Việt Nam luôn coi trọng việc kiểm soát thông tin trên mạng xã hội và đã có một số ký kết với một số công ty truyền thông lớn như Facebook, Google để kiểm soát thông tin trên mạng xã hội, tuy nhiên vẫn chưa được như ý.

Bởi vậy, chính phủ Việt Nam muốn có những kênh có thể hợp tác tốt hơn với chính phủ. Bên cạnh đó, việc quản lý thuế với các hoạt động quảng cáo của các mạng xã hội vẫn là một thách thức. “Chủ trương này hợp lý khi đặt trong cái nhìn về lợi ích quốc gia; nhưng bên trong đó vẫn là những ý đồ kiểm soát thông tin nhằm bảo vệ chủ quyền chính trị” – ông Kevin Doan nhận định.

Nhận định trên cũng được ông Lê Ngọc Sơn chia sẻ khi cho rằng, “bản chất của sự ra đời Lotus không hẳn nằm ở động cơ săn tìm lợi ích inh tế truyền thống, thực chất nó là một chuyển động của nỗ lực tìm kiếm công cụ quản trị đám đông”.

Đi vào thị trường ngách: Hướng mới hay đường cũ?

Khác với Lotus, mạng xã hội Astra nhắm vào một thị trường ngách là du lịch. Dẫu nhấn mạnh rằng, cần khuyến khích những người tạo ra những giá trị mới, ông Kevin Doan vẫn không mấy lạc quan như vậy về tương lai của các mạng xã hội ngách như vậy.

Ông viện dẫn một thực tế là trên thế giới, mạng xã hội ngách rất nhiều. Khái niệm mạng xã hội ngách đã có từ 10 năm nay. Tuy nhiên, sau đó các mạng xã hội ngách đều chết yểu. Chỉ có những mạng xã hội có sức lan tỏa trên toàn thế giới thì mới sống sót. Ông nói: “Tôi không nghĩ, cơ hội cho mạng xã hội ngách đã hết, nhưng nếu chỉ đi theo khuynh hướng mạng xã hội thì sẽ rất khó. Astra là một start-up thiên về kinh doanh nên điểm mạnh của họ là có cơ chế kinh doanh rất rõ ràng, khác với các mạng trước đó dựa vào ưu thế và chiến lược kinh doanh của một công ty sẵn có. Tuy nhiên, họ có thể rất thành công trong kinh doanh nhưng thành công như một mạng xã hội không, đó lại là chuyện khác”.

Mạng xã hội nước ngoài có bị kiểm soát chặt hơn?

Vậy liệu sự nở rộ các mạng xã hội nhà trồng như vậy có dẫn đến việc chính quyền Việt Nam sẽ dần thắt chặt kiểm soát với các mạng xã hội nước ngoài hay không? Về chuyện này, ông Kevin Doan cho rằng, nếu một cơ chế hợp lý và khôn ngoan thì việc kiểm soát các mạng xã hội nước ngoài sẽ tỉ lệ thuận theo sự phát triển và được đón nhận của các mạng xã hội Việt Nam.

Ông Lê Ngọc Sơn nhấn mạnh: “Văn hóa chính trị và tầm vóc kinh tế của Việt Nam và Trung Quốc là khác nhau nên khả năng cấm hoàn toàn mạng xã hội nước ngoài là không thể. Mặt khác, với sinh quyển truyền thông của Việt Nam hiện tại, việc cấm sẽ không dễ, thậm chí cấm sẽ dẫn đến tác dụng ngược Hơn thế nữa, với sự hội nhập sâu của Việt Nam như hiện nay, tôi không tin Việt Nam sẽ làm như thế.

Tuy nhiên, càng ngày Việt Nam sẽ càng hoàn thiện hệ thống thể chế pháp luật để đưa hoạt động của mạng xã hội vào quy củ, nhất là với các hành động xâm hại lợi ích người khác, bất hợp pháp. Tôi ủng hộ điều này Tuy nhiên tất cả các hành động tạo hành lang pháp lý như vậy đều phải dựa trên hành lang pháp lý đúng đắn, hướng đến việc tạo điều kiện cho người dân có không gian phát ngôn và hoạt động đúng pháp luật”.

Nguồn: TKNB – 25/09/2019

Những nguy cơ bị che giấu của dữ liệu lớn


Carlo Ratti & Dirk Helbing

Trong lý thuyết trò chơi, cái “giá của sự vô chính phủ” chỉ cách mà những cá thể hành động vì lợi ích của bản thân trong một hệ thống lớn hơn có xu hướng làm giảm hiệu quả của hệ thống này. Đây là một hiện tượng phổ biến, lặp đi lặp lại mà hầu hết chúng ta đều thường xuyên phải đối mặt.

Ví dụ, nếu bạn là một nhà quy hoạch chịu trách nhiệm quản lý giao thông, bạn có hai cách để xử lý lưu lượng giao thông trong thành phố bạn. Thông thường một cách tiếp cận tập trung, từ trên xuống – nắm bắt toàn bộ hệ thống, nhận diện những điểm tắc nghẽn, và tiến hành những thay đổi để loại bỏ các điểm này – đơn giản sẽ hiệu quả hơn là để mỗi người lái xe tự chọn lộ trình với giả định rằng các lựa chọn này, nhìn tổng thể, sẽ đưa đến một kết quả chấp nhận được. Cách tiếp cận thứ nhất giảm thiểu chi phí của sự vô chính phủ và sử dụng tốt hơn tất cả thông tin sẵn có.

Thế giới ngày nay bị tràn ngập dưới khối dữ liệu. Năm 2015, nhân loại tạo ra lượng thông tin nhiều bằng lượng đã được tạo ra trong tất cả những năm trước đó của nền văn minh. Cứ mỗi lần ta nhắn tin, gọi điện hay hoàn tất một giao dịch, ta để lại những dấu vết số. Chúng ta đang tiến nhanh đến điều được nhà văn Italo Calvino, người Italia, bằng linh tính của mình gọi là “ký ức của thế giới”: một bản sao tin học đầy đủ về thế giới vật lý của chúng ta.

Khi Internet mở rộng sang cách lãnh địa khác, nhờ mạng lưới kết nối thiết bị Internet (IoT) của không gian vật lý, cái giá của sự vô chính phủ sẽ trở thành một thước đo thiết yếu trong xã hội chúng ta, và sự cám dỗ để triệt tiêu cái giá này bằng cách vận dụng sức mạnh của phân tích dữ liệu lớn càng lớn mạnh.

Có vô số ví dụ. Xét một hành động bình thường là mua sách trực tuyến thông qua Amazon. Amazon có cả núi thông tin về tất cả các khách hàng sử dụng nó – từ nhân thân của họ, lịch sử các cuộc tìm kiếm thông tin của họ đến các câu được họ tô đậm trên ebook – được công ty dùng để tiên đoán cuốn sách nào khách hàng có thể muốn mua trong lần sau. Cũng giống như mọi hình thức tập trung của trí tuệ nhân tạo, các biến cố đã qua được sử dụng để tiên đoán các biến cố trong tương lai. Amazon biết được mười cuốn sách bạn đã mua và có thể, với một độ xác đáng ngày càng cao, gợi ý cho bạn cuốn sách mà bạn có thể muốn đọc.

Nhưng chúng ta cũng cần phải xem đã mất điều gì khi làm giảm mức độ vô chính phủ. Cuốn sách ý nghĩa nhất bạn phải đọc sau khi đã đọc mười cuốn trước không phải là cuốn khớp hoàn toàn với một mô hình đã được xác định mà đúng hơn phải là cuốn làm bạn kinh ngạc, gây tò mò và suy nghĩ, thách thức bạn nhìn thế giới một cách khác. Dữ liệu lớn nhân các tùy chọn của bạn đồng thời lọc bỏ những đồ vật bạn không muốn tham khảo, nhưng như thế còn đâu là sự phát hiện ngẫu nhiên và phong phú mà kết quả có thể là việc lựa chọn quyển thứ mười một [như được ca ngợi trong cuộc phiêu lưu nổi tiếng của The Three Princes of Serendip].

Ngược lại với các vấn đề giao thông được nhắc đến trên đây, các gợi ý được tối ưu hóa – thường là một tiên đoán tự thực hiện liên quan đến việc mua sắm sắp tới của bạn – không nhất thiết cung cấp mô hình tốt nhất để sở hữu hay tham khảo trực tuyến một cuốn sách.

Điều đúng với việc mua sách trực tuyến cũng đúng với cả ngàn thao tác tin học khác trong các thành phố và xã hội chúng ta. Ngày nay các hệ thống đô thị tập trung sử dụng những thuật toán để theo dõi và kiểm tra các kết cấu hạ tầng đô thị, dù cho đó là đèn đường, lưu lượng xe trên cao tốc hay năng lượng muốn tiết kiệm. Nhiều thị trường trên thế giới vô cùng quan tâm đến ý tưởng một phòng điều khiển trung tâm, như trung tâm ở Rio de Janeiro do IBM thiết kế, nhờ đó các nhà quản lý thành phố có thể hồi đáp theo thời gian thực trước mọi thông tin mới.

Nhưng một khi các thuật toán tập trung có thể xử lý tất cả các mặt của đời sống trong xã hội thì giới kỹ trị có nguồn gốc từ dữ liệu lớn sẽ đe dọa áp đảo sự đổi mới và nhấn chìm nền dân chủ. Bằng mọi giá phải tránh viễn cảnh này. Điều mấu chốt cho sự phong phú của xã hội là các quyết định phải tiếp tục được lấy một cách phi tập trung. Ngược lại, sự tối ưu hóa mà việc thu thập dữ liệu cho phép tiến hành sản sinh ra những giải pháp mà tất cả đều xuất phát từ một mô hình xác định trước. Mô hình này dưới dạng thông thường loại bỏ những ý tưởng phản trực giác có tiềm năng biến đổi mạnh kéo nhân loại lên phía trước.

Một mức độ ngẫu nhiên nhất định trong cuộc đời chúng ta cho phép những ý tưởng và phương thức tư duy mới nổi lên. Đây còn là điều cần thiết ở cấp độ vĩ mô cũng như cần thiết cho cuộc sống. Nếu tự nhiên đã nhờ đến những thuật toán dự báo để ngăn cản những đột biến ngẫu nhiên quá trình tự nhân đôi DNA thì hành tinh chúng ta có lẽ còn ở giai đoạn của một đơn bào cực kỳ tối ưu hóa.

Việc ra quyết định phi tập trung có thể tạo nên sự hợp lực giữa trí tuệ con người và trí tuệ của máy thông qua những quá trình đồng tiến hóa tự nhiên và nhân tạo. Có thể là trong rất ngắn hạn trí tuệ phân phối làm giảm hiệu quả, nhưng cuối cùng sẽ dẫn đến những xã hội đa dạng hơn và bền vững hơn. Cái giá của sự vô chính phủ đáng để trả nếu ch1ung ta muốn gìn giữ sự đổi mới bằng sự bất ngờ.

Người dịch: Nguyễn Đôn Phước

Nguồn: The Hidden Danger of Big Data – Project Syndicate, Aug 16/2016.

Làm thế nào để trở thành một nhà khoa học dữ liệu – Phần cuối


Điều này có nghĩa gì đối với những người cố gắng để tham gia lĩnh vực

Bởi vậy, nếu tôi là một người trẻ tìm cách gia nhập vào khoa học dữ liệu thì những mô tả này sẽ hữu ích đối với tôi như thế nào? Điều này có thể rằng, bạn có thể đào tạo và phát triển một thế mạnh, cái mà sẽ dẫn bạn đến với vai trò của nhà nghiên cứu, nhà phát triển, hoặc nhà sáng tạo. Thường thì hiếm khi chỉ riêng giáo dục sẽ đưa bạn trở thành nhà kinh doanh dữ liệu, điều này hàm ý phải có kinh nghiệm trong kinh doanh, chứ không phải chỉ giáo dục. Nhưng đây là điều thú vị. Theo Harris, Murphy và Vaisman, nó không phải là những kỹ năng khác nhau, mà là cách chúng ta lựa chọn để nhấn mạnh chúng trong cách tiếp cận của chúng ta về các vấn đề khoa học dữ liệu. Biểu đồ của họ như bên dưới.Các kỹ năng đều giống nhau nhưng sự nhấn mạnh chúng ta đặt trên chúng khác nhau. Có lẽ cách tốt hơn để diễn tả điều này là bạn thích trải qua một ngày của mình như thế nào? Lập trình (programming), làm việc trong học máy (machine learning) (thống kê), phân tích và giải quyết các câu hỏi kinh doanh? Câu trả lời của bạn khi mới bước vào khóa học có thể khác với câu trả lời khi bạn đã tham gia khóa học được vài năm, và điều đó là bình thường. Tuy nhiên, bạn biết rằng nếu bây giờ bạn nhận mình là một nhà nghiên cứu dữ liệu thì bạn cần phải tập trung vào các kỹ năng thống kê. Nếu bạn xác định như là một nhà sáng tạo dữ liệu hoặc nhà phát triển dữ liệu thì lập trình và ML/Big Data là một sự nhấn mạnh thích hợp. Và khi bạn có được kinh nghiệm và hiểu rằng mình hạnh phúc hơn khi là một thành viên trong nhóm hay một nhà lãnh đạo doanh nghiệp, bạn có thể thay đổi quan điểm của bạn đối với khả năng sinh lời của dự án và giải pháp cho các vấn đề kinh doanh.

Ở đâu, dữ liệu lớn phù hợp trong tất cả điều này?

Cá nhân tôi yêu Dữ liệu lớn. Nhưng tôi thực sự yêu thích nó vì nó đưa đến những phân tích dự báo. Nếu bạn vẽ một giản đồ Venn của dữ liệu lớn và những phân tích dự báo thì sẽ có một sự trùng lặp lớn nhưng không hoàn toàn. Có những lĩnh vực của dữ liệu lớn thuần túy có tính thao tác và không thuộc phạm vi khoa học dữ liệu. Lấy ví dụ như việc sử dụng các cơ sở dữ liệu NoSQL như các cơ sở dữ liệu hoạt động cấp nguồn cho những trò chơi trực tuyến dành cho rất nhiều người chơi. Không có phân tích gì ở đây. Chỉ vậy là xong. Tương tự như vậy có rất nhiều phạm vi trong phân tích dự báo không dính dáng gì đến dữ liệu.

Tuy nhiên, không có lý do gì mà chúng ta không nên tìm hiểu về dữ liệu lớn trên con đường trở thành nhà khoa học dữ liệu của chúng ta. Chỉ không mong đợi để thấy nó quá nhiều trong đời sống công việc của bạn, trừ khi bạn đang tham gia sâu vào việc sử dụng những trang web lớn giống như Amazon hay Facebook.

Một lần nữa, nhờ Harris, Murphy, và Vaisman chúng ta có thể thấy được các nhà khoa học dữ liệu ngày nay làm việc ở cấp đệ Petabyte (PB) và Terabyte (TB) thường xuyên như thế nào.

Câu trả lời không hề rất thường xuyên tí nào. Cơ sở dữ liệu NoSQL như Mongo đang đạt được sức hút như cách để pha trộn dữ liệu giao dịch và dữ liệu không có cấu trúc và có thể là tương lai. Nhưng thẳng thắn mà nói, về mặt dung lượng, các nhà khoa học dữ liệu thường được làm việc ở quy mô dữ liệu bình thường, chứ không phải dữ liệu lớn.Những công cụ và ngôn ngữ quan trọng

Tài liệu thứ hai mà tôi bất ngờ đọc là blog của Robert A. Muenchen, “The Popularity of Data Analysis Software” (Sự phổ biến của Phần mềm phân tích dữ liệu). Bài này có thể tìm thấy tại r4stats.com và là một bài nữa phải đọc. Cái khác biệt giữa bài viết này so với các bài báo so sánh khác là những phân tích rộng và sâu. Muenchen sử dụng 13 loại phân tích riêng biệt để đánh giá thị phần và mức độ phổ biến và mức tín nhiệm của mình, không cố gắng để làm tương thích các kết quả mà có thể là khá khác nhau tùy theo nguồn. Như ông nói, đây là dnah sách các thước đo “gần đúng theo thứ tự hữu ích”.

1/ Những mẫu tuyển dụng (Job Advertisements)

2/ Những bài báo học thuật (Scholarly Articles)

3/ Những cuốn sách (Books)

4/ Sự phổ biến website (Website Popularity

5/ Các blog (Blogs)

6/ Các cuộc điều tra sử dụng (Surveys of Use)

7/ Hoạt động diễn đàn thảo luận (Discussion Forum Acitivity)

8/ Hoạt động lập trình (Programming Activity)

9/ Các thước đo phổ biến (Popularity Measures)

10/ Các báo cáo doanh nghiệp nghiên cứu công nghệ thông tin (IT Research Firm Reports)

11/ Doanh thu và thước đo tải về (Sales or Download Measures)

12/ Sử dụng cạnh tranh (Competition Use)

13/ Tăng trưởng quy mô (Growth in Capability).

Nếu bạn đã là một học viên trong một thời gian thì hộp công cụ của bạn có lẽ đã được xác định khá tốt. Trường hợp này là thực sự hữu ích trong việc trả lời các câu hỏi của những người mới gia nhập vào lĩnh vực khoa học dữ liệu rằng “những gì tôi nên học cho hữu ích?”Điều này sẽ không can ngăn bạn sử dụng SPSS, SAS, R, hay Python nhưng nó sẽ cho bạn thấy một số xu hướng thú vị. Một lần nữa, bạn sẽ phải đọc blog vì nó quá phong phú về nội dung và nó để cho người đọc đánh giá những kết quả mà đôi khi có vẻ mâu thuẫn. Tuy nhiên, nếu tôi đã cố gắng để trả lời câu hỏi “cái gì tôi nên học” tôi sẽ xem xét ít nhất hai đồ thị những từ blog của Muenchen.

Kể từ khi nhận một công việc, trước khi bạn quan tâm đến việc đầu tư cho giáo dục thì bạn nên nhìn vào toàn bộ danh sách công việc đòi hỏi những kỹ năng phần mềm phân tích cụ thể như là một thứ để mở rộng tầm mắt.

Tương tự như vậy, biểu đồ này dựa trên cuộc điều tra sử dụng dữ liệu đưa ra một cái nhìn rất sâu về những gì các nhà khoa học dữ liệu đang sử dụng ngày nay.Tôi sẽ không cố gắng để trả lời câu hỏi, “tôi nên học cái gì” hay khác hơn là nói rõ Java, R hay Python, SAS hay SPSS? Thành thật mà nói, nhiều khả năng là những gì giáo sư của bạn muốn bạn sử dụng thường là để chứng tỏ một nhà khoa bảng xử lý một phần mềm sẵn có của người bán nó như thế nào.

R hay Python? Tôi không đụng chạm đến vấn đề này ngoại trừ một điều để nói rằng có một biểu đồ thú vị ngụ ý rằng Python đang tăng tốc trước R.

Nếu bạn đang tìm kiếm câu trả lời cho câu hỏi làm thế nào để trở thành một nhà khoa học dữ liệu và những gì bạn nên học, suy nghĩ về điều này như thách thức đầu tiên của bạn. Nghiên cứu tài liệu gốc và rút ra kết luận của riêng bạn. Tôi thấy hạnh phúc khi những tác giả này đã cùng đưa các tài liệu này và hi vọng chúng tiếp tục được cập nhật trong tương lai.

Người dịch: Nguyễn Minh Cao Hoàng

Nguồn: “How to Become A Data Scientist”, Data-Magnum, August 26, 2014.

Làm thế nào để trở thành một nhà khoa học dữ liệu – Phần đầu


Bill Vorhies

Tôi bắt đầu bước chân vào lĩnh vực khoa học dữ liệu đã lâu. Tôi đã trở thành người mô hình hóa các dự báo thương mại từ năm 2001, và do xu hướng đặt tên đã thay đổi nên giờ đây tôi xác định bản thân mình như một nhà khoa học dữ liệu. Không ai trao cho tôi danh hiệu này. Nhưng thông qua việc xem xét các tài liệu, các danh sách công việc và các đồng nghiệp của tôi trong lĩnh vực này đã cho thấy rằng tên gọi nhà khoa học dữ liệu truyền đạt rõ ràng nhất những kiến thức và kinh nghiệm gì của tôi đã khiến tôi trở thành nhà khoa học dữ liệu.

Ngày nay, bạn có thể nhận được một bằng cấp về khoa học dữ liệu, do đó bạn đưa bằng cấp của mình ra để xác nhận lĩnh vực chuyên môn của bạn. Nhưng những điều này cũng tương đối mới, với tất cả sự tôn trọng, nếu bạn chỉ mới nhận bằng cấp của mình gần đây thì bạn vẫn là một người mới bắt đầu. Những người trong chúng ta sử dụng danh hiệu này ngày nay rất có thể bắt nguồn từ sự kết hợp giữa những nền tảng kinh doanh, khoa học chính xác, khoa học máy tính, vận trù học (operations research), với thống kê (statistics).

Bạn tự nhận mình là ai là một chuyện, còn người thuê bạn hay người mà khách hàng của bạn đagn tìm kiếm rất có thể là một chuyện khác. Nhiều tài liệu viết về những nhà khoa học dữ liệu, người mà việc tìm thấy cũng khó như tìm thấy các con kỳ lân. Không thật sự là một con kỳ lân, tôi muốn nói điều này thiết lập một chuẩn mực khá cao. Bên cạnh đó, tôi đã nghiên cứu kỹ các danh sách quá mơ hồ, và với sự hiểu biết hạn hẹp, một mẩu tuyển dụng nhà khoa học dữ liệu lại mô tả công việc như của một nhà phân tích ở mức nhập dữ liệu, ngược lại vài mẩu tuyển dụng các nhà phân tích thì có vẻ như đang tìm kiếm các nhà khoa học dữ liệu uyên bác.

Tất cả sự lộn xộn này vượt qua danh hiệu mà chúng ta được gọi, và những gì chúng tôi thực sự làm có thể khiến cho bạn rơi vào trạng thái tâm thần phân liệt. Điều này khiến cho việc trả lời những câu hỏi mà tôi thường nhận được từ những bạn sinh viên hay từ những người mới vào nghề rằng làm thế nào để trở thành một nhà khoa học dữ liệu càng thêm phức tạp.

Hãy tưởng tượng sự ngạc nhiên và vui sướng của tôi khi chỉ trong vòng một tuần tôi bất ngờ đọc được hai ấn phẩm. Chúng không chỉ mang đến cho tôi luồng sáng mới và sự hiểu biết về câu hỏi này mà còn giúp tôi hiểu rằng không chỉ có duy nhất một định nghĩa về nhà khoa học dữ liệu, mà có một luận cứ chặt chẽ (dựa trên phân tích thống kê) rằng trong thực tế có đến bốn kiểu.

Bốn kiểu nhà khoa học dữ liệu

Thông tin ở đây xuất phát từ bài “Phân tích các nhà phân tích” (Analyzing the Analyzers) của Harris, Murphy, và Vaisman (2013) đăng trên trang O’Reilly. Tôi nể phục những đồng nghiệp này về khảo sát sâu của họ và về những kết luận được đưa ra bởi phân tích thống kê của những kết quả đó. Đây là một bài phải đọc.

Phân tích tốt này có 40 trang nên dưới đây cũng chỉ là một bản tóm tắt ở mức độ cao nhất. Tóm lại, họ kết luận rằng có bốn kiểu nhà khoa học dữ liệu, các kiểu nhà khoa học dữ liệu này không khác nhiều về chiều rộng kiến thức, vốn tương tự nhau, nhưng chiều sâu của lĩnh vực chuyên môn thì khác nhau, và cách mỗi kiểu thích tương tác với những vấn đề khoa học dữ liệu như thế nào cũng khác nhau.

1/ Các nhà kinh doanh dữ liệu.

2/ Các nhà sáng tạo dữ liệu.

3/ Các nhà phát triển dữ liệu.

4/ Các nhà nghiên cứu dữ liệu.

Từ việc đánh giá 22 kỹ năng riêng biệt và những báo cáo tự đánh giá gồm nhiều phần (multi-part self-identification statements) họ đã kết luận và khái quát hóa theo những mô tả này. Tôi dám chắc rằng bạn sẽ nhận ra chính mình thuộc một trong các kiểu này.

Nhà kinh doanh dữ liệu (data businesspeople) là những người tập trung nhất vào tổ chức và làm thế nào để những dự án dữ liệu mang lại lợi nhuận. Họ thường hay đánh giá mình cao như là nhà lãnh đạo và nhà khởi nghiệp, và có nhiều khả năng báo cáo là từng quản lý một nhân viên. Họ cũng khá thường thực hiện hợp đồng hay công việc tư vấn, và một tỉ lệ đáng kể bắt đầu một công việc kinh doanh. Mặc dù trong số những người được khảo sát, họ hiếm khi có một bằng cấp cao, hầu như họ đều có bằng MBA. Nhưng các nhà kinh doanh dữ liệu chắc chắn có kỹ năng kỹ thuật và đặc biệt thường có bằng kỹ sư trình độ đại học. Và họ làm việc với dữ liệu thực – ít nhất khoảng 90% báo cáo thỉnh thoảng họ mới làm việc với các vấn đề ở quy mô Gigabyte (GB).

Các nhà sáng tạo dữ liệu (data creatives). Các nhà khoa học dữ liệu có thể thường giải quyết toàn bộ quá trình phân tích từ đầu đến cuối theo cách thức riêng của họ: từ trích dữ liệu, đến tổng hợp và phân lớp dữ liệu, đến trình bày các phân tích dưới dạng thống kê hay các dạng tiên tiến khác, đến tạo ra cách diễn giải và sự hình dung thuyết phục, đến xây dựng các công cụ khiến cho sự phân tích có khả năng phát triển và ứng dụng rộng rãi. Tôi nghĩ các nhà sáng tạo dữ liệu (Data Creatives) là khái quát nhất của các nhà khoa học dữ liệu, họ là những người xuất sắc trong việc ứng dụng một loạt các công cụ và kỹ thuật cho một vấn đề, hay tạo ra các nguyên mẫu sáng tạo tại các cuộc thi lập trình (hackathons) – một ví dụ hoàn hảo cho câu cái gì cũng biết (Jack of All Trades). Họ có kinh nghiệm học thuật đáng kể, với khoảng ba phần tư có tham gia giảng dạy và các bài báo được báo cáo. Phổ biến là trình độ đại học trong các lĩnh vực như Kinh tế học và Thống kê. Hiếm khi các nhà sáng tạo dữ liệu (Data Creatives) có bằng Tiến sĩ. Là nhóm thường xác định như một Hacker, họ cũng có kinh nghiệm mã nguồn mở sâu nhất (deepest Open Source experience), với khoảng một nửa đóng góp vào các dự án phần mềm nguồn mở (OSS) và một nửa làm việc trên các dự án dữ liệu mở (Open Data projects).

Nhà phát triển dữ liệu (data developer). Chúng tôi nghĩ rằng các nhà phát triển dữ liệu là những người tập trung vào các vấn đề kỹ thuật của dữ liệu quản lý – làm thế nào để có được nó, lưu nó, và học hỏi từ nó. Các nhà phát triển dữ liệu của chúng ta có xu hướng đánh giá mình khá cao như các nhà khoa học, mặc dù không cao như các nhà nghiên cứu dữ liệu (data researchers). Điều này có ý nghĩa đặc biệt đối với những người tích hợp chặt chẽ với Học Máy (Machine Learning) và cộng đồng học thuật có liên quan. Nhà phát triển dữ liệu rõ ràng viết code trong công việc hằng ngày của họ. Khoảng một nửa trong số họ có bằng khoa học máy tính hay kỹ sư máy tính. Các nhà phát triển dữ liệu có nhiều đất sống hơn trong lĩnh vực Học Máy/nhóm kỹ năng dữ liệu lớn so với các kiểu khác của nhà khoa học dữ liệu.

Các nhà nghiên cứu dữ liệu (data researchers). Một trong những con đường nghề nghiệp thú vị dẫn đến danh hiệu “nhà khoa học dữ liệu” bắt đầu với nghiên cứu học thuật trong các ngành khoa học vật lý hay xã hội, hoặc trong ngành thống kê. Nhiều tổ chức đã nhận ra giá trị cảu việc đào tạo có tính học thuật sâu trong việc sử dụng các dữ liệu để hiểu các quá trình phức tạp, dù là lĩnh vực kinh doanh của họ có thể khác biệt khá nhiều so với các lĩnh vực khoa học cổ điển. Phần lớn những người có nhóm kỹ năng về thống kê tốt nhất trong số những người có nhóm kỹ năng về thống kê tốt nhất trong số những người được khảo sát đều rơi vào hạng mục này. Gần 75% các nhà nghiên cứu dữ liệu đã có công trình công bố trên tạp chí có bình duyệt và hơn một nửa trong số họ có bằng Tiến sĩ.

(còn tiếp) 

Người dịch: Nguyễn Minh Cao Hoàng

Nguồn: “How to Become A Data Scientist”, Data-Magnum, August 26, 2014.

Dữ liệu lớn: Có phải chúng ta đang lầm to? – Phần cuối


Tuy nhiên, dữ liệu mà ứng dụng Street Bump thực sự tạo ra, được lưu lại trên các thiết bị có cài ứng dụng này, là sơ đồ ổ gà tập trung một cách có hệ thống ở những vực trẻ, giàu có, là nơi có nhiều người sở hữu điện thoại thông minh. Ứng dụng Street Bump cho chúng ta bộ dữ liệu lớn “N = Tất cả” theo nghĩa là ghi nhận lại từng cái xóc nảy của từng chiếc điện thoại có cài đặt ứng dụng. Việc này không giống như việc ghi nhận lại từng cái ổ gà. Kate Crawford, nghiên cứu viên của Microsoft, chỉ rõ rằng dữ liệu được tìm thấy ẩn chứa những độ chệch mang tính hệ thống và phải thật cẩn trọng mới có thể phát hiện và khắc phục chúng. Các bộ dữ liệu lớn dường như có tính bao hàm như “N = Tất cả” thường chỉ là sự huyễn hoặc quyến rũ.

Tuy nhiên, ai bận tâm đến quan hệ nhân quả hay độ chệch khi chọn mẫu trong khi người ta có thể kiếm tiền từ dữ liệu lớn? Các tập đoàn trên khắp thế giới ắt hẳn là thèm nhỏ dãi khi họ chiêm ngắm thành công thần kỳ của chuỗi cửa hàng bách hóa Target của Mỹ, Charles Duhigg đã tường thuật thành công của Target bằng một bài viết đình đám trên tờ The New York Times vào năm 2012. Duhigg lý giải rằng Target đã thu thập rất nhiều dữ liệu về khách hàng của họ, và Target rất tài tình khi phân tích bộ dữ liệu đó, và Target cực kỳ thấu hiểu khách hàng.

Giai thoại chết người của Duhigg là về một người đàn ông đã xông vào cửa hàng Target gần Minneapolis và phàn nàn với người quản lý về việc công ty gửi phiếu giảm giá mặt hàng quần áo trẻ sơ sinh và thời trang thai sản cho cô con gái tuổi teen của ông. Người quản lý đã xin lỗi rối rít và sau đó còn gọi điện xin lỗi thêm lần nữa – mục đích chỉ là muốn nghe người cha thú nhận rằng cô gái tuổi teen thực sự đang mang thai. Cha cô gái không biết con mình có thai. Target thì biết sau khi họ phân tích các giao dịch mua khăn giấy ướt không mùi và thuốc bổ sung magiê của cô gái.

Huyền thuật thống kê ư? Có một cách lý giải thực tế hơn.

Theo Kaiser Fung,, người đã bỏ ra nhiều năm nghiên cứu phát triển các phương pháp tương tự cho những nhà bán lẻ và các công ty quảng cáo, thì “Có rất nhiều vấn đề tưởng thật nhưng là sai lầm”. Ý Fung muốn nói là người ta đã không nhắc đến vô số câu chuyện về những phụ nữ nhận phiếu giảm giá mặt hàng quần áo trẻ sơ sinh nhưng lại không đang mang thai.

Căn cứ vào các giai thoại, người ta dễ ngộ nhận rằng các thuật toán của Target không bao giờ sai – bất cứ ai nhận được phiếu giảm giá mặt hàng áo liền quần của trẻ sơ sinh và khăn giấy ướt đều đang mang thai. Rõ ràng không đúng. Thực tế, những phụ nữ đang mang thai nhận được phiếu giảm giá chỉ đơn giản vì Target đã gửi phiếu giảm giá đến toàn bộ khách hàng trong danh sách của họ. Trước tiên, chúng ta không nên đồng tình với suy nghĩ cho rằng Target sử dụng những nhân viên đọc được suy nghĩ của khách hàng rồi mới ngồi đếm xem mỗi lần đúng thì có mấy lần sai.

The cách lý giải của Charles Duhigg, Target xáo trộn các phiếu giảm giá ngẫu nhiên, ví dụ như phiếu giảm giá mặt hàng ly uống rượu, vì các khách hàng đang mang thai sẽ cảm thấy kinh sợ nếu họ nhận ra máy tính công ty hiểu họ tường tận như thế nào.

Fung còn có một cách lý giải khác: Target xáo trộn các phiếu giảm giá không phải vì họ sợ gửi tập phiếu giảm giá toàn mặt hàng trẻ sơ sinh cho một phụ nữ đang mang thai nào đó mà vì công ty biết rằng trong số các tập phiếu giảm giá đó rốt cuộc sẽ có nhiều tập đến tay những người phụ nữ đang không mang thai.

Những cách lý giải trên không có ý phủ nhận giá trị của việc phân tích dữ liệu khách hàng: các phân tích kiểu như vậy có thể sinh ra lợi nhuận rất đáng kể. Thậm chí khi mức độ chính xác của việc gửi phiếu giảm giá đặc biệt có mục tiêu xác định gia tăng lên chút ít cũng là một thành tựu đáng kể để phấn đấu. Tuy nhiên, không nên kết hợp khả năng sinh lời với sự toàn tri.

Năm 2005, John Ioannidis, chuyên gia dịch tễ học, đã công bố một bài nghiên cứu có tiêu đề rõ ràng đến mức không cần giải thích gì thêm, “Why Most Published Research Findings Are False” (Tại sao hầu hết các kết quả nghiên cứu đều sai). Bài nghiên cứu nổi đình nổi đám vì đã lột tả một vấn đề hệ trọng một cách đầy khiêu khích. Một trong các ý tưởng chủ chốt đằng sau công trình của Ioannidis chính là “vấn đề kiểm định nhiều giả thuyết” theo ngôn ngữ của các chuyên gia thống kê.

Khi khảo sát một mô thức trong dữ liệu, người ta thường đặt câu hỏi về khả năng mô thức đó xuất hiện một cách ngẫu nhiên. Nếu mô thức được quan sát ít có khả năng xảy ra một cách ngẫu nhiên, thì mô thức đó “có ý nghĩa thống kê”.

Vấn đề kiểm định nhiều giả thuyết xuất hiện khi một nhà nghiên cứu xem xét nhiều mô thức khả dĩ cùng một lúc. Xét một ví dụ về thực nghiệm ngẫu nhiên, theo đó người ta phát vitamin cho một số học sinh tiểu học, số khác được phát cho giả dược. Liệu rằng vitamin có tác dụng không? Câu trả lời hoàn toàn phụ thuộc vào việc chúng ta hiểu “tác dụng” là như thế nào. Các nhà nghiên cứu có thể nhìn vào chiều cao, cân nặng của trẻ, tỉ lệ sâu răng, hành vi trong lớp học, điểm kiểm tra, thậm chí là lý lịch tư pháp hoặc thu nhập khi 25 tuổi (chờ đến khi trẻ trưởng trẻ giàu, trẻ trai, trẻ gái hay không? Việc kiểm định đầy đủ các tương quan khác nhau và các kết quả may ra mới trúng sẽ nhấn chìm mọi khám phá thực sự.

Có nhiều cách giải quyết nhưng vấn đề lại càng trầm trọng hơn đối với các bộ dữ liệu lớn, vì có nhiều giả thuyết để kiểm định hơn là có nhiều dữ liệu để kiểm định. Nếu không phân tích cẩn thận, tỉ lệ mô thức thực sự so với mô thức giả tạo – một dấu hiệu của nhiễu – sẽ nhanh chóng tiến về 0.

Tệ hại hơn nữa, một trong các liều thuốc giải đối với vấn đề nhiều giả thuyết là sự minh bạch, cho phép những nhà nghiên cứu khác xác định số lượng giả thuyết được kiểm định và số lượng kết quả trái ngược đang mòn mỏi đợi chờ trong các ngăn kéo vì chúng có vẻ không hấp dẫn để công bố rộng rãi. Nhưng, dữ liệu được tìm thấy hiếm khi được bạch hóa. Amazon và Google, Facebook và Twitter, Target và Tesco – những công ty này không sẵn sàng chia sẻ thông tin với bạn hay với bất kỳ ai khác.

Các bộ dữ liệu mới, đồ sộ, rẻ tiền và các công cụ phân tích mạnh mẽ sẽ tạo ra tiền cổ tức – không ai nghi ngờ điều này. Và có một vài trường hợp, việc phân tích dữ liệu lớn đã mang lại kết quả thần kỳ. David Spiegelhalter đến từ Cambridge đề cập đến Google Translate, một công cụ vận hành bằng cách phân tích thống kê hàng trăm triệu tài liệu đã được con người chuyển ngữ và tìm kiếm mô thức mà nó có thể sao chép. Đây là ví dụ về “học máy” (machine learning) theo ngôn ngữ của các nhà khoa học máy tính, và công cụ dịch có thể cho ra các kết quả đáng kinh ngạc mà không cần đến những nguyên tắc ngữ pháp được lập trình sẵn. Công cụ dịch này của Google gần giống chiếc hộp đen chứa các thuật toán vận hành dựa vào dữ liệu và không bị chi phối bởi lý thuyết – và theo Spiegelhalter thì đó là “một thành tựu tuyệt vời”. Thành tựu đó được tạo ra trên nền tảng xử lý khéo léo các bộ dữ liệu khổng lồ.

Nhưng dữ liệu lớn không giúp giải quyết vấn đề đã ám ảnh các chuyên gia thống kê và các nhà khoa học trong nhiều thế kỷ qua: vấn đề thấu hiểu, vấn đề suy diễn điều gì đang xảy ra, và vấn đề xác định cách thức chúng ta có thể can thiệp nhằm cải thiện hệ thống.

Giáo sư David Hand đến từ trường Imperial College London nói rằng: “Chúng ta có một nguồn lực mới ở đây”. “Nhưng không ai muốn có “dữ liệu” đơn thuần cả. Cái họ muốn là các câu trả lời”.

Các phương pháp thống kê cần phải có những bước tiến dài để có thể làm được điều ấy.

Patrick Wolfe đến từ trường Đại học London (London College) phát biểu rằng: “Hiện trạng còn rất hoang sơ”. “Những người khôn ngoan và có động cơ sẽ xoay sở và tận dụng mọi công cụ khiến cho các bộ dữ liệu này lên tiếng, và quả là tuyệt vời. Nhưng trước mắt, chúng ta vẫn đang mò mẫm”.

Các chuyên gia thống kê đang vật lộn để phát triển các phương pháp mới nhằm đón bắt cơ hội của dữ liệu lớn. Chúng ta cần những phương pháp mới đó, nhưng chúng ta không được bỏ qua mà phải lấy các bài học thống kê truyền thống làm nền tảng phát triển các phương pháp mới để chúng có thể phát huy tác dụng.

Nhắc lại tuyên bố khẳng định của dữ liệu lớn. Độ chính xác kỳ lạ dễ thổi phồng kết quả nếu chúng ta lờ đi các trường hợp tưởng thật nhưng là sai lầm, như trường hợp dự báo về thai kỳ của Target. Tuyên bố cho rằng quan hệ nhân quả “đã bị hạ bệ” là đúng nếu chúng ta dự báo trong môi trường ổn định, nhưng lại là sai nếu thế giới biến động không ngừng (như trường hợp Dịch cúm) hay khi bản thân chúng ta muốn thay đổi thế giới. Sự hứa hẹn “N = Tất cả”, và do đó mà vấn đề độ chệch khi lấy mẫu không còn nữa, lại không đúng trong hầu hết các trường hợp được nhắc đến. Quan điểm cho rằng “khi có đủ dữ liệu trong tay, các con số sẽ nói lên tất cả” có vẻ chất phác một cách tuyệt vọng khi gặp phải những bộ dữ liệu mà các mô thức giả tạo lấn át các khám phá thực sự.

Thời đại “dữ liệu lớn” đã đến, nhưng thời đại của nhận thức sâu sắc thì chưa. Thách thức hiện tại là giải quyết các vấn đề mới và tìm được các câu trả lời mới mà không lặp lại những sai lầm về mặt thống kê trên một quy mô lớn hơn bao giờ hết.

Người dịch: Trần Thị Minh Ngọc

Nguồn: Big data: are we making a big mistaker? – FT Magazine, 28/03/2014.

Dữ liệu lớn: Có phải chúng ta đang lầm to? – Phần II


Tuy nhiên, một phân tích chỉ chú trọng sự tương quan không dựa trên nền tảng lý thuyết rõ ràng là không bền vững. Nếu bạn không hiểu điều gì ẩn đằng sau sự tương quan, thì bạn sẽ không biết tại sao sự tương quan đó bị phá vỡ. Một cách lý giải cho sự thất bại của Flu Trends chính là các bản tin đầy rẫy các câu chuyện đáng sợ về dịch cúm vào tháng 12/2012 và những câu chuyện đó đã kích thích những người khỏe mạnh tìm kiếm thông tin trên Internet. Một cách lý giải khác chính là thuật toán gợi ý tìm kiếm của Google đã dẫn dắt chệch mục tiêu khi Google bắt đầu đề xuất các chẩn đoán một cách tự động khi người ta nhập các triệu chứng bệnh vào.

Google Flu Trends sẽ phục hồi lại, sẽ được hiệu chuẩn lại bằng dữ liệu mới – và phải như vậy. Có nhiều lý do để vui mừng về các cơ hội lớn hơn được tạo ra cho chúng ta khi chúng ta dễ dàng thu thập và phân tích các bộ dữ liệu đồ sộ. Nhưng nếu chúng ta không rút được bài học gì từ sự cố này, chúng ta sẽ lại mắc sai lầm.

Các chuyên gia thống kê đã mất 200 năm để phát hiện những cạm bẫy chực chờ khi chúng ta tìm cách thấu hiểu thế giới bằng dữ liệu. Ngày nay, dữ liệu trở nên lớn hơn, nhanh hơn và rẻ hơn – nhưng chúng ta không được huyễn hoặc rằng các cạm bẫy giờ đây đã bị vô hiệu hóa. Cạm bẫy nguy hiểm vẫn chờ chực.

….

Năm 1936, Alfred Landon thuộc Đảng Cộng hòa đã ra tranh cử cùng Tổng thống Franklin Delano Roosevelt. The Literary Digest, một tạp chí uy tín, nhận lãnh trách nhiệm dự báo kết quả bầu cử. Tạp chí này đã thực hiện một cuộc thăm dò ý kiến dư luận hết sức tham vọng qua      đường bưu điện, mục tiêu đặt ra là phải tiếp cận được 10 triệu người, chiếm 1/4 toàn bộ lực lượng cử tri. Lượng thư phản hồi đổ về ào ạt ngoài sức tưởng tượng, nhưng The Literary Digest dường như thích thú với khối lượng công việc khổng lồ này. Vào cuối tháng 8, tạp chí đã tường thuật rằng: “Tuần sau, những phản hồi đầu tiên trong số 10 triệu thư phản hồi này sẽ khơi dòng cho luồng phiếu được đánh dấu, sẽ được kiểm tra ba lần, được đối chiếu, được phân loại chéo năm lần và được tổng hợp”.

Sau khi lập biểu thống kê 2,4 triệu phản hồi được gửi về trong hơn hai tháng, một con số đáng kinh ngạc, tạp chí The Literary Digest đã công bố kết quả khảo sát của họ: Landon sẽ thắng với tỷ lệ thuyết phục 55% so với 41%, một số ít cử tri còn lại ủng hộ ứng viên thứ ba.

Kết quả cuối cùng của cuộc bầu cử lại khác hoàn toàn: Roosevelt đã đè bẹp Landon với tỉ lệ 61% so với 37%. Sự đau đớn ê chề của tạp chí The Literary Digest chưa dừng lại ở đó, một cuộc điều tra có quy mô nhỏ hơn rất nhiều do George Gallup, một người tiên phong trong thăm dò dư luận, thực hiện đã có kết luận khá sát với kết quả bầu cử thực tế, dự báo được chiến thắng dễ dàng của Roosevelt. Ông Gallup đã nắm bắt được một số điều mà tạp chí The Literary Digest không biết. Nói đến dữ liệu, kích cỡ không quyết định tất cả.

Các cuộc thăm dò dư luận căn cứ trên các mẫu rút ra từ toàn bộ lực lượng cử tri. Điều này có nghĩa là những người thăm dò dư luận cần phải giải quyết hai vấn đề: sai số khi lấy mẫu (sample error) và độc chệch khi chọn mẫu (sample bias).

Sai số khi lấy mẫu thể hiện rủi ro, hoàn toàn ngẫu nhiên, mẫu được chọn ngẫu nhiên không phản ánh quan điểm thực của tổng thể. “Biên độ sai số” được báo cáo trong các cuộc thăm dò dư luận phản ánh rủi ro này và khi mẫu càng lớn thì biên độ sai số càng nhỏ. 1000 cuộc phỏng vấn là một mẫu đủ lớn phục vụ được nhiều mục đích và ông Gallup cho biết ông đã thực hiện 3000 cuộc phỏng vấn.

Nhưng nếu 3000 cuộc phỏng vấn cho ra kết quả tốt, vậy thì tại sao 2,4 triệu cuộc phỏng vấn lại không có được kết quả sát hơn? Câu trả lời là sai số khi lấy mẫu có một người bạn hết sức nguy hiểm: độ chệch khi chọn mẫu. Sai số khi lấy mẫu xuất hiện khi mẫu được chọn ngẫu nhiên không phản ánh được tổng thể một cách hoàn toàn ngẫu nhiên; độ chệch khi chọn mẫu xuất hiện khi mẫu hoàn toàn không được chọn một cách ngẫu nhiên. George Gallup đã phải tốn nhiều công sức để tìm mẫu không bị chệch vì ông hiểu rằng có được mẫu không chệch quan trọng hơn mẫu lớn.

Tạp chí The Literary Digest, trong quá trình săn tìm toàn bộ dữ liệu lớn hơn, đã vụng về chọn phải một mẫu bị chệch. Tạp chí này đã gửi biểu mẫu cho những người trong danh sách mà họ tập hợp được từ danh sách đăng kiểm xe hơi và từ danh bạ điện thoại – vào năm 1936 thì mẫu này gồm toàn những người giàu có so với mặt bằng chung. Độ chệch càng trầm trọng hơn khi những người ủng hộ Landon có nhiều khả năng gửi thư phản hồi hơn. Sự cộng hưởng của hai độ chệch này đủ kết liễu cuộc thăm dò của tạp chí The Literary Digest. Cứ mỗi người mà chuyên gia thăm dò ý kiến dư luận của George Gallup phỏng vấn, thì tạp chí The Literary Digest nhận được 800 thư phản hồi. Điều khiến họ đau đớn ê chề chính là việc họ ước lượng được một kết quả sai lầm cực kỳ chính xác.

Dữ liệu lớn tiếp tục đe dọa tạp chí The Literary Digest hết lần này đến lần khác. Do các bộ dữ liệu được tìm thấy rất lộn xộn, khó lòng mà phát hiện ra các độ chệch ẩn núp bên trong – và do chúng quá đồ sộ, nên các chuyên gia phân tích dường như đã kết luận rằng vấn đề chọn mẫu  không đáng lo. Đáng lo chứ.

Giáo sư Viktor Mayer-Schӧnberger đến từ Viện Internet của Oxford, đồng tác giả cuốn Big Data, đã nói với tôi rằng định nghĩa về dữ liệu lớn mà ông ưa thích chính là “N = Tất cả” – nghĩa là chúng ta không cần lấy mẫu nữa, chúng ta có toàn bộ tổng thể. Những người kiểm phiếu không ước lượng kết quả bầu cử bằng cách kiểm đến đại diện: họ đếm phiếu bầu – tất cả phiếu bầu. Và khi “N = Tất cả” thì thực sự không hề có vấn đề độ chệch khi chọn mẫu do mẫu bao gồm mọi quan sát.

Nhưng có phải “N = Tất cả” là mô tả phù hợp dành cho các bộ dữ liệu được tìm thấy mà chúng ta đang xét đến? Có lẽ là không. “Tôi sẽ thách thức quan niệm cho rằng người ta có thể có tất cả các dữ liệu”, lời của Patrick Wolfe, nhà khoa học máy tính và là giáo sư thống kê của trường Đại học London (London College).

Lấy ví dụ trường hợp của Twitter. Về mặt nguyên tắc, mỗi một tin nhắn trên Twitter có thể được lưu lại và phân tích, và được sử dụng để rút ra kết luận về tâm tư nguyện vọng của công chúng. (Trong thực tế, hầu hết các nhà nghiên cứu khi sử dụng một tập con của cái “vòi rồng” dữ liệu khổng lồ đó mà thôi). Nhưng trong khi chúng ta có thể xem xét tất cả các dòng trạng thái, thì những người dùng Twitter lại không đại diện cho toàn bộ tổng thể. (Theo Dự án Nghiên cứu Internet của Pew, vào năm 2013, những người dùng Twitter cư trú ở Hoa Kỳ đa phần là người trẻ tuổi, sống ở thành thị hay ngoại ô, và da đen).

Phải luôn luôn đặt câu hỏi ai và cái gì còn thiếu sót, đặc biệt là khi sử dụng một đống lộn xộn dữ liệu được tìm thấy. Kaiser Fung, chuyên gia phân tích dữ liệu và là tác giả cuốn Numbersense (Ý nghĩa của con số), đưa ra cảnh báo khi chúng ta giả định một cách đơn giản rằng chúng ta có trong tay tất cả mọi thứ cần thiết. Ông cho rằng: “N = Tất cả” thường là một giả định chứ không là một sự kiện về dữ liệu”.

Xét trường hợp ứng dụng Street Bump của thành phố Boston trên điện thoại thông minh, ứng dụng này sử dụng gia tốc kế của điện thoại để phát hiện ra ổ gà mà không cần lực lượng nhân công của thành phố đi tuần tra các tuyến đường. Khi người dân Boston tải ứng dụng và lái xe lòng vòng, điện thoại của họ sẽ tự động báo cho Tòa thị chính biết liệu có cần phải tu sửa mặt đường hay không. Việc giải quyết các thách thức về mặt kỹ thuật có liên quan đã tạo ra các dấu vết giàu thông tin giúp khắc phục vấn đề một cách đẹp mắt mà người ta không thể mường tượng được ở thời điểm cách đây một vài thập kỷ. Thành phố Boston tự hào tuyên bố rằng “dữ liệu cung cấp cho thành phố thông tin được cập nhật mới liên tục, thành phố sử dụng thông tin này để khắc phục những bất ổn và hoạch định các dự án đầu tư dài hạn”.

(còn tiếp) 

Người dịch: Trần Thị Minh Ngọc

Nguồn: Big data: are we making a big mistaker? – FT Magazine, 28/03/2014.