Dữ liệu lớn để trợ giúp quá trình chuyển đổi năng lượng?


Eric Vidalenc

Việc phổ biến các thiết bị kết nối (máy tính, đồng hồ, xe hơi, điện thoại thông minh…) và các thiết bị cảm biến còn được gọi là Internet of Things (IoT – Mạng lưới thiết bị kết nối Internet) trong cuộc sống hàng ngày có hệ luận của nó: Dữ liệu lớn, có nghĩa là tạo ra hàng đống dữ liệu khổng lồ cho tất cả các khía cạnh cuộc sống chúng ta. Từ các thành tích thể thao (nhịp tim, tốc độ,… số Kcal năng lượng tiêu hao), đến thông tin theo thời gian thực trên các mạng lưới giao thông công cộng (x phút trước giờ đến của chuyến tàu tiếp theo), qua các ứng dụng từ điện thoại di động như Uber (y phút trước khi bác tài đến đón bạn), hay các thiết bị đo thông minh trong nhà (đếm “một cách thông minh” số kWh điện tiêu dùng), đặt cạnh nhau tất cả những thứ trên góp phần vào việc dữ liệu hóa cuộc sống chúng ta.

Và lan ra cùng một lúc trực giác: hiểu tốt hơn có nghĩa là hành động tốt hơn. Đặc biệt nhân bội dữ liệu vào việc sử dụng năng lượng, cũng có nghĩa là nhân bội những hành động có hiểu biết đầy đủ, như phân tích này trong tạp chí La Tribune có đề cập. Tuy nhiên, một giả định như vậy còn xa mới rõ ràng. Liệu phạm trù luôn “nhiều hơn” (trong trường hợp này, nhiều dữ liệu hơn) có là một con đường không thể lẩn tránh, cần thiết, hữu ích… hay thừa thãi của quá trình chuyển đổi năng lượng và kỹ thuật số?

Luôn nhiều hơn có tất nhiên là luôn tốt hơn không?

Hãy lấy ví dụ về thông tin. Từ những làn sóng liên tục các kênh chuyên đề đến các trang web tin tức, qua các tin nhắn trên điện thoại thông minh, con người cũng đã bị “say khướt” bởi những dòng chảy thông tin ấy. Liệu trình độ kiến thức và hiểu biết của chúng ta, ở cấp độ cá nhân hay tập thể, về sự vật và thế giới có tốt hơn không so với cách đây 10 năm, 20 năm, 30 năm?

Nếu tập trung vào những chiếc đồng hồ mới kết nối, để xác định số lượng Kcal năng lượng hấp thụ được vào mỗi bữa ăn, số bước chân đã đi trong ngày…, thì con người đã mở rộng ảnh hưởng cảu dữ liệu vào những lĩnh vực riêng tư hơn và cá nhân hơn. Con người chưa bao giờ được trang bị tốt hơn như ngày nay (máy cân, đồng hồ và vòng đeo tay kết nối, ứng dụng y tế, các loại thiết bị đếm khác nhau…), thế nhưng những người bị bệnh béo phì (chỉ nói đến bệnh này mà thôi) cũng chưa bao giờ đông như ngày nay.

Đây mới chỉ là hai ví dụ, một ví dụ phi vật chất gần với kiến thức, và một ví dụ vật chất gắn với việc dinh dưỡng. Nhưng trong nhiều lĩnh vực khác, giờ đây chúng ta có thể khẳng định rằng “nhiều hơn” thường biến thành “quá nhiều”, để rồi cuối cùng trở thành kẻ thù của “tốt hơn”.

Taleb và sự quá tải thông tin, Damasio và sự đãi vàng

Nicolas Taleb, tác giả cuốn Black Swan (Thiên Nga đen) và gần đây hơn là cuốn Antifragile (Cải thiện nghịch cảnh), phát triển trong tác phẩm sau ấy một biện luận khá thuyết phục về thông tin. “Lượng thông tin mà thế giới hiện đại bao phủ xuống con người đã biến họ […] thành những người nhiễu tâm”. Nhìn vào quá khứ (theo định nghĩa, việc tạo dựng dữ liệu chỉ là việc lưu trữ, thống kê các sự kiện đã xảy ra), chúng ta không có khả năng hiểu được những rạn nứt và những cách vận hành mới. Bằng cách tập trung vào “tiếng ồn”, chúng ta tập trung vào những sự kiện vô nghĩa. “Tiếng ồn” làm cho chúng ta bận tâm, trong khi phải chú ý đến “tín hiệu”.

Alain Damasio, tác giả truyện khoa học viễn tưởng và của một suy tưởng hiện đại về kỹ thuật, cũng phê phán trận đại hồng thủy về thông tin kỹ thuật số này. Trong nhiều cuộc phỏng vấn gần đây, của Rue89 hay của Inrockuptibles, ông tự hỏi: “Làm thế nào có thể đãi được khối lượng thông tin khổng lồ rối rắm này để tìm ra vài điều nhỏ có giá trị?”. Nếu cần diễn dịch lại thì là: hầu hết các dữ liệu mà cá nhân đã tạo ra đều không có giá trị. Hơn nữa, tất cả những dữ liệu ấy làm suy giảm tính nhạy cảm của chúng ta và làm xao lãng sự chú ý về cảm xúc của chúng ta. Công nghệ được triển khai như thế có thể làm biến chất khả năng cảm nhận, suy nghĩ và hành động của chúng ta; sự giảm tốc đơn giản của thông tin sẽ tự động làm giảm sự chú ý sẵn có đối với một dữ liệu thông tin. Và điều này xảy ra trong những quy mô cực kỳ mới với kỹ thuật số, “Ảo giác làm cho chúng ta tin rằng một khối lượng thông tin vô hạn có thể có lợi cho một khả năng lắng nghe vô hạn”.

Bị kẹt trong vòng xoáy này, chúng ta không còn có khả năng lắng nghe và chú ý đến các tín hiệu quan trọng và có sẵn cho những nỗ lực dài hạn đòi hỏi phải tổng hợp và giữ độ lùi.

Quá nhiều dữ liệu chỉ làm rối trí mà thôi?

Hiểu biết là điều cần thiết để đưa ra những lựa chọn “thông minh”. Nhưng vượt quá một lượng dữ liệu nhất định nào đó, thay vì để giúp chúng ta suy nghĩ và có công cụ để hành động hiệu quả, thì có nhiều khả năng dữ liệu làm cho chúng ta bất động hoặc đánh lạc hướng chúng ta về những vấn đề quan trọng nhất. Một lần nữa chúng ta viện dẫn Ivan Illich và thuyết phản tác dụng của ông.

Ở cấp độ cá nhân, ví dụ. Trong khi chú tâm vào thiết bị đếm, chiếc đồng hồ hay bất cứ thiết bị kết nối nào của chúng ta, để tiết kiệm 1 KWh điện tiêu dùng, thì chúng ta cũng có thể bỏ lỡ những thay đổi mang tính cấu trúc. Chúng ta sẽ khởi động máy giặt một giờ trước, sẽ lập trình máy sưởi một giờ sau đó nhờ vào các đường cong trọng tải tối ưu hóa. Nhưng nếu thay vào đó là một sự cách nhiệt, hay thậm chí là một sự giảm nhiệt theo quy định; nói tóm lại, một cách tiếp cận đầy đủ các nhu cầu năng lượng của môi trường sống và thậm chí của lối sống, thì những điều trên sẽ có ý nghĩa gì?

Ở cấp độ tập thể, về vấn đề khí hậu và năng lượng, chúng ta chưa bao giờ định lượng tốt đến thế vai trò của con người trong sự biến đổi khí hậu. Tuy nhiên, chưa bao giờ con người phát tán nhiều khí thải nhà kính đến thế và các kỷ lục về nhiệt độ và những sự rối loạn khí hậu lại không ngừng bị phá vỡ… Như vậy, dữ liệu chỉ hữu ích trong việc theo sau và theo dõi thảm họa?

Vì vậy theo thực nghiệm, chúng ta không thể khẳng định rằng cần phải định lượng nhiều hơn, để hiểu biết nhiều hơn… và để hành động tốt hơn. Những người bảo vệ tích cực nhất việc số hóa thế giới sẽ nói với chúng ta rằng chỉ cần “nhiều hơn một chút”. Luôn luôn “nhiều hơn một chút”. Nhưng sự cường điệu đơn thuần về số lượng ấy cũng không mang tính thuyết phục. Động lực của sự thay đổi hành vi dường như không nằm trong phạm trù “luôn luôn nhiều hơn”, mà chắc chắn nằm trong một sự hiểu biết tốt hơn về các mối tương quan diễn ra trong nhiều lĩnh vực khác nhau.

Người dịch: Huỳnh Thiện Quốc Việt

Nguồn: Le Big Data à là resource de la transition énergétique? – Alternatives Economiques, 8 September 2015.

Phát triển mạng xã hội của Việt Nam liệu có đang đi sai hướng?


Theo đài BBC, hàng trăm mạng xã hội đã ra đời tại Việt Nam tính từ năm 2014, nhưng số trụ lại chỉ đếm trên đầu ngón tay. Xu thế “nhà nhà làm mạng xã hội” như vậy liệu có đạt được mục đích kinh tế cũng như mục tiêu “chủ quyền chính trị” ẩn đằng sau?

Số liệu được tổng hợp về Giấy phép thiết lập mạng xã hội trên mạng trên trang web của Cục Phát thành – Truyền hình và Thông tin điện tử (Bộ Thông tin và Truyền thông của Việt Nam) cho thấy, từ tháng 10/2014 đến tháng 7/2018, đã có 455 giấy phép thiết lập mạng xã hội trên mạng được cấp.

Hôm 21/9, lễ ký kết đầu tư và ra mắt dự án mạng xã hội Astra được tổ chức tại Trung tâm Hội nghị quốc gia Mỹ Đình (Hà Nội) với hơn 1500 khách mời là các nhà đầu tư và các đối tác mạng. Dự kiến, bản beta mạng này sẽ ra mắt vào cuối tháng 11/2019. Mạng Astra sẽ tập trung vào lĩnh vực du lịch.

Theo truyền thông trong nước, trước đó trong chương trình Shark Tank Việt Nam – Thương vụ bạc tỷ mùa 3 phát sóng tối 18/9, CEO của Astra, ông Nguyễn Tiệp đã gửi đến nhà đầu tư lời mời 1 triệu USD cho 10% cổ phần, với tham vọng chiếm 5% thị phần du lịch online toàn cầu, trở thành một trong những công ty công nghệ du lịch hàng đầu thế giới và khu vực trong vòng 5 năm tới.

Theo facebook Astra Network, mạng này được Shark Phạm Thành Hưng rót vốn 1 triệu USD, và sẽ có mô hình trả thưởng cho những người dùng đóng góp nội dung chất lượng bằng việc ứng dụng công nghệ blockchain.

Trước đó một tuần, Lotus – mạng xã hội do Công ty Cổ phần VCCorp nghiên cứu, phát triển – cũng đã ra mắt với tham vọng thu hút được khoảng 50 triệu người dùng thường xuyên.

Việc ra đời của mạng Lotus thu hút nhiều sự chú ý nó ra đời ngay sau khi Bộ trưởng Bộ Thông tin và Truyền thông Nguyễn Mạnh Hùng nhiều lần kêu gọi Việt Nam xây dựng mạng xã hội “nhà trồng được” để cạnh tranh, không cho các mạng xã hội nước ngoài thu thập toàn bộ thông tin về người Việt.

Ra đời hoành tráng, trải nghiệm buồn tẻ

Nhận xét về mạng xã hội Lotus, TS Nguyễn Đức An – Phó Giáo sư ngành Báo chí tại Đại học Bournemouth (Anh), nói rằng cần thêm thời gian để có thể nhận định kỹ lưỡng hơn về khả năng thành công của Lotus: “Trên thực tế, họ ra mắt rầm rộ nhưng có lẽ là hơi vội vì hiện vẫn chưa có giao diện trên web, chỉ là một ứng dụng trên thiết bị di động”.

Tuy nhiên, ông An nhận xét sơ khởi rằng, hai trụ cột mà Lotus muốn xây dựng để thu hút người dùng là nội dung và sự trải nghiệm của người dùng đã cho thấy thất bại ngay từ vài quan sát trực quan ban đầu. Ông nói: “Ai vào trang chủ sẽ thấy màu sắc và đồ họa hơi lòe loẹt, buồn tẻ và quan trọng nhất là thiếu tính trực quan. Ai tiến bước nữa để vào ứng dụng thì thấy cấu trúc giao diện không có sắc thái gì riêng, trông cũng hao hao giống Facebook hay Twitter. Còn nội dung thì có vẻ rất nhiều thứ vô thưởng vô phạt, với lượng tin bài gái xinh – trai đẹp và những chuyện cướp – giết – hiếp chiếm tỷ trọng lớn. Dòng trạng thái đầu tiên tôi nhận trên Lotus là hình ảnh từ một tài khoản gọi là Hội gái xinh Việt Nam”.

Ông Kevin Doan, Giám đ6óc điều hành và cũng là người sáng lập (CEO & founder) của Reputable Asia – một công ty chuyên ứng dụng kỹ thuật vào tiếp thị số tại Việt Nam – nhận xét buổi ra mắt Lotus tuy rất hoành tráng, nhưng đó là cái hoành tráng của một công ty chuyên kinh doanh một ngành nghề nào đó rất cao cấp, chứ không cho thấy đây là một sản phẩm về công nghệ. Ông Kevin nói: “Cảm giác những người đang làm Lotus đang cố tạo ra những cái buzz chứ không phải là những quá thành thạo về việc phát triển mạng xã hội. Ngay cả về tính năng cũng thiếu sót như Lotus định hướng desktop, trong khi truy cập mạng xã hội bằng mobile hiện chiếm số lượng áp đảo”.

Cùng ngày, ông Lê Ngọc Sơn (Chuyên gia truyền thông, Đại học Công nghệ Ilmenau, CHLB Đức), cho biết dù ông rất ủng hộ việc xây dựng và phát triển một mạng xã hội của Việt Nam, nhưng cảm nhận ban đầu về Lotus là có quá nhiều lỗi về kỹ thuật. Bên cạnh đó, có một số nghịch lý đáng chú ý: “Chẳng hạn, tuyên ngôn của Lotus là mạng xã hội thuần Việt, nhưng lại có tên tiếng Anh – Lotus, thuần Việt phải là “Sen” chứ? Thứ hai, họ nói là mạng xã hội dựa trên nội dung, nhưng nội dung kiểu gì mà khi vào thì toàn nội dung rẻ tiền, không hấp dẫn. Mạng xã hội này đang có cách tiếp cận chưa ổn về thực tiễn. Họ nhắm đến những người có ảnh hưởng trên mạng (Key opinion leaders – KOLs), họ mời đến buổi ra mắt cũng như đề cập nhiều đến chuyện này trong các quảng cáo của họ. Nhưng vấn đề là họ muốn nhắm đến KOLs hay nhắm đến người dùng? Trong khi mạng xã hội tồn tại được là nhờ người dùng và chính người dùng tạo ra các KOLs chứ không phải ngược lại. Tôi cho rằng, cách tiếp cận như vậy là “khôn” nhưng chưa “ngoan””.

Mạng xã hội hay chỉ là mạng nội dung?

Lotus ra đời với triết lý “Content is King” (Nội dung là vua).

Tuy nhiên, với nhãn quan của một người nghiên cứu về báo chí, TS Nguyễn Đức An cho rằng, đây là một xuất phát điểm không ăn nhập, nếu không nói là trái ngược với yếu tố “xã hội” trong “mạng xã hội”. Ông nói: “Lotus bắt đầu từ nội dung để lôi kéo sự tương tác. Trong khi mô hình mạng xã hội lâu nay thì ngược lại. Họ không bắt đầu từ nhu cầu thông tin hay nội dung mà từ một nhu cầu rất con người, nhu cầu được thấy mình đang sống giữa cộng đồng (a sense of belonging). Trên cơ sở đó, họ xây dựng một nền tảng (platform) giúp người dùng được tự do tương tác, biểu đạt với thế giới bên ngoài, để họ thỏa mãn nhu cầu sống giữa cộng đồng đó. Nội dung đến từ các tác xã hội, chứ không phải ngược lại.

Đó là lý do vì sao Facebook trở thành hãng truyền thông lớn nhất thế giới mà không hề sản xuất một tí nội dung nào. Với mạng xã hội, nền tảng là vua, chứ không phải nội dung là vua”.

TS An nói thêm: “Ở thời điểm này, tôi chỉ có thể nói, về bản chất, Lotus giống như một trang web tích tụ thông tin từ các nguồn họ tự tổ chức sản xuất hoặc thu thập từ nguồn khác, có bổ sung thêm tính năng khuyến khích người dùng đánh giá, chia sẻ nội dung thông qua hệ thống thu lượm và đổi điểm thưởng (token). Nói cách khác là một tờ báo với giao diện có vẻ như của mạng xã hội. Yếu tố kết nối và tương tác xã hội giữa người với người gần như mờ nhạt, thứ yếu. Triết lý rõ ràng là không thích hợp với môi trường số. Và nền gọi đó là mạng nội dung thì đúng hơn. Đó là tôi chưa nói đến chuyện, nội dung được chia sẻ trên đó như thế nào”.

Còn ông Kevin Doan nhận xét: “Không chỉ Lotus mà các mạng xã hội “Made in Vietnam” thời gian qua đang cố tìm ra một con đường ngắn nhất để tạo ra một phần mềm và từ đó đẩy lên mạng, chứ chưa thấy bóng dáng của khả năng và kinh nghiệm trong việc xây dựng một cộng đồng số cũng như nghiên cứu các hành vi của con người để tìm ra con đường đi chiến lược của mình”.

Cũng theo ông Kevin Doan, do chưa đầu tư về tính năng để đáp ứng nhu cầu cơ bản về mặt xã hội nên hầu hết đều tuyên bố họ dựa vào nội dung. Tuy nhiên, định hướng các mạng này về nội dung lại khá thiên lệch. Điểm đóng góp quan trọng của mạng xã hội thời gian qua là đưa ra được những tiếng nói trái chiều, để từ đó, có những vụ việc mà trước đây cố gắng đến mấy cũng khó tạo nên sự thay đổi, thì nay, tiếng nói trên mạng xã hội tạo ra sức ép rất lớn với chính quyền và buộc chính quyền vào cuộc xử lý. Ông Kevin Doan nói: “Cho nên, một mạng xã hội nếu cố gắng tô vẽ mọi thứ cho đẹp và không sát với thực tế, thì sẽ không được người Việt Nam tin dùng. Khả năng phân biệt đúng sai của người Việt Nam hiện nay rất cao, nên nếu làm nội dung mà không đúng thực tế, người dùng sẽ nhận ra và tẩy chay”.

“Nhà nhà làm mạng xã hội”: Liệu có thành công?

Trở lại với xu hướng “nhà nhà làm mạng xã hội” bùng nổ trong gần một năm nay, TS Nguyễn Đức An cho rằng cần phải xem lại trào lưu có vẻ thời thượng này. Ông cho rằng, thay vì tìm cách thay thế người khổng lồ, có lẽ cách tốt hơn là tìm cách mượn đôi vai của người khổng lồ.

Nghĩa là, theo ông An, nếu Bộ Thông tin – Truyền thông nhắm mục tiêu đẩy lùi những cái mà họ gọi là tin giả, tin độc, thì họ nên tập trung xây dựng một hệ thống báo chí chính thống mạnh mẽ, đáng tin cậy và hợp nhịp sống số, rồi tận dụng các nền tảng xã hội đang thịnh như Facebook để phát tán, lưu truyền những cái mà họ cho là lành mạnh. Ông nói: “Đừng nghĩ rằng Việt Nam có thể thành công như Trung Quốc đã làm dễ dàng với Weibo hay WeChat. Kích cỡ thị trường Việt Nam rất nhỏ so với hơn 1,4 tỷ dân Trung Quốc. Hơn nữa, các mạng xã hội Trung Quốc được hỗ trợ bởi chính sách chặn các mạng xã hội toàn cầu như Facebook và Twitter, từ cái thời mà các mạng này vẫn còn chưa lớn mạnh như bây giờ”.

Ông Kevin Doan nhận xét, từ trước đến nay, Chính phủ Việt Nam luôn coi trọng việc kiểm soát thông tin trên mạng xã hội và đã có một số ký kết với một số công ty truyền thông lớn như Facebook, Google để kiểm soát thông tin trên mạng xã hội, tuy nhiên vẫn chưa được như ý.

Bởi vậy, chính phủ Việt Nam muốn có những kênh có thể hợp tác tốt hơn với chính phủ. Bên cạnh đó, việc quản lý thuế với các hoạt động quảng cáo của các mạng xã hội vẫn là một thách thức. “Chủ trương này hợp lý khi đặt trong cái nhìn về lợi ích quốc gia; nhưng bên trong đó vẫn là những ý đồ kiểm soát thông tin nhằm bảo vệ chủ quyền chính trị” – ông Kevin Doan nhận định.

Nhận định trên cũng được ông Lê Ngọc Sơn chia sẻ khi cho rằng, “bản chất của sự ra đời Lotus không hẳn nằm ở động cơ săn tìm lợi ích inh tế truyền thống, thực chất nó là một chuyển động của nỗ lực tìm kiếm công cụ quản trị đám đông”.

Đi vào thị trường ngách: Hướng mới hay đường cũ?

Khác với Lotus, mạng xã hội Astra nhắm vào một thị trường ngách là du lịch. Dẫu nhấn mạnh rằng, cần khuyến khích những người tạo ra những giá trị mới, ông Kevin Doan vẫn không mấy lạc quan như vậy về tương lai của các mạng xã hội ngách như vậy.

Ông viện dẫn một thực tế là trên thế giới, mạng xã hội ngách rất nhiều. Khái niệm mạng xã hội ngách đã có từ 10 năm nay. Tuy nhiên, sau đó các mạng xã hội ngách đều chết yểu. Chỉ có những mạng xã hội có sức lan tỏa trên toàn thế giới thì mới sống sót. Ông nói: “Tôi không nghĩ, cơ hội cho mạng xã hội ngách đã hết, nhưng nếu chỉ đi theo khuynh hướng mạng xã hội thì sẽ rất khó. Astra là một start-up thiên về kinh doanh nên điểm mạnh của họ là có cơ chế kinh doanh rất rõ ràng, khác với các mạng trước đó dựa vào ưu thế và chiến lược kinh doanh của một công ty sẵn có. Tuy nhiên, họ có thể rất thành công trong kinh doanh nhưng thành công như một mạng xã hội không, đó lại là chuyện khác”.

Mạng xã hội nước ngoài có bị kiểm soát chặt hơn?

Vậy liệu sự nở rộ các mạng xã hội nhà trồng như vậy có dẫn đến việc chính quyền Việt Nam sẽ dần thắt chặt kiểm soát với các mạng xã hội nước ngoài hay không? Về chuyện này, ông Kevin Doan cho rằng, nếu một cơ chế hợp lý và khôn ngoan thì việc kiểm soát các mạng xã hội nước ngoài sẽ tỉ lệ thuận theo sự phát triển và được đón nhận của các mạng xã hội Việt Nam.

Ông Lê Ngọc Sơn nhấn mạnh: “Văn hóa chính trị và tầm vóc kinh tế của Việt Nam và Trung Quốc là khác nhau nên khả năng cấm hoàn toàn mạng xã hội nước ngoài là không thể. Mặt khác, với sinh quyển truyền thông của Việt Nam hiện tại, việc cấm sẽ không dễ, thậm chí cấm sẽ dẫn đến tác dụng ngược Hơn thế nữa, với sự hội nhập sâu của Việt Nam như hiện nay, tôi không tin Việt Nam sẽ làm như thế.

Tuy nhiên, càng ngày Việt Nam sẽ càng hoàn thiện hệ thống thể chế pháp luật để đưa hoạt động của mạng xã hội vào quy củ, nhất là với các hành động xâm hại lợi ích người khác, bất hợp pháp. Tôi ủng hộ điều này Tuy nhiên tất cả các hành động tạo hành lang pháp lý như vậy đều phải dựa trên hành lang pháp lý đúng đắn, hướng đến việc tạo điều kiện cho người dân có không gian phát ngôn và hoạt động đúng pháp luật”.

Nguồn: TKNB – 25/09/2019

Những nguy cơ bị che giấu của dữ liệu lớn


Carlo Ratti & Dirk Helbing

Trong lý thuyết trò chơi, cái “giá của sự vô chính phủ” chỉ cách mà những cá thể hành động vì lợi ích của bản thân trong một hệ thống lớn hơn có xu hướng làm giảm hiệu quả của hệ thống này. Đây là một hiện tượng phổ biến, lặp đi lặp lại mà hầu hết chúng ta đều thường xuyên phải đối mặt.

Ví dụ, nếu bạn là một nhà quy hoạch chịu trách nhiệm quản lý giao thông, bạn có hai cách để xử lý lưu lượng giao thông trong thành phố bạn. Thông thường một cách tiếp cận tập trung, từ trên xuống – nắm bắt toàn bộ hệ thống, nhận diện những điểm tắc nghẽn, và tiến hành những thay đổi để loại bỏ các điểm này – đơn giản sẽ hiệu quả hơn là để mỗi người lái xe tự chọn lộ trình với giả định rằng các lựa chọn này, nhìn tổng thể, sẽ đưa đến một kết quả chấp nhận được. Cách tiếp cận thứ nhất giảm thiểu chi phí của sự vô chính phủ và sử dụng tốt hơn tất cả thông tin sẵn có.

Thế giới ngày nay bị tràn ngập dưới khối dữ liệu. Năm 2015, nhân loại tạo ra lượng thông tin nhiều bằng lượng đã được tạo ra trong tất cả những năm trước đó của nền văn minh. Cứ mỗi lần ta nhắn tin, gọi điện hay hoàn tất một giao dịch, ta để lại những dấu vết số. Chúng ta đang tiến nhanh đến điều được nhà văn Italo Calvino, người Italia, bằng linh tính của mình gọi là “ký ức của thế giới”: một bản sao tin học đầy đủ về thế giới vật lý của chúng ta.

Khi Internet mở rộng sang cách lãnh địa khác, nhờ mạng lưới kết nối thiết bị Internet (IoT) của không gian vật lý, cái giá của sự vô chính phủ sẽ trở thành một thước đo thiết yếu trong xã hội chúng ta, và sự cám dỗ để triệt tiêu cái giá này bằng cách vận dụng sức mạnh của phân tích dữ liệu lớn càng lớn mạnh.

Có vô số ví dụ. Xét một hành động bình thường là mua sách trực tuyến thông qua Amazon. Amazon có cả núi thông tin về tất cả các khách hàng sử dụng nó – từ nhân thân của họ, lịch sử các cuộc tìm kiếm thông tin của họ đến các câu được họ tô đậm trên ebook – được công ty dùng để tiên đoán cuốn sách nào khách hàng có thể muốn mua trong lần sau. Cũng giống như mọi hình thức tập trung của trí tuệ nhân tạo, các biến cố đã qua được sử dụng để tiên đoán các biến cố trong tương lai. Amazon biết được mười cuốn sách bạn đã mua và có thể, với một độ xác đáng ngày càng cao, gợi ý cho bạn cuốn sách mà bạn có thể muốn đọc.

Nhưng chúng ta cũng cần phải xem đã mất điều gì khi làm giảm mức độ vô chính phủ. Cuốn sách ý nghĩa nhất bạn phải đọc sau khi đã đọc mười cuốn trước không phải là cuốn khớp hoàn toàn với một mô hình đã được xác định mà đúng hơn phải là cuốn làm bạn kinh ngạc, gây tò mò và suy nghĩ, thách thức bạn nhìn thế giới một cách khác. Dữ liệu lớn nhân các tùy chọn của bạn đồng thời lọc bỏ những đồ vật bạn không muốn tham khảo, nhưng như thế còn đâu là sự phát hiện ngẫu nhiên và phong phú mà kết quả có thể là việc lựa chọn quyển thứ mười một [như được ca ngợi trong cuộc phiêu lưu nổi tiếng của The Three Princes of Serendip].

Ngược lại với các vấn đề giao thông được nhắc đến trên đây, các gợi ý được tối ưu hóa – thường là một tiên đoán tự thực hiện liên quan đến việc mua sắm sắp tới của bạn – không nhất thiết cung cấp mô hình tốt nhất để sở hữu hay tham khảo trực tuyến một cuốn sách.

Điều đúng với việc mua sách trực tuyến cũng đúng với cả ngàn thao tác tin học khác trong các thành phố và xã hội chúng ta. Ngày nay các hệ thống đô thị tập trung sử dụng những thuật toán để theo dõi và kiểm tra các kết cấu hạ tầng đô thị, dù cho đó là đèn đường, lưu lượng xe trên cao tốc hay năng lượng muốn tiết kiệm. Nhiều thị trường trên thế giới vô cùng quan tâm đến ý tưởng một phòng điều khiển trung tâm, như trung tâm ở Rio de Janeiro do IBM thiết kế, nhờ đó các nhà quản lý thành phố có thể hồi đáp theo thời gian thực trước mọi thông tin mới.

Nhưng một khi các thuật toán tập trung có thể xử lý tất cả các mặt của đời sống trong xã hội thì giới kỹ trị có nguồn gốc từ dữ liệu lớn sẽ đe dọa áp đảo sự đổi mới và nhấn chìm nền dân chủ. Bằng mọi giá phải tránh viễn cảnh này. Điều mấu chốt cho sự phong phú của xã hội là các quyết định phải tiếp tục được lấy một cách phi tập trung. Ngược lại, sự tối ưu hóa mà việc thu thập dữ liệu cho phép tiến hành sản sinh ra những giải pháp mà tất cả đều xuất phát từ một mô hình xác định trước. Mô hình này dưới dạng thông thường loại bỏ những ý tưởng phản trực giác có tiềm năng biến đổi mạnh kéo nhân loại lên phía trước.

Một mức độ ngẫu nhiên nhất định trong cuộc đời chúng ta cho phép những ý tưởng và phương thức tư duy mới nổi lên. Đây còn là điều cần thiết ở cấp độ vĩ mô cũng như cần thiết cho cuộc sống. Nếu tự nhiên đã nhờ đến những thuật toán dự báo để ngăn cản những đột biến ngẫu nhiên quá trình tự nhân đôi DNA thì hành tinh chúng ta có lẽ còn ở giai đoạn của một đơn bào cực kỳ tối ưu hóa.

Việc ra quyết định phi tập trung có thể tạo nên sự hợp lực giữa trí tuệ con người và trí tuệ của máy thông qua những quá trình đồng tiến hóa tự nhiên và nhân tạo. Có thể là trong rất ngắn hạn trí tuệ phân phối làm giảm hiệu quả, nhưng cuối cùng sẽ dẫn đến những xã hội đa dạng hơn và bền vững hơn. Cái giá của sự vô chính phủ đáng để trả nếu ch1ung ta muốn gìn giữ sự đổi mới bằng sự bất ngờ.

Người dịch: Nguyễn Đôn Phước

Nguồn: The Hidden Danger of Big Data – Project Syndicate, Aug 16/2016.

Làm thế nào để trở thành một nhà khoa học dữ liệu – Phần cuối


Điều này có nghĩa gì đối với những người cố gắng để tham gia lĩnh vực

Bởi vậy, nếu tôi là một người trẻ tìm cách gia nhập vào khoa học dữ liệu thì những mô tả này sẽ hữu ích đối với tôi như thế nào? Điều này có thể rằng, bạn có thể đào tạo và phát triển một thế mạnh, cái mà sẽ dẫn bạn đến với vai trò của nhà nghiên cứu, nhà phát triển, hoặc nhà sáng tạo. Thường thì hiếm khi chỉ riêng giáo dục sẽ đưa bạn trở thành nhà kinh doanh dữ liệu, điều này hàm ý phải có kinh nghiệm trong kinh doanh, chứ không phải chỉ giáo dục. Nhưng đây là điều thú vị. Theo Harris, Murphy và Vaisman, nó không phải là những kỹ năng khác nhau, mà là cách chúng ta lựa chọn để nhấn mạnh chúng trong cách tiếp cận của chúng ta về các vấn đề khoa học dữ liệu. Biểu đồ của họ như bên dưới.Các kỹ năng đều giống nhau nhưng sự nhấn mạnh chúng ta đặt trên chúng khác nhau. Có lẽ cách tốt hơn để diễn tả điều này là bạn thích trải qua một ngày của mình như thế nào? Lập trình (programming), làm việc trong học máy (machine learning) (thống kê), phân tích và giải quyết các câu hỏi kinh doanh? Câu trả lời của bạn khi mới bước vào khóa học có thể khác với câu trả lời khi bạn đã tham gia khóa học được vài năm, và điều đó là bình thường. Tuy nhiên, bạn biết rằng nếu bây giờ bạn nhận mình là một nhà nghiên cứu dữ liệu thì bạn cần phải tập trung vào các kỹ năng thống kê. Nếu bạn xác định như là một nhà sáng tạo dữ liệu hoặc nhà phát triển dữ liệu thì lập trình và ML/Big Data là một sự nhấn mạnh thích hợp. Và khi bạn có được kinh nghiệm và hiểu rằng mình hạnh phúc hơn khi là một thành viên trong nhóm hay một nhà lãnh đạo doanh nghiệp, bạn có thể thay đổi quan điểm của bạn đối với khả năng sinh lời của dự án và giải pháp cho các vấn đề kinh doanh.

Ở đâu, dữ liệu lớn phù hợp trong tất cả điều này?

Cá nhân tôi yêu Dữ liệu lớn. Nhưng tôi thực sự yêu thích nó vì nó đưa đến những phân tích dự báo. Nếu bạn vẽ một giản đồ Venn của dữ liệu lớn và những phân tích dự báo thì sẽ có một sự trùng lặp lớn nhưng không hoàn toàn. Có những lĩnh vực của dữ liệu lớn thuần túy có tính thao tác và không thuộc phạm vi khoa học dữ liệu. Lấy ví dụ như việc sử dụng các cơ sở dữ liệu NoSQL như các cơ sở dữ liệu hoạt động cấp nguồn cho những trò chơi trực tuyến dành cho rất nhiều người chơi. Không có phân tích gì ở đây. Chỉ vậy là xong. Tương tự như vậy có rất nhiều phạm vi trong phân tích dự báo không dính dáng gì đến dữ liệu.

Tuy nhiên, không có lý do gì mà chúng ta không nên tìm hiểu về dữ liệu lớn trên con đường trở thành nhà khoa học dữ liệu của chúng ta. Chỉ không mong đợi để thấy nó quá nhiều trong đời sống công việc của bạn, trừ khi bạn đang tham gia sâu vào việc sử dụng những trang web lớn giống như Amazon hay Facebook.

Một lần nữa, nhờ Harris, Murphy, và Vaisman chúng ta có thể thấy được các nhà khoa học dữ liệu ngày nay làm việc ở cấp đệ Petabyte (PB) và Terabyte (TB) thường xuyên như thế nào.

Câu trả lời không hề rất thường xuyên tí nào. Cơ sở dữ liệu NoSQL như Mongo đang đạt được sức hút như cách để pha trộn dữ liệu giao dịch và dữ liệu không có cấu trúc và có thể là tương lai. Nhưng thẳng thắn mà nói, về mặt dung lượng, các nhà khoa học dữ liệu thường được làm việc ở quy mô dữ liệu bình thường, chứ không phải dữ liệu lớn.Những công cụ và ngôn ngữ quan trọng

Tài liệu thứ hai mà tôi bất ngờ đọc là blog của Robert A. Muenchen, “The Popularity of Data Analysis Software” (Sự phổ biến của Phần mềm phân tích dữ liệu). Bài này có thể tìm thấy tại r4stats.com và là một bài nữa phải đọc. Cái khác biệt giữa bài viết này so với các bài báo so sánh khác là những phân tích rộng và sâu. Muenchen sử dụng 13 loại phân tích riêng biệt để đánh giá thị phần và mức độ phổ biến và mức tín nhiệm của mình, không cố gắng để làm tương thích các kết quả mà có thể là khá khác nhau tùy theo nguồn. Như ông nói, đây là dnah sách các thước đo “gần đúng theo thứ tự hữu ích”.

1/ Những mẫu tuyển dụng (Job Advertisements)

2/ Những bài báo học thuật (Scholarly Articles)

3/ Những cuốn sách (Books)

4/ Sự phổ biến website (Website Popularity

5/ Các blog (Blogs)

6/ Các cuộc điều tra sử dụng (Surveys of Use)

7/ Hoạt động diễn đàn thảo luận (Discussion Forum Acitivity)

8/ Hoạt động lập trình (Programming Activity)

9/ Các thước đo phổ biến (Popularity Measures)

10/ Các báo cáo doanh nghiệp nghiên cứu công nghệ thông tin (IT Research Firm Reports)

11/ Doanh thu và thước đo tải về (Sales or Download Measures)

12/ Sử dụng cạnh tranh (Competition Use)

13/ Tăng trưởng quy mô (Growth in Capability).

Nếu bạn đã là một học viên trong một thời gian thì hộp công cụ của bạn có lẽ đã được xác định khá tốt. Trường hợp này là thực sự hữu ích trong việc trả lời các câu hỏi của những người mới gia nhập vào lĩnh vực khoa học dữ liệu rằng “những gì tôi nên học cho hữu ích?”Điều này sẽ không can ngăn bạn sử dụng SPSS, SAS, R, hay Python nhưng nó sẽ cho bạn thấy một số xu hướng thú vị. Một lần nữa, bạn sẽ phải đọc blog vì nó quá phong phú về nội dung và nó để cho người đọc đánh giá những kết quả mà đôi khi có vẻ mâu thuẫn. Tuy nhiên, nếu tôi đã cố gắng để trả lời câu hỏi “cái gì tôi nên học” tôi sẽ xem xét ít nhất hai đồ thị những từ blog của Muenchen.

Kể từ khi nhận một công việc, trước khi bạn quan tâm đến việc đầu tư cho giáo dục thì bạn nên nhìn vào toàn bộ danh sách công việc đòi hỏi những kỹ năng phần mềm phân tích cụ thể như là một thứ để mở rộng tầm mắt.

Tương tự như vậy, biểu đồ này dựa trên cuộc điều tra sử dụng dữ liệu đưa ra một cái nhìn rất sâu về những gì các nhà khoa học dữ liệu đang sử dụng ngày nay.Tôi sẽ không cố gắng để trả lời câu hỏi, “tôi nên học cái gì” hay khác hơn là nói rõ Java, R hay Python, SAS hay SPSS? Thành thật mà nói, nhiều khả năng là những gì giáo sư của bạn muốn bạn sử dụng thường là để chứng tỏ một nhà khoa bảng xử lý một phần mềm sẵn có của người bán nó như thế nào.

R hay Python? Tôi không đụng chạm đến vấn đề này ngoại trừ một điều để nói rằng có một biểu đồ thú vị ngụ ý rằng Python đang tăng tốc trước R.

Nếu bạn đang tìm kiếm câu trả lời cho câu hỏi làm thế nào để trở thành một nhà khoa học dữ liệu và những gì bạn nên học, suy nghĩ về điều này như thách thức đầu tiên của bạn. Nghiên cứu tài liệu gốc và rút ra kết luận của riêng bạn. Tôi thấy hạnh phúc khi những tác giả này đã cùng đưa các tài liệu này và hi vọng chúng tiếp tục được cập nhật trong tương lai.

Người dịch: Nguyễn Minh Cao Hoàng

Nguồn: “How to Become A Data Scientist”, Data-Magnum, August 26, 2014.

Làm thế nào để trở thành một nhà khoa học dữ liệu – Phần đầu


Bill Vorhies

Tôi bắt đầu bước chân vào lĩnh vực khoa học dữ liệu đã lâu. Tôi đã trở thành người mô hình hóa các dự báo thương mại từ năm 2001, và do xu hướng đặt tên đã thay đổi nên giờ đây tôi xác định bản thân mình như một nhà khoa học dữ liệu. Không ai trao cho tôi danh hiệu này. Nhưng thông qua việc xem xét các tài liệu, các danh sách công việc và các đồng nghiệp của tôi trong lĩnh vực này đã cho thấy rằng tên gọi nhà khoa học dữ liệu truyền đạt rõ ràng nhất những kiến thức và kinh nghiệm gì của tôi đã khiến tôi trở thành nhà khoa học dữ liệu.

Ngày nay, bạn có thể nhận được một bằng cấp về khoa học dữ liệu, do đó bạn đưa bằng cấp của mình ra để xác nhận lĩnh vực chuyên môn của bạn. Nhưng những điều này cũng tương đối mới, với tất cả sự tôn trọng, nếu bạn chỉ mới nhận bằng cấp của mình gần đây thì bạn vẫn là một người mới bắt đầu. Những người trong chúng ta sử dụng danh hiệu này ngày nay rất có thể bắt nguồn từ sự kết hợp giữa những nền tảng kinh doanh, khoa học chính xác, khoa học máy tính, vận trù học (operations research), với thống kê (statistics).

Bạn tự nhận mình là ai là một chuyện, còn người thuê bạn hay người mà khách hàng của bạn đagn tìm kiếm rất có thể là một chuyện khác. Nhiều tài liệu viết về những nhà khoa học dữ liệu, người mà việc tìm thấy cũng khó như tìm thấy các con kỳ lân. Không thật sự là một con kỳ lân, tôi muốn nói điều này thiết lập một chuẩn mực khá cao. Bên cạnh đó, tôi đã nghiên cứu kỹ các danh sách quá mơ hồ, và với sự hiểu biết hạn hẹp, một mẩu tuyển dụng nhà khoa học dữ liệu lại mô tả công việc như của một nhà phân tích ở mức nhập dữ liệu, ngược lại vài mẩu tuyển dụng các nhà phân tích thì có vẻ như đang tìm kiếm các nhà khoa học dữ liệu uyên bác.

Tất cả sự lộn xộn này vượt qua danh hiệu mà chúng ta được gọi, và những gì chúng tôi thực sự làm có thể khiến cho bạn rơi vào trạng thái tâm thần phân liệt. Điều này khiến cho việc trả lời những câu hỏi mà tôi thường nhận được từ những bạn sinh viên hay từ những người mới vào nghề rằng làm thế nào để trở thành một nhà khoa học dữ liệu càng thêm phức tạp.

Hãy tưởng tượng sự ngạc nhiên và vui sướng của tôi khi chỉ trong vòng một tuần tôi bất ngờ đọc được hai ấn phẩm. Chúng không chỉ mang đến cho tôi luồng sáng mới và sự hiểu biết về câu hỏi này mà còn giúp tôi hiểu rằng không chỉ có duy nhất một định nghĩa về nhà khoa học dữ liệu, mà có một luận cứ chặt chẽ (dựa trên phân tích thống kê) rằng trong thực tế có đến bốn kiểu.

Bốn kiểu nhà khoa học dữ liệu

Thông tin ở đây xuất phát từ bài “Phân tích các nhà phân tích” (Analyzing the Analyzers) của Harris, Murphy, và Vaisman (2013) đăng trên trang O’Reilly. Tôi nể phục những đồng nghiệp này về khảo sát sâu của họ và về những kết luận được đưa ra bởi phân tích thống kê của những kết quả đó. Đây là một bài phải đọc.

Phân tích tốt này có 40 trang nên dưới đây cũng chỉ là một bản tóm tắt ở mức độ cao nhất. Tóm lại, họ kết luận rằng có bốn kiểu nhà khoa học dữ liệu, các kiểu nhà khoa học dữ liệu này không khác nhiều về chiều rộng kiến thức, vốn tương tự nhau, nhưng chiều sâu của lĩnh vực chuyên môn thì khác nhau, và cách mỗi kiểu thích tương tác với những vấn đề khoa học dữ liệu như thế nào cũng khác nhau.

1/ Các nhà kinh doanh dữ liệu.

2/ Các nhà sáng tạo dữ liệu.

3/ Các nhà phát triển dữ liệu.

4/ Các nhà nghiên cứu dữ liệu.

Từ việc đánh giá 22 kỹ năng riêng biệt và những báo cáo tự đánh giá gồm nhiều phần (multi-part self-identification statements) họ đã kết luận và khái quát hóa theo những mô tả này. Tôi dám chắc rằng bạn sẽ nhận ra chính mình thuộc một trong các kiểu này.

Nhà kinh doanh dữ liệu (data businesspeople) là những người tập trung nhất vào tổ chức và làm thế nào để những dự án dữ liệu mang lại lợi nhuận. Họ thường hay đánh giá mình cao như là nhà lãnh đạo và nhà khởi nghiệp, và có nhiều khả năng báo cáo là từng quản lý một nhân viên. Họ cũng khá thường thực hiện hợp đồng hay công việc tư vấn, và một tỉ lệ đáng kể bắt đầu một công việc kinh doanh. Mặc dù trong số những người được khảo sát, họ hiếm khi có một bằng cấp cao, hầu như họ đều có bằng MBA. Nhưng các nhà kinh doanh dữ liệu chắc chắn có kỹ năng kỹ thuật và đặc biệt thường có bằng kỹ sư trình độ đại học. Và họ làm việc với dữ liệu thực – ít nhất khoảng 90% báo cáo thỉnh thoảng họ mới làm việc với các vấn đề ở quy mô Gigabyte (GB).

Các nhà sáng tạo dữ liệu (data creatives). Các nhà khoa học dữ liệu có thể thường giải quyết toàn bộ quá trình phân tích từ đầu đến cuối theo cách thức riêng của họ: từ trích dữ liệu, đến tổng hợp và phân lớp dữ liệu, đến trình bày các phân tích dưới dạng thống kê hay các dạng tiên tiến khác, đến tạo ra cách diễn giải và sự hình dung thuyết phục, đến xây dựng các công cụ khiến cho sự phân tích có khả năng phát triển và ứng dụng rộng rãi. Tôi nghĩ các nhà sáng tạo dữ liệu (Data Creatives) là khái quát nhất của các nhà khoa học dữ liệu, họ là những người xuất sắc trong việc ứng dụng một loạt các công cụ và kỹ thuật cho một vấn đề, hay tạo ra các nguyên mẫu sáng tạo tại các cuộc thi lập trình (hackathons) – một ví dụ hoàn hảo cho câu cái gì cũng biết (Jack of All Trades). Họ có kinh nghiệm học thuật đáng kể, với khoảng ba phần tư có tham gia giảng dạy và các bài báo được báo cáo. Phổ biến là trình độ đại học trong các lĩnh vực như Kinh tế học và Thống kê. Hiếm khi các nhà sáng tạo dữ liệu (Data Creatives) có bằng Tiến sĩ. Là nhóm thường xác định như một Hacker, họ cũng có kinh nghiệm mã nguồn mở sâu nhất (deepest Open Source experience), với khoảng một nửa đóng góp vào các dự án phần mềm nguồn mở (OSS) và một nửa làm việc trên các dự án dữ liệu mở (Open Data projects).

Nhà phát triển dữ liệu (data developer). Chúng tôi nghĩ rằng các nhà phát triển dữ liệu là những người tập trung vào các vấn đề kỹ thuật của dữ liệu quản lý – làm thế nào để có được nó, lưu nó, và học hỏi từ nó. Các nhà phát triển dữ liệu của chúng ta có xu hướng đánh giá mình khá cao như các nhà khoa học, mặc dù không cao như các nhà nghiên cứu dữ liệu (data researchers). Điều này có ý nghĩa đặc biệt đối với những người tích hợp chặt chẽ với Học Máy (Machine Learning) và cộng đồng học thuật có liên quan. Nhà phát triển dữ liệu rõ ràng viết code trong công việc hằng ngày của họ. Khoảng một nửa trong số họ có bằng khoa học máy tính hay kỹ sư máy tính. Các nhà phát triển dữ liệu có nhiều đất sống hơn trong lĩnh vực Học Máy/nhóm kỹ năng dữ liệu lớn so với các kiểu khác của nhà khoa học dữ liệu.

Các nhà nghiên cứu dữ liệu (data researchers). Một trong những con đường nghề nghiệp thú vị dẫn đến danh hiệu “nhà khoa học dữ liệu” bắt đầu với nghiên cứu học thuật trong các ngành khoa học vật lý hay xã hội, hoặc trong ngành thống kê. Nhiều tổ chức đã nhận ra giá trị cảu việc đào tạo có tính học thuật sâu trong việc sử dụng các dữ liệu để hiểu các quá trình phức tạp, dù là lĩnh vực kinh doanh của họ có thể khác biệt khá nhiều so với các lĩnh vực khoa học cổ điển. Phần lớn những người có nhóm kỹ năng về thống kê tốt nhất trong số những người có nhóm kỹ năng về thống kê tốt nhất trong số những người được khảo sát đều rơi vào hạng mục này. Gần 75% các nhà nghiên cứu dữ liệu đã có công trình công bố trên tạp chí có bình duyệt và hơn một nửa trong số họ có bằng Tiến sĩ.

(còn tiếp) 

Người dịch: Nguyễn Minh Cao Hoàng

Nguồn: “How to Become A Data Scientist”, Data-Magnum, August 26, 2014.

Dữ liệu lớn: Có phải chúng ta đang lầm to? – Phần cuối


Tuy nhiên, dữ liệu mà ứng dụng Street Bump thực sự tạo ra, được lưu lại trên các thiết bị có cài ứng dụng này, là sơ đồ ổ gà tập trung một cách có hệ thống ở những vực trẻ, giàu có, là nơi có nhiều người sở hữu điện thoại thông minh. Ứng dụng Street Bump cho chúng ta bộ dữ liệu lớn “N = Tất cả” theo nghĩa là ghi nhận lại từng cái xóc nảy của từng chiếc điện thoại có cài đặt ứng dụng. Việc này không giống như việc ghi nhận lại từng cái ổ gà. Kate Crawford, nghiên cứu viên của Microsoft, chỉ rõ rằng dữ liệu được tìm thấy ẩn chứa những độ chệch mang tính hệ thống và phải thật cẩn trọng mới có thể phát hiện và khắc phục chúng. Các bộ dữ liệu lớn dường như có tính bao hàm như “N = Tất cả” thường chỉ là sự huyễn hoặc quyến rũ.

Tuy nhiên, ai bận tâm đến quan hệ nhân quả hay độ chệch khi chọn mẫu trong khi người ta có thể kiếm tiền từ dữ liệu lớn? Các tập đoàn trên khắp thế giới ắt hẳn là thèm nhỏ dãi khi họ chiêm ngắm thành công thần kỳ của chuỗi cửa hàng bách hóa Target của Mỹ, Charles Duhigg đã tường thuật thành công của Target bằng một bài viết đình đám trên tờ The New York Times vào năm 2012. Duhigg lý giải rằng Target đã thu thập rất nhiều dữ liệu về khách hàng của họ, và Target rất tài tình khi phân tích bộ dữ liệu đó, và Target cực kỳ thấu hiểu khách hàng.

Giai thoại chết người của Duhigg là về một người đàn ông đã xông vào cửa hàng Target gần Minneapolis và phàn nàn với người quản lý về việc công ty gửi phiếu giảm giá mặt hàng quần áo trẻ sơ sinh và thời trang thai sản cho cô con gái tuổi teen của ông. Người quản lý đã xin lỗi rối rít và sau đó còn gọi điện xin lỗi thêm lần nữa – mục đích chỉ là muốn nghe người cha thú nhận rằng cô gái tuổi teen thực sự đang mang thai. Cha cô gái không biết con mình có thai. Target thì biết sau khi họ phân tích các giao dịch mua khăn giấy ướt không mùi và thuốc bổ sung magiê của cô gái.

Huyền thuật thống kê ư? Có một cách lý giải thực tế hơn.

Theo Kaiser Fung,, người đã bỏ ra nhiều năm nghiên cứu phát triển các phương pháp tương tự cho những nhà bán lẻ và các công ty quảng cáo, thì “Có rất nhiều vấn đề tưởng thật nhưng là sai lầm”. Ý Fung muốn nói là người ta đã không nhắc đến vô số câu chuyện về những phụ nữ nhận phiếu giảm giá mặt hàng quần áo trẻ sơ sinh nhưng lại không đang mang thai.

Căn cứ vào các giai thoại, người ta dễ ngộ nhận rằng các thuật toán của Target không bao giờ sai – bất cứ ai nhận được phiếu giảm giá mặt hàng áo liền quần của trẻ sơ sinh và khăn giấy ướt đều đang mang thai. Rõ ràng không đúng. Thực tế, những phụ nữ đang mang thai nhận được phiếu giảm giá chỉ đơn giản vì Target đã gửi phiếu giảm giá đến toàn bộ khách hàng trong danh sách của họ. Trước tiên, chúng ta không nên đồng tình với suy nghĩ cho rằng Target sử dụng những nhân viên đọc được suy nghĩ của khách hàng rồi mới ngồi đếm xem mỗi lần đúng thì có mấy lần sai.

The cách lý giải của Charles Duhigg, Target xáo trộn các phiếu giảm giá ngẫu nhiên, ví dụ như phiếu giảm giá mặt hàng ly uống rượu, vì các khách hàng đang mang thai sẽ cảm thấy kinh sợ nếu họ nhận ra máy tính công ty hiểu họ tường tận như thế nào.

Fung còn có một cách lý giải khác: Target xáo trộn các phiếu giảm giá không phải vì họ sợ gửi tập phiếu giảm giá toàn mặt hàng trẻ sơ sinh cho một phụ nữ đang mang thai nào đó mà vì công ty biết rằng trong số các tập phiếu giảm giá đó rốt cuộc sẽ có nhiều tập đến tay những người phụ nữ đang không mang thai.

Những cách lý giải trên không có ý phủ nhận giá trị của việc phân tích dữ liệu khách hàng: các phân tích kiểu như vậy có thể sinh ra lợi nhuận rất đáng kể. Thậm chí khi mức độ chính xác của việc gửi phiếu giảm giá đặc biệt có mục tiêu xác định gia tăng lên chút ít cũng là một thành tựu đáng kể để phấn đấu. Tuy nhiên, không nên kết hợp khả năng sinh lời với sự toàn tri.

Năm 2005, John Ioannidis, chuyên gia dịch tễ học, đã công bố một bài nghiên cứu có tiêu đề rõ ràng đến mức không cần giải thích gì thêm, “Why Most Published Research Findings Are False” (Tại sao hầu hết các kết quả nghiên cứu đều sai). Bài nghiên cứu nổi đình nổi đám vì đã lột tả một vấn đề hệ trọng một cách đầy khiêu khích. Một trong các ý tưởng chủ chốt đằng sau công trình của Ioannidis chính là “vấn đề kiểm định nhiều giả thuyết” theo ngôn ngữ của các chuyên gia thống kê.

Khi khảo sát một mô thức trong dữ liệu, người ta thường đặt câu hỏi về khả năng mô thức đó xuất hiện một cách ngẫu nhiên. Nếu mô thức được quan sát ít có khả năng xảy ra một cách ngẫu nhiên, thì mô thức đó “có ý nghĩa thống kê”.

Vấn đề kiểm định nhiều giả thuyết xuất hiện khi một nhà nghiên cứu xem xét nhiều mô thức khả dĩ cùng một lúc. Xét một ví dụ về thực nghiệm ngẫu nhiên, theo đó người ta phát vitamin cho một số học sinh tiểu học, số khác được phát cho giả dược. Liệu rằng vitamin có tác dụng không? Câu trả lời hoàn toàn phụ thuộc vào việc chúng ta hiểu “tác dụng” là như thế nào. Các nhà nghiên cứu có thể nhìn vào chiều cao, cân nặng của trẻ, tỉ lệ sâu răng, hành vi trong lớp học, điểm kiểm tra, thậm chí là lý lịch tư pháp hoặc thu nhập khi 25 tuổi (chờ đến khi trẻ trưởng trẻ giàu, trẻ trai, trẻ gái hay không? Việc kiểm định đầy đủ các tương quan khác nhau và các kết quả may ra mới trúng sẽ nhấn chìm mọi khám phá thực sự.

Có nhiều cách giải quyết nhưng vấn đề lại càng trầm trọng hơn đối với các bộ dữ liệu lớn, vì có nhiều giả thuyết để kiểm định hơn là có nhiều dữ liệu để kiểm định. Nếu không phân tích cẩn thận, tỉ lệ mô thức thực sự so với mô thức giả tạo – một dấu hiệu của nhiễu – sẽ nhanh chóng tiến về 0.

Tệ hại hơn nữa, một trong các liều thuốc giải đối với vấn đề nhiều giả thuyết là sự minh bạch, cho phép những nhà nghiên cứu khác xác định số lượng giả thuyết được kiểm định và số lượng kết quả trái ngược đang mòn mỏi đợi chờ trong các ngăn kéo vì chúng có vẻ không hấp dẫn để công bố rộng rãi. Nhưng, dữ liệu được tìm thấy hiếm khi được bạch hóa. Amazon và Google, Facebook và Twitter, Target và Tesco – những công ty này không sẵn sàng chia sẻ thông tin với bạn hay với bất kỳ ai khác.

Các bộ dữ liệu mới, đồ sộ, rẻ tiền và các công cụ phân tích mạnh mẽ sẽ tạo ra tiền cổ tức – không ai nghi ngờ điều này. Và có một vài trường hợp, việc phân tích dữ liệu lớn đã mang lại kết quả thần kỳ. David Spiegelhalter đến từ Cambridge đề cập đến Google Translate, một công cụ vận hành bằng cách phân tích thống kê hàng trăm triệu tài liệu đã được con người chuyển ngữ và tìm kiếm mô thức mà nó có thể sao chép. Đây là ví dụ về “học máy” (machine learning) theo ngôn ngữ của các nhà khoa học máy tính, và công cụ dịch có thể cho ra các kết quả đáng kinh ngạc mà không cần đến những nguyên tắc ngữ pháp được lập trình sẵn. Công cụ dịch này của Google gần giống chiếc hộp đen chứa các thuật toán vận hành dựa vào dữ liệu và không bị chi phối bởi lý thuyết – và theo Spiegelhalter thì đó là “một thành tựu tuyệt vời”. Thành tựu đó được tạo ra trên nền tảng xử lý khéo léo các bộ dữ liệu khổng lồ.

Nhưng dữ liệu lớn không giúp giải quyết vấn đề đã ám ảnh các chuyên gia thống kê và các nhà khoa học trong nhiều thế kỷ qua: vấn đề thấu hiểu, vấn đề suy diễn điều gì đang xảy ra, và vấn đề xác định cách thức chúng ta có thể can thiệp nhằm cải thiện hệ thống.

Giáo sư David Hand đến từ trường Imperial College London nói rằng: “Chúng ta có một nguồn lực mới ở đây”. “Nhưng không ai muốn có “dữ liệu” đơn thuần cả. Cái họ muốn là các câu trả lời”.

Các phương pháp thống kê cần phải có những bước tiến dài để có thể làm được điều ấy.

Patrick Wolfe đến từ trường Đại học London (London College) phát biểu rằng: “Hiện trạng còn rất hoang sơ”. “Những người khôn ngoan và có động cơ sẽ xoay sở và tận dụng mọi công cụ khiến cho các bộ dữ liệu này lên tiếng, và quả là tuyệt vời. Nhưng trước mắt, chúng ta vẫn đang mò mẫm”.

Các chuyên gia thống kê đang vật lộn để phát triển các phương pháp mới nhằm đón bắt cơ hội của dữ liệu lớn. Chúng ta cần những phương pháp mới đó, nhưng chúng ta không được bỏ qua mà phải lấy các bài học thống kê truyền thống làm nền tảng phát triển các phương pháp mới để chúng có thể phát huy tác dụng.

Nhắc lại tuyên bố khẳng định của dữ liệu lớn. Độ chính xác kỳ lạ dễ thổi phồng kết quả nếu chúng ta lờ đi các trường hợp tưởng thật nhưng là sai lầm, như trường hợp dự báo về thai kỳ của Target. Tuyên bố cho rằng quan hệ nhân quả “đã bị hạ bệ” là đúng nếu chúng ta dự báo trong môi trường ổn định, nhưng lại là sai nếu thế giới biến động không ngừng (như trường hợp Dịch cúm) hay khi bản thân chúng ta muốn thay đổi thế giới. Sự hứa hẹn “N = Tất cả”, và do đó mà vấn đề độ chệch khi lấy mẫu không còn nữa, lại không đúng trong hầu hết các trường hợp được nhắc đến. Quan điểm cho rằng “khi có đủ dữ liệu trong tay, các con số sẽ nói lên tất cả” có vẻ chất phác một cách tuyệt vọng khi gặp phải những bộ dữ liệu mà các mô thức giả tạo lấn át các khám phá thực sự.

Thời đại “dữ liệu lớn” đã đến, nhưng thời đại của nhận thức sâu sắc thì chưa. Thách thức hiện tại là giải quyết các vấn đề mới và tìm được các câu trả lời mới mà không lặp lại những sai lầm về mặt thống kê trên một quy mô lớn hơn bao giờ hết.

Người dịch: Trần Thị Minh Ngọc

Nguồn: Big data: are we making a big mistaker? – FT Magazine, 28/03/2014.

Dữ liệu lớn: Có phải chúng ta đang lầm to? – Phần II


Tuy nhiên, một phân tích chỉ chú trọng sự tương quan không dựa trên nền tảng lý thuyết rõ ràng là không bền vững. Nếu bạn không hiểu điều gì ẩn đằng sau sự tương quan, thì bạn sẽ không biết tại sao sự tương quan đó bị phá vỡ. Một cách lý giải cho sự thất bại của Flu Trends chính là các bản tin đầy rẫy các câu chuyện đáng sợ về dịch cúm vào tháng 12/2012 và những câu chuyện đó đã kích thích những người khỏe mạnh tìm kiếm thông tin trên Internet. Một cách lý giải khác chính là thuật toán gợi ý tìm kiếm của Google đã dẫn dắt chệch mục tiêu khi Google bắt đầu đề xuất các chẩn đoán một cách tự động khi người ta nhập các triệu chứng bệnh vào.

Google Flu Trends sẽ phục hồi lại, sẽ được hiệu chuẩn lại bằng dữ liệu mới – và phải như vậy. Có nhiều lý do để vui mừng về các cơ hội lớn hơn được tạo ra cho chúng ta khi chúng ta dễ dàng thu thập và phân tích các bộ dữ liệu đồ sộ. Nhưng nếu chúng ta không rút được bài học gì từ sự cố này, chúng ta sẽ lại mắc sai lầm.

Các chuyên gia thống kê đã mất 200 năm để phát hiện những cạm bẫy chực chờ khi chúng ta tìm cách thấu hiểu thế giới bằng dữ liệu. Ngày nay, dữ liệu trở nên lớn hơn, nhanh hơn và rẻ hơn – nhưng chúng ta không được huyễn hoặc rằng các cạm bẫy giờ đây đã bị vô hiệu hóa. Cạm bẫy nguy hiểm vẫn chờ chực.

….

Năm 1936, Alfred Landon thuộc Đảng Cộng hòa đã ra tranh cử cùng Tổng thống Franklin Delano Roosevelt. The Literary Digest, một tạp chí uy tín, nhận lãnh trách nhiệm dự báo kết quả bầu cử. Tạp chí này đã thực hiện một cuộc thăm dò ý kiến dư luận hết sức tham vọng qua      đường bưu điện, mục tiêu đặt ra là phải tiếp cận được 10 triệu người, chiếm 1/4 toàn bộ lực lượng cử tri. Lượng thư phản hồi đổ về ào ạt ngoài sức tưởng tượng, nhưng The Literary Digest dường như thích thú với khối lượng công việc khổng lồ này. Vào cuối tháng 8, tạp chí đã tường thuật rằng: “Tuần sau, những phản hồi đầu tiên trong số 10 triệu thư phản hồi này sẽ khơi dòng cho luồng phiếu được đánh dấu, sẽ được kiểm tra ba lần, được đối chiếu, được phân loại chéo năm lần và được tổng hợp”.

Sau khi lập biểu thống kê 2,4 triệu phản hồi được gửi về trong hơn hai tháng, một con số đáng kinh ngạc, tạp chí The Literary Digest đã công bố kết quả khảo sát của họ: Landon sẽ thắng với tỷ lệ thuyết phục 55% so với 41%, một số ít cử tri còn lại ủng hộ ứng viên thứ ba.

Kết quả cuối cùng của cuộc bầu cử lại khác hoàn toàn: Roosevelt đã đè bẹp Landon với tỉ lệ 61% so với 37%. Sự đau đớn ê chề của tạp chí The Literary Digest chưa dừng lại ở đó, một cuộc điều tra có quy mô nhỏ hơn rất nhiều do George Gallup, một người tiên phong trong thăm dò dư luận, thực hiện đã có kết luận khá sát với kết quả bầu cử thực tế, dự báo được chiến thắng dễ dàng của Roosevelt. Ông Gallup đã nắm bắt được một số điều mà tạp chí The Literary Digest không biết. Nói đến dữ liệu, kích cỡ không quyết định tất cả.

Các cuộc thăm dò dư luận căn cứ trên các mẫu rút ra từ toàn bộ lực lượng cử tri. Điều này có nghĩa là những người thăm dò dư luận cần phải giải quyết hai vấn đề: sai số khi lấy mẫu (sample error) và độc chệch khi chọn mẫu (sample bias).

Sai số khi lấy mẫu thể hiện rủi ro, hoàn toàn ngẫu nhiên, mẫu được chọn ngẫu nhiên không phản ánh quan điểm thực của tổng thể. “Biên độ sai số” được báo cáo trong các cuộc thăm dò dư luận phản ánh rủi ro này và khi mẫu càng lớn thì biên độ sai số càng nhỏ. 1000 cuộc phỏng vấn là một mẫu đủ lớn phục vụ được nhiều mục đích và ông Gallup cho biết ông đã thực hiện 3000 cuộc phỏng vấn.

Nhưng nếu 3000 cuộc phỏng vấn cho ra kết quả tốt, vậy thì tại sao 2,4 triệu cuộc phỏng vấn lại không có được kết quả sát hơn? Câu trả lời là sai số khi lấy mẫu có một người bạn hết sức nguy hiểm: độ chệch khi chọn mẫu. Sai số khi lấy mẫu xuất hiện khi mẫu được chọn ngẫu nhiên không phản ánh được tổng thể một cách hoàn toàn ngẫu nhiên; độ chệch khi chọn mẫu xuất hiện khi mẫu hoàn toàn không được chọn một cách ngẫu nhiên. George Gallup đã phải tốn nhiều công sức để tìm mẫu không bị chệch vì ông hiểu rằng có được mẫu không chệch quan trọng hơn mẫu lớn.

Tạp chí The Literary Digest, trong quá trình săn tìm toàn bộ dữ liệu lớn hơn, đã vụng về chọn phải một mẫu bị chệch. Tạp chí này đã gửi biểu mẫu cho những người trong danh sách mà họ tập hợp được từ danh sách đăng kiểm xe hơi và từ danh bạ điện thoại – vào năm 1936 thì mẫu này gồm toàn những người giàu có so với mặt bằng chung. Độ chệch càng trầm trọng hơn khi những người ủng hộ Landon có nhiều khả năng gửi thư phản hồi hơn. Sự cộng hưởng của hai độ chệch này đủ kết liễu cuộc thăm dò của tạp chí The Literary Digest. Cứ mỗi người mà chuyên gia thăm dò ý kiến dư luận của George Gallup phỏng vấn, thì tạp chí The Literary Digest nhận được 800 thư phản hồi. Điều khiến họ đau đớn ê chề chính là việc họ ước lượng được một kết quả sai lầm cực kỳ chính xác.

Dữ liệu lớn tiếp tục đe dọa tạp chí The Literary Digest hết lần này đến lần khác. Do các bộ dữ liệu được tìm thấy rất lộn xộn, khó lòng mà phát hiện ra các độ chệch ẩn núp bên trong – và do chúng quá đồ sộ, nên các chuyên gia phân tích dường như đã kết luận rằng vấn đề chọn mẫu  không đáng lo. Đáng lo chứ.

Giáo sư Viktor Mayer-Schӧnberger đến từ Viện Internet của Oxford, đồng tác giả cuốn Big Data, đã nói với tôi rằng định nghĩa về dữ liệu lớn mà ông ưa thích chính là “N = Tất cả” – nghĩa là chúng ta không cần lấy mẫu nữa, chúng ta có toàn bộ tổng thể. Những người kiểm phiếu không ước lượng kết quả bầu cử bằng cách kiểm đến đại diện: họ đếm phiếu bầu – tất cả phiếu bầu. Và khi “N = Tất cả” thì thực sự không hề có vấn đề độ chệch khi chọn mẫu do mẫu bao gồm mọi quan sát.

Nhưng có phải “N = Tất cả” là mô tả phù hợp dành cho các bộ dữ liệu được tìm thấy mà chúng ta đang xét đến? Có lẽ là không. “Tôi sẽ thách thức quan niệm cho rằng người ta có thể có tất cả các dữ liệu”, lời của Patrick Wolfe, nhà khoa học máy tính và là giáo sư thống kê của trường Đại học London (London College).

Lấy ví dụ trường hợp của Twitter. Về mặt nguyên tắc, mỗi một tin nhắn trên Twitter có thể được lưu lại và phân tích, và được sử dụng để rút ra kết luận về tâm tư nguyện vọng của công chúng. (Trong thực tế, hầu hết các nhà nghiên cứu khi sử dụng một tập con của cái “vòi rồng” dữ liệu khổng lồ đó mà thôi). Nhưng trong khi chúng ta có thể xem xét tất cả các dòng trạng thái, thì những người dùng Twitter lại không đại diện cho toàn bộ tổng thể. (Theo Dự án Nghiên cứu Internet của Pew, vào năm 2013, những người dùng Twitter cư trú ở Hoa Kỳ đa phần là người trẻ tuổi, sống ở thành thị hay ngoại ô, và da đen).

Phải luôn luôn đặt câu hỏi ai và cái gì còn thiếu sót, đặc biệt là khi sử dụng một đống lộn xộn dữ liệu được tìm thấy. Kaiser Fung, chuyên gia phân tích dữ liệu và là tác giả cuốn Numbersense (Ý nghĩa của con số), đưa ra cảnh báo khi chúng ta giả định một cách đơn giản rằng chúng ta có trong tay tất cả mọi thứ cần thiết. Ông cho rằng: “N = Tất cả” thường là một giả định chứ không là một sự kiện về dữ liệu”.

Xét trường hợp ứng dụng Street Bump của thành phố Boston trên điện thoại thông minh, ứng dụng này sử dụng gia tốc kế của điện thoại để phát hiện ra ổ gà mà không cần lực lượng nhân công của thành phố đi tuần tra các tuyến đường. Khi người dân Boston tải ứng dụng và lái xe lòng vòng, điện thoại của họ sẽ tự động báo cho Tòa thị chính biết liệu có cần phải tu sửa mặt đường hay không. Việc giải quyết các thách thức về mặt kỹ thuật có liên quan đã tạo ra các dấu vết giàu thông tin giúp khắc phục vấn đề một cách đẹp mắt mà người ta không thể mường tượng được ở thời điểm cách đây một vài thập kỷ. Thành phố Boston tự hào tuyên bố rằng “dữ liệu cung cấp cho thành phố thông tin được cập nhật mới liên tục, thành phố sử dụng thông tin này để khắc phục những bất ổn và hoạch định các dự án đầu tư dài hạn”.

(còn tiếp) 

Người dịch: Trần Thị Minh Ngọc

Nguồn: Big data: are we making a big mistaker? – FT Magazine, 28/03/2014.