Thất bại của Trung Quốc trong giám sát xã hội


Dịch COVID-19, hay còn gọi là dịch “Viêm phổi Vũ Hán” đã lan ra toàn Trung Quốc và nhiều nước trên thế giới, trở thành một cuộc khủng hoảng y tế toàn cầu. Sự kiện này bề ngoài dường như không mang tính chính trị, nhưng trên thực tế đã khiến các nước xung quanh Trung Quốc giảm niềm tin vào Chính phủ Trung Quốc. Trên phương diện chính trị quốc tế, có thể nói Trung Quốc đã thua cuộc.

Hiện tại, Chính phủ Trung Quốc chỉ có thể giảm thiểu chứ không thể ngăn chặn tổn thất về sinh mạng và hình ảnh đất nước. Lần này, rõ ràng Chính phủ Trung Quốc không thể rũ bỏ trách nhiệm. Tiếng nói phê phán Trung Quốc về dịch SARS cách đây hơn 10 năm vẫn còn đó, và dường như lại vang lên một lần nữa. Trên phương diện thông tin, việc che giấu tình hình dịch bệnh dường như lại tái diễn. Hơn 10 năm qua, kể từ khi dịch SARS kết thúc, GDP của Trung Quốc tăng trưởng nhanh; biện pháp giám sát người dân của Chính phủ Trung Quốc càng chặt chẽ hơn. Tuy nhiên, trên phương diện y tế cộng đồng và an toàn tính mạng con người, Trung Quốc tiến bộ đến đâu? Đây vẫn là câu hỏi chưa có lời giải đáp.

Tại sao thành phố có tỷ lệ camera giám sát cao nhất thế giới

Điều đáng suy ngẫm nhất về dịch COVID-19 là một cuộc khủng hoảng y tế lớn như vậy lại xảy ra đúng lúc hệ thống giám sát của Chính phủ đối với người dân Trung Quốc ngày càng hiện đại. Mấy chục năm qua, chính phủ các nước trên toàn thế giới đều nỗ lực vận dụng công nghệ thông tin vào việc giám sát xã hội nhằm chiếm ưu thế trong quan hệ quốc tế và chiến tranh. Trên phương diện quan hệ quốc tế, Mỹ đương nhiên vẫn dẫn đầu trên phạm vi toàn cầu với lực lượng quân sự hùng mạnh. Ví dụ mới đây nhất là việc quân đội Mỹ dùng máy bay không người lái tiêu diệt tướng Qassem Soleimani, Tư lệnh Lực lượng đặc nhiệm Quds thuộc Vệ binh cách mạng Hồi giáo Iran (IRGC). Tuy nhiên, trên phương diện giám sát xã hội trong nước, Trung Quốc dẫn đầu và bỏ xa các nước khác. Chính phủ Trung Quốc không tiếc công sức đầu tư phát triển ngành công nghệ thông tin và đã sớm đưa Trung Quốc trở thành một cường quốc về khoa học công nghệ. Điều quan trọng hơn là Trung Quốc không có truyền thông độc lập, cũng không có chuyện xã hội dân sự và đảng đối lập giám sát Chính phủ. Vậy nên, an ninh công cộng và an ninh quốc gia mà Chính phủ Trung Quốc tuyên truyền luôn được chú ý hơn nhiều so với những vấn đề riêng tư như quyền tự do công dân. Vì thế, Chính phủ Trung Quốc có thể gia tăng thúc đẩy hệ thống giám sát trên phạm vi toàn quốc.

Theo trang mạng về khoa học công nghệ Comparitech, 8/10 thành phố trên thế giới có nhiều camera giám sát nhất tính theo bình quân đầu người đều thuộc Trung Quốc: ngoài Bắc Kinh, Thượng Hải và Quảng Châu còn có cả Trùng Khánh, Vũ Hán, tâm dịch lần này. Camera giám sát chỉ là một bộ phận nhỏ trong hệ thống giám sát. Ngoài camera còn có thiết bị nhận dạng khuôn mặt, hệ thống đánh giá niềm tin xã hội, hệ thống thu thập dữ liệu và hệ thống xử lý phân tích dữ liệu. Hơn thế, sự hợp tác giữa Chính phủ Trung Quốc và các doanh nghiệp lớn trong lĩnh vực công nghệ mạng và kết nối mạng là khá toàn diện. Ví dụ, số người và tần suất sử dụng, thanh toán qua mạng (thanh toán điện tử) ở Trung Quốc tăng với tốc độ chóng mặt trong những năm gần đây và hiện nay đang dẫn đầu toàn cầu. Điều thú vị hơn là không ít người dân thành phố do tin tưởng vào Chính phủ và mong muốn cuộc sống tiện lợi đã tự nguyện hoặc bán tự nguyện giao một lượng lớn dữ liệu cá nhân cho Chính phủ và các doanh nghiệp lớn.

Thế nhưng, cho dù không quan tâm đến quyền tự do công dân và quyền riêng tư cá nhân, nhưng chỉ cần dành chút thời gian suy ngẫm thì những người tự nguyện và bán tự nguyện này có thể đưa ra rất nhiều câu hỏi về hệ thống giám sát như vậy. Ví như hệ thống giám sát khổng lồ như vậy của Trung Quốc có thực sự khiến người dân cảm thấy an toàn hơn không? Việc họ hy sinh quyền riêng tư nhiều như vậy có đáng hay không?

Theo truyền thông Trung Quốc, ngày 8/12/2019, bệnh viện tại Vũ Hán phát hiện ca nhiễm virus SARS-CoV-2 (gây ra dịch COVID-19) đầu tiên. Cuối tháng 12/2019, Ủy ban y tế và sức khỏe thành phố Vũ Hán thông báo tình hình dịch bệnh với 27 ca nhiễm, nhưng đồng thời hấn mạnh chưa phát hiện hiện tương lây nhiễm rõ ràng từ người sang người. Ngày 31/12/2019, các hộ kinh doanh tại chợ hải sản Hoa Nam, nơi được coi là địa điểm khởi phát dịch bệnh, vẫn kinh doanh bình thường. Tuy nhiên, lúc đó, nhiều người kinh doanh và làm việc tại khu chợ này đã đổ bệnh. Họ là những người trong diện nghi nhiễm và xác định nhiễm bệnh. Một ngày sau, khu chợ hải sản Hoa Nam mới đóng cửa toàn diện. Nhìn lại, cho dù chúng ta bỏ qua những bình luận lan tràn trên mạng và muốn tin vào những số liệu được công bố chính thức thì cũng rất khó tin khi 27 ca nhiễm cuối tháng 12/2019 đều là lây nhiễm từ động vật sang người. Lẽ nào trong suốt 20 ngày từ ngày 8/12 đến cuối tháng 12/2019, Chính quyền địa phương và virus đều đang trong “kỳ nghỉ”?

Hệ thống giám sát không đảm bảo an toàn cho người dân cả nước

Có thể nói dữ liệu về người bệnh, địa điểm làm việc, nơi ở, tính chất công việc, quan hệ cá nhân… mà hệ thống giám sát của Trung Quốc thu thập được là những thông tin dễ tìm. Trên thực tế, không cần đến camera giám sát hay thiết bị nhận dạng khuôn mặt mà chỉ cần phân tích lý thuyết và dữ liệu do bệnh viện, khu chợ và tổ dân cưc ung cấp là có thể khẳng định dịch bệnh lây từ người sang người. Vì sao vấn đề này không được xác định ngay từ đầu mà phải đến ngày 20/01/2020, khi chuyên gia dịch tễ học hàng đầu Trung Quốc – giáo sư Chung Nam Sơn khi trả lời phỏng vấn của Đài truyền hình trung ương Trung Quốc (CCTV), mới được công bố với thiên hạ, chứng thực nhân viên y tế nhiễm virus gây dịch COVID-19 và virus này lây từ người sang người, đồng thời kêu gọi mọi người không nên đến Vũ Hán?

Hiển nhiên trong sự việc này, hệ thống giám sát không thể phát huy vai trò động viên người dân và chính quyền các cấp, bảo đảm an toàn cho người dân cả nước, nói gì đến việc bảo đảm an toàn cho cộng đồng trên phạm vi khu vực hay toàn cầu. Có lẽ hai nguyên nhân lý giải điều này và hai nguyên nhân này cùng tồn tại. Nguyên nhân thứ nhất, cũng là điều mà nhiều người nói đến, là cơ quan chuyên môn nhà nước hoặc một số cơ quan chính phủ đã biết nhưng che giấu tình tình dịch bệnh vì một số lý do nào đó. Ví dụ, ngày 16/1/2020, lãnh đạo thành phố Vũ Hán tuyên bố mới chỉ có 40 ca xác định nhiễm bệnh viêm phổi lạ; trong khi đó, các nước láng giềng của Trung Quốc như Nhật Bản cũng đã xuất hiện những ca bệnh đầu tiên, đều là những người đã đến Vũ Hán cho dù chưa hẳn đã đến khu chợ hải sản Hoa Nam hay tiếp xúc trực tiếp với động vật hoang dã. Rõ ràng tin tức về việc virus SARS-CoV-2 lây từ người sang người đã sớm được lan truyền bên ngoài Trung Quốc, vật mà không rõ vì sao số ca bệnh được xác nhận tại Vũ Hán và trên toàn Trung Quốc lại ít như vậy. Vài ngày sau, Vũ Hán bất ngờ công bố tổng số ca nhiễm bệnh lên đến hàng trăm, hàng nghìn rồi hàng vạn, đồng thời số ca nhiễm bệnh tại nhiều địa phương khác của Trung Quốc cũng tăng nhanh chóng. Dường như chỉ có một cách để lý giải hiện tượng này: Trước đó, các cơ quan nhà nước, không rõ ở cấp địa phương hay trung ương, cố tình công bố số liệu ít hơn nhiều so với thực tế. Có thể có quan chức sợ bị truy cứu trách nhiệm hoặc vì muốn giữ thể diện mà làm vậy. Nhưng sau đó, khi vấn đề trở nên nghiêm trọng, có người trong hàng ngũ lãnh đạo Trung Quốc cấp địa phương đã lên tiếng: đến lúc không thể che giấu tình hình dịch bệnh được nữa.

Thứ hai, cho dù là hệ thống giám sát thu thập được nhiều dữ liệu và không ngừng tiến hành xử, phân tích, nhưng đó cũng chỉ là những dữ liệu “chết” – con người mới là quan trọng. Muốn đưa ra được cảnh báo, kết luận đủ để khiến Chính phủ Trung Quốc hành động, các quan chức lãnh đạo cần sẵn sàng nhận trách nhiệm, quyết tâm coi việc ngăn chặn và kiểm soát khủng hoảng y tế là sứ mệnh tối cao, chứ không nên chỉ quan tâm đến lợi ích có được từ vị trí của mình trong bộ máy công quyền hay vì mục tiêu nào khác. Có thể thấy rõ rằng ở thời kỳ đầu của dịch bệnh, hệ thống giám sát xã hội có sứ mệnh hay chỉ thị khác cao hơn. Ví dụ, từ trung tuần đến hạ tuần tháng 12/2019, cơ quan công an đã nhanh chóng triệu tập 8 cư dân mạng vì cho rằng họ tung tin đồn nhảm về dịch bệnh. Đương nhiên về cơ bản, đây không phải là tin đồn nhảm mà là sự thực, và hành động của những công dân này là lời nhắc nhở từ sớm đối với người dân cả nước. Người ta có lý do để tin rằng hệ thống giám sát xã hội của Trung Quốc và những con người làm việc trong đó về mục tiêu và chương trình làm việc đều có sự thiên lệch đến mức nghiêm trọng – họ rất nhạy cảm với quyền tự do ngôn luận và các quyền tự do khác của công dân. Vì vậy, họ nhanh chóng đưa ra phản ứng nhằm ngăn chặn mọi hành vi cá nhân hay tập thể thể hiện quyền tự do nhưng lại tỏ ra thiếu năng lực trong việc giám sát dịch bệnh và người bệnh.

Dữ liệu thu thập vượt quá năng lực xử lý và phân tích

Một đặc điểm lớn của thời đại số là việc thu thập dữ liệu diễn ra tới mức thái quá. Thái quá ở chỗ điều này không chỉ xâm phạm quyền riêng tư của con người, mà còn vượt quá khả năng xử lý, phân tích của công nghệ và các cơ quan chức năng. Ngoài việc trấn áp ý kiến bất đồng, rất nhiều dữ liệu thuộc nhiều lĩnh vực khác nhau được thu thập và lưu lại trước để sử dụng sau nhằm các mục đích khác như truy bắt tội phạm. Tuy nhiên, việc có nguồn dữ liệu lớn không có nghĩa là chính phủ đã trở thành “quái vật” hay “đại quản gia” toàn năng và biết hết mọi thứ. Lấy Chính phủ Trung Quốc làm ví dụ: Mặc dù Đảng Cộng sản Trung Quốc được tuyên bố là nắm quyền lãnh đạo, nhưng trong rất nhiều vấn đề có sự bất đồng ý kiến, chưa hẳn lúc nào dữ liệu cũng được chia sẻ.

Trong xã hội Trung Quốc hiện nay, dưới sự giám sát nghiêm ngặt của Chính phủ, không ít nhân sỹ bất đồng chính kiến thận trọng trong phát ngôn và hành động nhưng vẫn thường xuyên bị cơ quan công an triệu tập. Điều đáng chú ý là khi cơ quan công an triệu tập, trình tự cảnh cáo, nói chuyện hay chất vấn chỉ là thứ yếu; quan trọng là họ được yêu cầu phải giao nộp điện thoại di động để công an lấy dữ liệu, khiến họ hết sức bất bình. Điều này được cho là cần thiết vì điện thoại di động và phần mềm ứng dụng đều đã được kiểm duyệt, bất kể dữ liệu nào cũng có thể được cơ quan công an hay hệ thống giám sát xã hội thu thập trong thời gian sớm nhất. Vậy thì vì sao công an vẫn dùng biện pháp nguyên thủy là tải dữ liệu từ điện thoại di động của người khác?

Rõ ràng Chính phủ Trung Quốc hiện nay cũng rơi vào vũng lầy với kho dữ liệu lớn. Họ không ngừng thu thập dữ liệu thông qua hệ thống giám sát nhưng vẫn hành động theo thói quen của mình. Chính vì vậy, khi thực sự hành động, như lúc phải đối mặt với một cuộc khủng hoảng y tế lớn như vậy, họ lại mắc sai lầm không thể bào chữa.

Nguồn: Tờ Minh báo (Hong Kong) – 23/03/2020

TLTKĐB – 28/03/2020.

Dữ liệu lớn để trợ giúp quá trình chuyển đổi năng lượng?


Eric Vidalenc

Việc phổ biến các thiết bị kết nối (máy tính, đồng hồ, xe hơi, điện thoại thông minh…) và các thiết bị cảm biến còn được gọi là Internet of Things (IoT – Mạng lưới thiết bị kết nối Internet) trong cuộc sống hàng ngày có hệ luận của nó: Dữ liệu lớn, có nghĩa là tạo ra hàng đống dữ liệu khổng lồ cho tất cả các khía cạnh cuộc sống chúng ta. Từ các thành tích thể thao (nhịp tim, tốc độ,… số Kcal năng lượng tiêu hao), đến thông tin theo thời gian thực trên các mạng lưới giao thông công cộng (x phút trước giờ đến của chuyến tàu tiếp theo), qua các ứng dụng từ điện thoại di động như Uber (y phút trước khi bác tài đến đón bạn), hay các thiết bị đo thông minh trong nhà (đếm “một cách thông minh” số kWh điện tiêu dùng), đặt cạnh nhau tất cả những thứ trên góp phần vào việc dữ liệu hóa cuộc sống chúng ta.

Và lan ra cùng một lúc trực giác: hiểu tốt hơn có nghĩa là hành động tốt hơn. Đặc biệt nhân bội dữ liệu vào việc sử dụng năng lượng, cũng có nghĩa là nhân bội những hành động có hiểu biết đầy đủ, như phân tích này trong tạp chí La Tribune có đề cập. Tuy nhiên, một giả định như vậy còn xa mới rõ ràng. Liệu phạm trù luôn “nhiều hơn” (trong trường hợp này, nhiều dữ liệu hơn) có là một con đường không thể lẩn tránh, cần thiết, hữu ích… hay thừa thãi của quá trình chuyển đổi năng lượng và kỹ thuật số?

Luôn nhiều hơn có tất nhiên là luôn tốt hơn không?

Hãy lấy ví dụ về thông tin. Từ những làn sóng liên tục các kênh chuyên đề đến các trang web tin tức, qua các tin nhắn trên điện thoại thông minh, con người cũng đã bị “say khướt” bởi những dòng chảy thông tin ấy. Liệu trình độ kiến thức và hiểu biết của chúng ta, ở cấp độ cá nhân hay tập thể, về sự vật và thế giới có tốt hơn không so với cách đây 10 năm, 20 năm, 30 năm?

Nếu tập trung vào những chiếc đồng hồ mới kết nối, để xác định số lượng Kcal năng lượng hấp thụ được vào mỗi bữa ăn, số bước chân đã đi trong ngày…, thì con người đã mở rộng ảnh hưởng cảu dữ liệu vào những lĩnh vực riêng tư hơn và cá nhân hơn. Con người chưa bao giờ được trang bị tốt hơn như ngày nay (máy cân, đồng hồ và vòng đeo tay kết nối, ứng dụng y tế, các loại thiết bị đếm khác nhau…), thế nhưng những người bị bệnh béo phì (chỉ nói đến bệnh này mà thôi) cũng chưa bao giờ đông như ngày nay.

Đây mới chỉ là hai ví dụ, một ví dụ phi vật chất gần với kiến thức, và một ví dụ vật chất gắn với việc dinh dưỡng. Nhưng trong nhiều lĩnh vực khác, giờ đây chúng ta có thể khẳng định rằng “nhiều hơn” thường biến thành “quá nhiều”, để rồi cuối cùng trở thành kẻ thù của “tốt hơn”.

Taleb và sự quá tải thông tin, Damasio và sự đãi vàng

Nicolas Taleb, tác giả cuốn Black Swan (Thiên Nga đen) và gần đây hơn là cuốn Antifragile (Cải thiện nghịch cảnh), phát triển trong tác phẩm sau ấy một biện luận khá thuyết phục về thông tin. “Lượng thông tin mà thế giới hiện đại bao phủ xuống con người đã biến họ […] thành những người nhiễu tâm”. Nhìn vào quá khứ (theo định nghĩa, việc tạo dựng dữ liệu chỉ là việc lưu trữ, thống kê các sự kiện đã xảy ra), chúng ta không có khả năng hiểu được những rạn nứt và những cách vận hành mới. Bằng cách tập trung vào “tiếng ồn”, chúng ta tập trung vào những sự kiện vô nghĩa. “Tiếng ồn” làm cho chúng ta bận tâm, trong khi phải chú ý đến “tín hiệu”.

Alain Damasio, tác giả truyện khoa học viễn tưởng và của một suy tưởng hiện đại về kỹ thuật, cũng phê phán trận đại hồng thủy về thông tin kỹ thuật số này. Trong nhiều cuộc phỏng vấn gần đây, của Rue89 hay của Inrockuptibles, ông tự hỏi: “Làm thế nào có thể đãi được khối lượng thông tin khổng lồ rối rắm này để tìm ra vài điều nhỏ có giá trị?”. Nếu cần diễn dịch lại thì là: hầu hết các dữ liệu mà cá nhân đã tạo ra đều không có giá trị. Hơn nữa, tất cả những dữ liệu ấy làm suy giảm tính nhạy cảm của chúng ta và làm xao lãng sự chú ý về cảm xúc của chúng ta. Công nghệ được triển khai như thế có thể làm biến chất khả năng cảm nhận, suy nghĩ và hành động của chúng ta; sự giảm tốc đơn giản của thông tin sẽ tự động làm giảm sự chú ý sẵn có đối với một dữ liệu thông tin. Và điều này xảy ra trong những quy mô cực kỳ mới với kỹ thuật số, “Ảo giác làm cho chúng ta tin rằng một khối lượng thông tin vô hạn có thể có lợi cho một khả năng lắng nghe vô hạn”.

Bị kẹt trong vòng xoáy này, chúng ta không còn có khả năng lắng nghe và chú ý đến các tín hiệu quan trọng và có sẵn cho những nỗ lực dài hạn đòi hỏi phải tổng hợp và giữ độ lùi.

Quá nhiều dữ liệu chỉ làm rối trí mà thôi?

Hiểu biết là điều cần thiết để đưa ra những lựa chọn “thông minh”. Nhưng vượt quá một lượng dữ liệu nhất định nào đó, thay vì để giúp chúng ta suy nghĩ và có công cụ để hành động hiệu quả, thì có nhiều khả năng dữ liệu làm cho chúng ta bất động hoặc đánh lạc hướng chúng ta về những vấn đề quan trọng nhất. Một lần nữa chúng ta viện dẫn Ivan Illich và thuyết phản tác dụng của ông.

Ở cấp độ cá nhân, ví dụ. Trong khi chú tâm vào thiết bị đếm, chiếc đồng hồ hay bất cứ thiết bị kết nối nào của chúng ta, để tiết kiệm 1 KWh điện tiêu dùng, thì chúng ta cũng có thể bỏ lỡ những thay đổi mang tính cấu trúc. Chúng ta sẽ khởi động máy giặt một giờ trước, sẽ lập trình máy sưởi một giờ sau đó nhờ vào các đường cong trọng tải tối ưu hóa. Nhưng nếu thay vào đó là một sự cách nhiệt, hay thậm chí là một sự giảm nhiệt theo quy định; nói tóm lại, một cách tiếp cận đầy đủ các nhu cầu năng lượng của môi trường sống và thậm chí của lối sống, thì những điều trên sẽ có ý nghĩa gì?

Ở cấp độ tập thể, về vấn đề khí hậu và năng lượng, chúng ta chưa bao giờ định lượng tốt đến thế vai trò của con người trong sự biến đổi khí hậu. Tuy nhiên, chưa bao giờ con người phát tán nhiều khí thải nhà kính đến thế và các kỷ lục về nhiệt độ và những sự rối loạn khí hậu lại không ngừng bị phá vỡ… Như vậy, dữ liệu chỉ hữu ích trong việc theo sau và theo dõi thảm họa?

Vì vậy theo thực nghiệm, chúng ta không thể khẳng định rằng cần phải định lượng nhiều hơn, để hiểu biết nhiều hơn… và để hành động tốt hơn. Những người bảo vệ tích cực nhất việc số hóa thế giới sẽ nói với chúng ta rằng chỉ cần “nhiều hơn một chút”. Luôn luôn “nhiều hơn một chút”. Nhưng sự cường điệu đơn thuần về số lượng ấy cũng không mang tính thuyết phục. Động lực của sự thay đổi hành vi dường như không nằm trong phạm trù “luôn luôn nhiều hơn”, mà chắc chắn nằm trong một sự hiểu biết tốt hơn về các mối tương quan diễn ra trong nhiều lĩnh vực khác nhau.

Người dịch: Huỳnh Thiện Quốc Việt

Nguồn: Le Big Data à là resource de la transition énergétique? – Alternatives Economiques, 8 September 2015.

Phát triển mạng xã hội của Việt Nam liệu có đang đi sai hướng?


Theo đài BBC, hàng trăm mạng xã hội đã ra đời tại Việt Nam tính từ năm 2014, nhưng số trụ lại chỉ đếm trên đầu ngón tay. Xu thế “nhà nhà làm mạng xã hội” như vậy liệu có đạt được mục đích kinh tế cũng như mục tiêu “chủ quyền chính trị” ẩn đằng sau?

Số liệu được tổng hợp về Giấy phép thiết lập mạng xã hội trên mạng trên trang web của Cục Phát thành – Truyền hình và Thông tin điện tử (Bộ Thông tin và Truyền thông của Việt Nam) cho thấy, từ tháng 10/2014 đến tháng 7/2018, đã có 455 giấy phép thiết lập mạng xã hội trên mạng được cấp.

Hôm 21/9, lễ ký kết đầu tư và ra mắt dự án mạng xã hội Astra được tổ chức tại Trung tâm Hội nghị quốc gia Mỹ Đình (Hà Nội) với hơn 1500 khách mời là các nhà đầu tư và các đối tác mạng. Dự kiến, bản beta mạng này sẽ ra mắt vào cuối tháng 11/2019. Mạng Astra sẽ tập trung vào lĩnh vực du lịch.

Theo truyền thông trong nước, trước đó trong chương trình Shark Tank Việt Nam – Thương vụ bạc tỷ mùa 3 phát sóng tối 18/9, CEO của Astra, ông Nguyễn Tiệp đã gửi đến nhà đầu tư lời mời 1 triệu USD cho 10% cổ phần, với tham vọng chiếm 5% thị phần du lịch online toàn cầu, trở thành một trong những công ty công nghệ du lịch hàng đầu thế giới và khu vực trong vòng 5 năm tới.

Theo facebook Astra Network, mạng này được Shark Phạm Thành Hưng rót vốn 1 triệu USD, và sẽ có mô hình trả thưởng cho những người dùng đóng góp nội dung chất lượng bằng việc ứng dụng công nghệ blockchain.

Trước đó một tuần, Lotus – mạng xã hội do Công ty Cổ phần VCCorp nghiên cứu, phát triển – cũng đã ra mắt với tham vọng thu hút được khoảng 50 triệu người dùng thường xuyên.

Việc ra đời của mạng Lotus thu hút nhiều sự chú ý nó ra đời ngay sau khi Bộ trưởng Bộ Thông tin và Truyền thông Nguyễn Mạnh Hùng nhiều lần kêu gọi Việt Nam xây dựng mạng xã hội “nhà trồng được” để cạnh tranh, không cho các mạng xã hội nước ngoài thu thập toàn bộ thông tin về người Việt.

Ra đời hoành tráng, trải nghiệm buồn tẻ

Nhận xét về mạng xã hội Lotus, TS Nguyễn Đức An – Phó Giáo sư ngành Báo chí tại Đại học Bournemouth (Anh), nói rằng cần thêm thời gian để có thể nhận định kỹ lưỡng hơn về khả năng thành công của Lotus: “Trên thực tế, họ ra mắt rầm rộ nhưng có lẽ là hơi vội vì hiện vẫn chưa có giao diện trên web, chỉ là một ứng dụng trên thiết bị di động”.

Tuy nhiên, ông An nhận xét sơ khởi rằng, hai trụ cột mà Lotus muốn xây dựng để thu hút người dùng là nội dung và sự trải nghiệm của người dùng đã cho thấy thất bại ngay từ vài quan sát trực quan ban đầu. Ông nói: “Ai vào trang chủ sẽ thấy màu sắc và đồ họa hơi lòe loẹt, buồn tẻ và quan trọng nhất là thiếu tính trực quan. Ai tiến bước nữa để vào ứng dụng thì thấy cấu trúc giao diện không có sắc thái gì riêng, trông cũng hao hao giống Facebook hay Twitter. Còn nội dung thì có vẻ rất nhiều thứ vô thưởng vô phạt, với lượng tin bài gái xinh – trai đẹp và những chuyện cướp – giết – hiếp chiếm tỷ trọng lớn. Dòng trạng thái đầu tiên tôi nhận trên Lotus là hình ảnh từ một tài khoản gọi là Hội gái xinh Việt Nam”.

Ông Kevin Doan, Giám đ6óc điều hành và cũng là người sáng lập (CEO & founder) của Reputable Asia – một công ty chuyên ứng dụng kỹ thuật vào tiếp thị số tại Việt Nam – nhận xét buổi ra mắt Lotus tuy rất hoành tráng, nhưng đó là cái hoành tráng của một công ty chuyên kinh doanh một ngành nghề nào đó rất cao cấp, chứ không cho thấy đây là một sản phẩm về công nghệ. Ông Kevin nói: “Cảm giác những người đang làm Lotus đang cố tạo ra những cái buzz chứ không phải là những quá thành thạo về việc phát triển mạng xã hội. Ngay cả về tính năng cũng thiếu sót như Lotus định hướng desktop, trong khi truy cập mạng xã hội bằng mobile hiện chiếm số lượng áp đảo”.

Cùng ngày, ông Lê Ngọc Sơn (Chuyên gia truyền thông, Đại học Công nghệ Ilmenau, CHLB Đức), cho biết dù ông rất ủng hộ việc xây dựng và phát triển một mạng xã hội của Việt Nam, nhưng cảm nhận ban đầu về Lotus là có quá nhiều lỗi về kỹ thuật. Bên cạnh đó, có một số nghịch lý đáng chú ý: “Chẳng hạn, tuyên ngôn của Lotus là mạng xã hội thuần Việt, nhưng lại có tên tiếng Anh – Lotus, thuần Việt phải là “Sen” chứ? Thứ hai, họ nói là mạng xã hội dựa trên nội dung, nhưng nội dung kiểu gì mà khi vào thì toàn nội dung rẻ tiền, không hấp dẫn. Mạng xã hội này đang có cách tiếp cận chưa ổn về thực tiễn. Họ nhắm đến những người có ảnh hưởng trên mạng (Key opinion leaders – KOLs), họ mời đến buổi ra mắt cũng như đề cập nhiều đến chuyện này trong các quảng cáo của họ. Nhưng vấn đề là họ muốn nhắm đến KOLs hay nhắm đến người dùng? Trong khi mạng xã hội tồn tại được là nhờ người dùng và chính người dùng tạo ra các KOLs chứ không phải ngược lại. Tôi cho rằng, cách tiếp cận như vậy là “khôn” nhưng chưa “ngoan””.

Mạng xã hội hay chỉ là mạng nội dung?

Lotus ra đời với triết lý “Content is King” (Nội dung là vua).

Tuy nhiên, với nhãn quan của một người nghiên cứu về báo chí, TS Nguyễn Đức An cho rằng, đây là một xuất phát điểm không ăn nhập, nếu không nói là trái ngược với yếu tố “xã hội” trong “mạng xã hội”. Ông nói: “Lotus bắt đầu từ nội dung để lôi kéo sự tương tác. Trong khi mô hình mạng xã hội lâu nay thì ngược lại. Họ không bắt đầu từ nhu cầu thông tin hay nội dung mà từ một nhu cầu rất con người, nhu cầu được thấy mình đang sống giữa cộng đồng (a sense of belonging). Trên cơ sở đó, họ xây dựng một nền tảng (platform) giúp người dùng được tự do tương tác, biểu đạt với thế giới bên ngoài, để họ thỏa mãn nhu cầu sống giữa cộng đồng đó. Nội dung đến từ các tác xã hội, chứ không phải ngược lại.

Đó là lý do vì sao Facebook trở thành hãng truyền thông lớn nhất thế giới mà không hề sản xuất một tí nội dung nào. Với mạng xã hội, nền tảng là vua, chứ không phải nội dung là vua”.

TS An nói thêm: “Ở thời điểm này, tôi chỉ có thể nói, về bản chất, Lotus giống như một trang web tích tụ thông tin từ các nguồn họ tự tổ chức sản xuất hoặc thu thập từ nguồn khác, có bổ sung thêm tính năng khuyến khích người dùng đánh giá, chia sẻ nội dung thông qua hệ thống thu lượm và đổi điểm thưởng (token). Nói cách khác là một tờ báo với giao diện có vẻ như của mạng xã hội. Yếu tố kết nối và tương tác xã hội giữa người với người gần như mờ nhạt, thứ yếu. Triết lý rõ ràng là không thích hợp với môi trường số. Và nền gọi đó là mạng nội dung thì đúng hơn. Đó là tôi chưa nói đến chuyện, nội dung được chia sẻ trên đó như thế nào”.

Còn ông Kevin Doan nhận xét: “Không chỉ Lotus mà các mạng xã hội “Made in Vietnam” thời gian qua đang cố tìm ra một con đường ngắn nhất để tạo ra một phần mềm và từ đó đẩy lên mạng, chứ chưa thấy bóng dáng của khả năng và kinh nghiệm trong việc xây dựng một cộng đồng số cũng như nghiên cứu các hành vi của con người để tìm ra con đường đi chiến lược của mình”.

Cũng theo ông Kevin Doan, do chưa đầu tư về tính năng để đáp ứng nhu cầu cơ bản về mặt xã hội nên hầu hết đều tuyên bố họ dựa vào nội dung. Tuy nhiên, định hướng các mạng này về nội dung lại khá thiên lệch. Điểm đóng góp quan trọng của mạng xã hội thời gian qua là đưa ra được những tiếng nói trái chiều, để từ đó, có những vụ việc mà trước đây cố gắng đến mấy cũng khó tạo nên sự thay đổi, thì nay, tiếng nói trên mạng xã hội tạo ra sức ép rất lớn với chính quyền và buộc chính quyền vào cuộc xử lý. Ông Kevin Doan nói: “Cho nên, một mạng xã hội nếu cố gắng tô vẽ mọi thứ cho đẹp và không sát với thực tế, thì sẽ không được người Việt Nam tin dùng. Khả năng phân biệt đúng sai của người Việt Nam hiện nay rất cao, nên nếu làm nội dung mà không đúng thực tế, người dùng sẽ nhận ra và tẩy chay”.

“Nhà nhà làm mạng xã hội”: Liệu có thành công?

Trở lại với xu hướng “nhà nhà làm mạng xã hội” bùng nổ trong gần một năm nay, TS Nguyễn Đức An cho rằng cần phải xem lại trào lưu có vẻ thời thượng này. Ông cho rằng, thay vì tìm cách thay thế người khổng lồ, có lẽ cách tốt hơn là tìm cách mượn đôi vai của người khổng lồ.

Nghĩa là, theo ông An, nếu Bộ Thông tin – Truyền thông nhắm mục tiêu đẩy lùi những cái mà họ gọi là tin giả, tin độc, thì họ nên tập trung xây dựng một hệ thống báo chí chính thống mạnh mẽ, đáng tin cậy và hợp nhịp sống số, rồi tận dụng các nền tảng xã hội đang thịnh như Facebook để phát tán, lưu truyền những cái mà họ cho là lành mạnh. Ông nói: “Đừng nghĩ rằng Việt Nam có thể thành công như Trung Quốc đã làm dễ dàng với Weibo hay WeChat. Kích cỡ thị trường Việt Nam rất nhỏ so với hơn 1,4 tỷ dân Trung Quốc. Hơn nữa, các mạng xã hội Trung Quốc được hỗ trợ bởi chính sách chặn các mạng xã hội toàn cầu như Facebook và Twitter, từ cái thời mà các mạng này vẫn còn chưa lớn mạnh như bây giờ”.

Ông Kevin Doan nhận xét, từ trước đến nay, Chính phủ Việt Nam luôn coi trọng việc kiểm soát thông tin trên mạng xã hội và đã có một số ký kết với một số công ty truyền thông lớn như Facebook, Google để kiểm soát thông tin trên mạng xã hội, tuy nhiên vẫn chưa được như ý.

Bởi vậy, chính phủ Việt Nam muốn có những kênh có thể hợp tác tốt hơn với chính phủ. Bên cạnh đó, việc quản lý thuế với các hoạt động quảng cáo của các mạng xã hội vẫn là một thách thức. “Chủ trương này hợp lý khi đặt trong cái nhìn về lợi ích quốc gia; nhưng bên trong đó vẫn là những ý đồ kiểm soát thông tin nhằm bảo vệ chủ quyền chính trị” – ông Kevin Doan nhận định.

Nhận định trên cũng được ông Lê Ngọc Sơn chia sẻ khi cho rằng, “bản chất của sự ra đời Lotus không hẳn nằm ở động cơ săn tìm lợi ích inh tế truyền thống, thực chất nó là một chuyển động của nỗ lực tìm kiếm công cụ quản trị đám đông”.

Đi vào thị trường ngách: Hướng mới hay đường cũ?

Khác với Lotus, mạng xã hội Astra nhắm vào một thị trường ngách là du lịch. Dẫu nhấn mạnh rằng, cần khuyến khích những người tạo ra những giá trị mới, ông Kevin Doan vẫn không mấy lạc quan như vậy về tương lai của các mạng xã hội ngách như vậy.

Ông viện dẫn một thực tế là trên thế giới, mạng xã hội ngách rất nhiều. Khái niệm mạng xã hội ngách đã có từ 10 năm nay. Tuy nhiên, sau đó các mạng xã hội ngách đều chết yểu. Chỉ có những mạng xã hội có sức lan tỏa trên toàn thế giới thì mới sống sót. Ông nói: “Tôi không nghĩ, cơ hội cho mạng xã hội ngách đã hết, nhưng nếu chỉ đi theo khuynh hướng mạng xã hội thì sẽ rất khó. Astra là một start-up thiên về kinh doanh nên điểm mạnh của họ là có cơ chế kinh doanh rất rõ ràng, khác với các mạng trước đó dựa vào ưu thế và chiến lược kinh doanh của một công ty sẵn có. Tuy nhiên, họ có thể rất thành công trong kinh doanh nhưng thành công như một mạng xã hội không, đó lại là chuyện khác”.

Mạng xã hội nước ngoài có bị kiểm soát chặt hơn?

Vậy liệu sự nở rộ các mạng xã hội nhà trồng như vậy có dẫn đến việc chính quyền Việt Nam sẽ dần thắt chặt kiểm soát với các mạng xã hội nước ngoài hay không? Về chuyện này, ông Kevin Doan cho rằng, nếu một cơ chế hợp lý và khôn ngoan thì việc kiểm soát các mạng xã hội nước ngoài sẽ tỉ lệ thuận theo sự phát triển và được đón nhận của các mạng xã hội Việt Nam.

Ông Lê Ngọc Sơn nhấn mạnh: “Văn hóa chính trị và tầm vóc kinh tế của Việt Nam và Trung Quốc là khác nhau nên khả năng cấm hoàn toàn mạng xã hội nước ngoài là không thể. Mặt khác, với sinh quyển truyền thông của Việt Nam hiện tại, việc cấm sẽ không dễ, thậm chí cấm sẽ dẫn đến tác dụng ngược Hơn thế nữa, với sự hội nhập sâu của Việt Nam như hiện nay, tôi không tin Việt Nam sẽ làm như thế.

Tuy nhiên, càng ngày Việt Nam sẽ càng hoàn thiện hệ thống thể chế pháp luật để đưa hoạt động của mạng xã hội vào quy củ, nhất là với các hành động xâm hại lợi ích người khác, bất hợp pháp. Tôi ủng hộ điều này Tuy nhiên tất cả các hành động tạo hành lang pháp lý như vậy đều phải dựa trên hành lang pháp lý đúng đắn, hướng đến việc tạo điều kiện cho người dân có không gian phát ngôn và hoạt động đúng pháp luật”.

Nguồn: TKNB – 25/09/2019

Những nguy cơ bị che giấu của dữ liệu lớn


Carlo Ratti & Dirk Helbing

Trong lý thuyết trò chơi, cái “giá của sự vô chính phủ” chỉ cách mà những cá thể hành động vì lợi ích của bản thân trong một hệ thống lớn hơn có xu hướng làm giảm hiệu quả của hệ thống này. Đây là một hiện tượng phổ biến, lặp đi lặp lại mà hầu hết chúng ta đều thường xuyên phải đối mặt.

Ví dụ, nếu bạn là một nhà quy hoạch chịu trách nhiệm quản lý giao thông, bạn có hai cách để xử lý lưu lượng giao thông trong thành phố bạn. Thông thường một cách tiếp cận tập trung, từ trên xuống – nắm bắt toàn bộ hệ thống, nhận diện những điểm tắc nghẽn, và tiến hành những thay đổi để loại bỏ các điểm này – đơn giản sẽ hiệu quả hơn là để mỗi người lái xe tự chọn lộ trình với giả định rằng các lựa chọn này, nhìn tổng thể, sẽ đưa đến một kết quả chấp nhận được. Cách tiếp cận thứ nhất giảm thiểu chi phí của sự vô chính phủ và sử dụng tốt hơn tất cả thông tin sẵn có.

Thế giới ngày nay bị tràn ngập dưới khối dữ liệu. Năm 2015, nhân loại tạo ra lượng thông tin nhiều bằng lượng đã được tạo ra trong tất cả những năm trước đó của nền văn minh. Cứ mỗi lần ta nhắn tin, gọi điện hay hoàn tất một giao dịch, ta để lại những dấu vết số. Chúng ta đang tiến nhanh đến điều được nhà văn Italo Calvino, người Italia, bằng linh tính của mình gọi là “ký ức của thế giới”: một bản sao tin học đầy đủ về thế giới vật lý của chúng ta.

Khi Internet mở rộng sang cách lãnh địa khác, nhờ mạng lưới kết nối thiết bị Internet (IoT) của không gian vật lý, cái giá của sự vô chính phủ sẽ trở thành một thước đo thiết yếu trong xã hội chúng ta, và sự cám dỗ để triệt tiêu cái giá này bằng cách vận dụng sức mạnh của phân tích dữ liệu lớn càng lớn mạnh.

Có vô số ví dụ. Xét một hành động bình thường là mua sách trực tuyến thông qua Amazon. Amazon có cả núi thông tin về tất cả các khách hàng sử dụng nó – từ nhân thân của họ, lịch sử các cuộc tìm kiếm thông tin của họ đến các câu được họ tô đậm trên ebook – được công ty dùng để tiên đoán cuốn sách nào khách hàng có thể muốn mua trong lần sau. Cũng giống như mọi hình thức tập trung của trí tuệ nhân tạo, các biến cố đã qua được sử dụng để tiên đoán các biến cố trong tương lai. Amazon biết được mười cuốn sách bạn đã mua và có thể, với một độ xác đáng ngày càng cao, gợi ý cho bạn cuốn sách mà bạn có thể muốn đọc.

Nhưng chúng ta cũng cần phải xem đã mất điều gì khi làm giảm mức độ vô chính phủ. Cuốn sách ý nghĩa nhất bạn phải đọc sau khi đã đọc mười cuốn trước không phải là cuốn khớp hoàn toàn với một mô hình đã được xác định mà đúng hơn phải là cuốn làm bạn kinh ngạc, gây tò mò và suy nghĩ, thách thức bạn nhìn thế giới một cách khác. Dữ liệu lớn nhân các tùy chọn của bạn đồng thời lọc bỏ những đồ vật bạn không muốn tham khảo, nhưng như thế còn đâu là sự phát hiện ngẫu nhiên và phong phú mà kết quả có thể là việc lựa chọn quyển thứ mười một [như được ca ngợi trong cuộc phiêu lưu nổi tiếng của The Three Princes of Serendip].

Ngược lại với các vấn đề giao thông được nhắc đến trên đây, các gợi ý được tối ưu hóa – thường là một tiên đoán tự thực hiện liên quan đến việc mua sắm sắp tới của bạn – không nhất thiết cung cấp mô hình tốt nhất để sở hữu hay tham khảo trực tuyến một cuốn sách.

Điều đúng với việc mua sách trực tuyến cũng đúng với cả ngàn thao tác tin học khác trong các thành phố và xã hội chúng ta. Ngày nay các hệ thống đô thị tập trung sử dụng những thuật toán để theo dõi và kiểm tra các kết cấu hạ tầng đô thị, dù cho đó là đèn đường, lưu lượng xe trên cao tốc hay năng lượng muốn tiết kiệm. Nhiều thị trường trên thế giới vô cùng quan tâm đến ý tưởng một phòng điều khiển trung tâm, như trung tâm ở Rio de Janeiro do IBM thiết kế, nhờ đó các nhà quản lý thành phố có thể hồi đáp theo thời gian thực trước mọi thông tin mới.

Nhưng một khi các thuật toán tập trung có thể xử lý tất cả các mặt của đời sống trong xã hội thì giới kỹ trị có nguồn gốc từ dữ liệu lớn sẽ đe dọa áp đảo sự đổi mới và nhấn chìm nền dân chủ. Bằng mọi giá phải tránh viễn cảnh này. Điều mấu chốt cho sự phong phú của xã hội là các quyết định phải tiếp tục được lấy một cách phi tập trung. Ngược lại, sự tối ưu hóa mà việc thu thập dữ liệu cho phép tiến hành sản sinh ra những giải pháp mà tất cả đều xuất phát từ một mô hình xác định trước. Mô hình này dưới dạng thông thường loại bỏ những ý tưởng phản trực giác có tiềm năng biến đổi mạnh kéo nhân loại lên phía trước.

Một mức độ ngẫu nhiên nhất định trong cuộc đời chúng ta cho phép những ý tưởng và phương thức tư duy mới nổi lên. Đây còn là điều cần thiết ở cấp độ vĩ mô cũng như cần thiết cho cuộc sống. Nếu tự nhiên đã nhờ đến những thuật toán dự báo để ngăn cản những đột biến ngẫu nhiên quá trình tự nhân đôi DNA thì hành tinh chúng ta có lẽ còn ở giai đoạn của một đơn bào cực kỳ tối ưu hóa.

Việc ra quyết định phi tập trung có thể tạo nên sự hợp lực giữa trí tuệ con người và trí tuệ của máy thông qua những quá trình đồng tiến hóa tự nhiên và nhân tạo. Có thể là trong rất ngắn hạn trí tuệ phân phối làm giảm hiệu quả, nhưng cuối cùng sẽ dẫn đến những xã hội đa dạng hơn và bền vững hơn. Cái giá của sự vô chính phủ đáng để trả nếu ch1ung ta muốn gìn giữ sự đổi mới bằng sự bất ngờ.

Người dịch: Nguyễn Đôn Phước

Nguồn: The Hidden Danger of Big Data – Project Syndicate, Aug 16/2016.

Làm thế nào để trở thành một nhà khoa học dữ liệu – Phần cuối


Điều này có nghĩa gì đối với những người cố gắng để tham gia lĩnh vực

Bởi vậy, nếu tôi là một người trẻ tìm cách gia nhập vào khoa học dữ liệu thì những mô tả này sẽ hữu ích đối với tôi như thế nào? Điều này có thể rằng, bạn có thể đào tạo và phát triển một thế mạnh, cái mà sẽ dẫn bạn đến với vai trò của nhà nghiên cứu, nhà phát triển, hoặc nhà sáng tạo. Thường thì hiếm khi chỉ riêng giáo dục sẽ đưa bạn trở thành nhà kinh doanh dữ liệu, điều này hàm ý phải có kinh nghiệm trong kinh doanh, chứ không phải chỉ giáo dục. Nhưng đây là điều thú vị. Theo Harris, Murphy và Vaisman, nó không phải là những kỹ năng khác nhau, mà là cách chúng ta lựa chọn để nhấn mạnh chúng trong cách tiếp cận của chúng ta về các vấn đề khoa học dữ liệu. Biểu đồ của họ như bên dưới.Các kỹ năng đều giống nhau nhưng sự nhấn mạnh chúng ta đặt trên chúng khác nhau. Có lẽ cách tốt hơn để diễn tả điều này là bạn thích trải qua một ngày của mình như thế nào? Lập trình (programming), làm việc trong học máy (machine learning) (thống kê), phân tích và giải quyết các câu hỏi kinh doanh? Câu trả lời của bạn khi mới bước vào khóa học có thể khác với câu trả lời khi bạn đã tham gia khóa học được vài năm, và điều đó là bình thường. Tuy nhiên, bạn biết rằng nếu bây giờ bạn nhận mình là một nhà nghiên cứu dữ liệu thì bạn cần phải tập trung vào các kỹ năng thống kê. Nếu bạn xác định như là một nhà sáng tạo dữ liệu hoặc nhà phát triển dữ liệu thì lập trình và ML/Big Data là một sự nhấn mạnh thích hợp. Và khi bạn có được kinh nghiệm và hiểu rằng mình hạnh phúc hơn khi là một thành viên trong nhóm hay một nhà lãnh đạo doanh nghiệp, bạn có thể thay đổi quan điểm của bạn đối với khả năng sinh lời của dự án và giải pháp cho các vấn đề kinh doanh.

Ở đâu, dữ liệu lớn phù hợp trong tất cả điều này?

Cá nhân tôi yêu Dữ liệu lớn. Nhưng tôi thực sự yêu thích nó vì nó đưa đến những phân tích dự báo. Nếu bạn vẽ một giản đồ Venn của dữ liệu lớn và những phân tích dự báo thì sẽ có một sự trùng lặp lớn nhưng không hoàn toàn. Có những lĩnh vực của dữ liệu lớn thuần túy có tính thao tác và không thuộc phạm vi khoa học dữ liệu. Lấy ví dụ như việc sử dụng các cơ sở dữ liệu NoSQL như các cơ sở dữ liệu hoạt động cấp nguồn cho những trò chơi trực tuyến dành cho rất nhiều người chơi. Không có phân tích gì ở đây. Chỉ vậy là xong. Tương tự như vậy có rất nhiều phạm vi trong phân tích dự báo không dính dáng gì đến dữ liệu.

Tuy nhiên, không có lý do gì mà chúng ta không nên tìm hiểu về dữ liệu lớn trên con đường trở thành nhà khoa học dữ liệu của chúng ta. Chỉ không mong đợi để thấy nó quá nhiều trong đời sống công việc của bạn, trừ khi bạn đang tham gia sâu vào việc sử dụng những trang web lớn giống như Amazon hay Facebook.

Một lần nữa, nhờ Harris, Murphy, và Vaisman chúng ta có thể thấy được các nhà khoa học dữ liệu ngày nay làm việc ở cấp đệ Petabyte (PB) và Terabyte (TB) thường xuyên như thế nào.

Câu trả lời không hề rất thường xuyên tí nào. Cơ sở dữ liệu NoSQL như Mongo đang đạt được sức hút như cách để pha trộn dữ liệu giao dịch và dữ liệu không có cấu trúc và có thể là tương lai. Nhưng thẳng thắn mà nói, về mặt dung lượng, các nhà khoa học dữ liệu thường được làm việc ở quy mô dữ liệu bình thường, chứ không phải dữ liệu lớn.Những công cụ và ngôn ngữ quan trọng

Tài liệu thứ hai mà tôi bất ngờ đọc là blog của Robert A. Muenchen, “The Popularity of Data Analysis Software” (Sự phổ biến của Phần mềm phân tích dữ liệu). Bài này có thể tìm thấy tại r4stats.com và là một bài nữa phải đọc. Cái khác biệt giữa bài viết này so với các bài báo so sánh khác là những phân tích rộng và sâu. Muenchen sử dụng 13 loại phân tích riêng biệt để đánh giá thị phần và mức độ phổ biến và mức tín nhiệm của mình, không cố gắng để làm tương thích các kết quả mà có thể là khá khác nhau tùy theo nguồn. Như ông nói, đây là dnah sách các thước đo “gần đúng theo thứ tự hữu ích”.

1/ Những mẫu tuyển dụng (Job Advertisements)

2/ Những bài báo học thuật (Scholarly Articles)

3/ Những cuốn sách (Books)

4/ Sự phổ biến website (Website Popularity

5/ Các blog (Blogs)

6/ Các cuộc điều tra sử dụng (Surveys of Use)

7/ Hoạt động diễn đàn thảo luận (Discussion Forum Acitivity)

8/ Hoạt động lập trình (Programming Activity)

9/ Các thước đo phổ biến (Popularity Measures)

10/ Các báo cáo doanh nghiệp nghiên cứu công nghệ thông tin (IT Research Firm Reports)

11/ Doanh thu và thước đo tải về (Sales or Download Measures)

12/ Sử dụng cạnh tranh (Competition Use)

13/ Tăng trưởng quy mô (Growth in Capability).

Nếu bạn đã là một học viên trong một thời gian thì hộp công cụ của bạn có lẽ đã được xác định khá tốt. Trường hợp này là thực sự hữu ích trong việc trả lời các câu hỏi của những người mới gia nhập vào lĩnh vực khoa học dữ liệu rằng “những gì tôi nên học cho hữu ích?”Điều này sẽ không can ngăn bạn sử dụng SPSS, SAS, R, hay Python nhưng nó sẽ cho bạn thấy một số xu hướng thú vị. Một lần nữa, bạn sẽ phải đọc blog vì nó quá phong phú về nội dung và nó để cho người đọc đánh giá những kết quả mà đôi khi có vẻ mâu thuẫn. Tuy nhiên, nếu tôi đã cố gắng để trả lời câu hỏi “cái gì tôi nên học” tôi sẽ xem xét ít nhất hai đồ thị những từ blog của Muenchen.

Kể từ khi nhận một công việc, trước khi bạn quan tâm đến việc đầu tư cho giáo dục thì bạn nên nhìn vào toàn bộ danh sách công việc đòi hỏi những kỹ năng phần mềm phân tích cụ thể như là một thứ để mở rộng tầm mắt.

Tương tự như vậy, biểu đồ này dựa trên cuộc điều tra sử dụng dữ liệu đưa ra một cái nhìn rất sâu về những gì các nhà khoa học dữ liệu đang sử dụng ngày nay.Tôi sẽ không cố gắng để trả lời câu hỏi, “tôi nên học cái gì” hay khác hơn là nói rõ Java, R hay Python, SAS hay SPSS? Thành thật mà nói, nhiều khả năng là những gì giáo sư của bạn muốn bạn sử dụng thường là để chứng tỏ một nhà khoa bảng xử lý một phần mềm sẵn có của người bán nó như thế nào.

R hay Python? Tôi không đụng chạm đến vấn đề này ngoại trừ một điều để nói rằng có một biểu đồ thú vị ngụ ý rằng Python đang tăng tốc trước R.

Nếu bạn đang tìm kiếm câu trả lời cho câu hỏi làm thế nào để trở thành một nhà khoa học dữ liệu và những gì bạn nên học, suy nghĩ về điều này như thách thức đầu tiên của bạn. Nghiên cứu tài liệu gốc và rút ra kết luận của riêng bạn. Tôi thấy hạnh phúc khi những tác giả này đã cùng đưa các tài liệu này và hi vọng chúng tiếp tục được cập nhật trong tương lai.

Người dịch: Nguyễn Minh Cao Hoàng

Nguồn: “How to Become A Data Scientist”, Data-Magnum, August 26, 2014.

Làm thế nào để trở thành một nhà khoa học dữ liệu – Phần đầu


Bill Vorhies

Tôi bắt đầu bước chân vào lĩnh vực khoa học dữ liệu đã lâu. Tôi đã trở thành người mô hình hóa các dự báo thương mại từ năm 2001, và do xu hướng đặt tên đã thay đổi nên giờ đây tôi xác định bản thân mình như một nhà khoa học dữ liệu. Không ai trao cho tôi danh hiệu này. Nhưng thông qua việc xem xét các tài liệu, các danh sách công việc và các đồng nghiệp của tôi trong lĩnh vực này đã cho thấy rằng tên gọi nhà khoa học dữ liệu truyền đạt rõ ràng nhất những kiến thức và kinh nghiệm gì của tôi đã khiến tôi trở thành nhà khoa học dữ liệu.

Ngày nay, bạn có thể nhận được một bằng cấp về khoa học dữ liệu, do đó bạn đưa bằng cấp của mình ra để xác nhận lĩnh vực chuyên môn của bạn. Nhưng những điều này cũng tương đối mới, với tất cả sự tôn trọng, nếu bạn chỉ mới nhận bằng cấp của mình gần đây thì bạn vẫn là một người mới bắt đầu. Những người trong chúng ta sử dụng danh hiệu này ngày nay rất có thể bắt nguồn từ sự kết hợp giữa những nền tảng kinh doanh, khoa học chính xác, khoa học máy tính, vận trù học (operations research), với thống kê (statistics).

Bạn tự nhận mình là ai là một chuyện, còn người thuê bạn hay người mà khách hàng của bạn đagn tìm kiếm rất có thể là một chuyện khác. Nhiều tài liệu viết về những nhà khoa học dữ liệu, người mà việc tìm thấy cũng khó như tìm thấy các con kỳ lân. Không thật sự là một con kỳ lân, tôi muốn nói điều này thiết lập một chuẩn mực khá cao. Bên cạnh đó, tôi đã nghiên cứu kỹ các danh sách quá mơ hồ, và với sự hiểu biết hạn hẹp, một mẩu tuyển dụng nhà khoa học dữ liệu lại mô tả công việc như của một nhà phân tích ở mức nhập dữ liệu, ngược lại vài mẩu tuyển dụng các nhà phân tích thì có vẻ như đang tìm kiếm các nhà khoa học dữ liệu uyên bác.

Tất cả sự lộn xộn này vượt qua danh hiệu mà chúng ta được gọi, và những gì chúng tôi thực sự làm có thể khiến cho bạn rơi vào trạng thái tâm thần phân liệt. Điều này khiến cho việc trả lời những câu hỏi mà tôi thường nhận được từ những bạn sinh viên hay từ những người mới vào nghề rằng làm thế nào để trở thành một nhà khoa học dữ liệu càng thêm phức tạp.

Hãy tưởng tượng sự ngạc nhiên và vui sướng của tôi khi chỉ trong vòng một tuần tôi bất ngờ đọc được hai ấn phẩm. Chúng không chỉ mang đến cho tôi luồng sáng mới và sự hiểu biết về câu hỏi này mà còn giúp tôi hiểu rằng không chỉ có duy nhất một định nghĩa về nhà khoa học dữ liệu, mà có một luận cứ chặt chẽ (dựa trên phân tích thống kê) rằng trong thực tế có đến bốn kiểu.

Bốn kiểu nhà khoa học dữ liệu

Thông tin ở đây xuất phát từ bài “Phân tích các nhà phân tích” (Analyzing the Analyzers) của Harris, Murphy, và Vaisman (2013) đăng trên trang O’Reilly. Tôi nể phục những đồng nghiệp này về khảo sát sâu của họ và về những kết luận được đưa ra bởi phân tích thống kê của những kết quả đó. Đây là một bài phải đọc.

Phân tích tốt này có 40 trang nên dưới đây cũng chỉ là một bản tóm tắt ở mức độ cao nhất. Tóm lại, họ kết luận rằng có bốn kiểu nhà khoa học dữ liệu, các kiểu nhà khoa học dữ liệu này không khác nhiều về chiều rộng kiến thức, vốn tương tự nhau, nhưng chiều sâu của lĩnh vực chuyên môn thì khác nhau, và cách mỗi kiểu thích tương tác với những vấn đề khoa học dữ liệu như thế nào cũng khác nhau.

1/ Các nhà kinh doanh dữ liệu.

2/ Các nhà sáng tạo dữ liệu.

3/ Các nhà phát triển dữ liệu.

4/ Các nhà nghiên cứu dữ liệu.

Từ việc đánh giá 22 kỹ năng riêng biệt và những báo cáo tự đánh giá gồm nhiều phần (multi-part self-identification statements) họ đã kết luận và khái quát hóa theo những mô tả này. Tôi dám chắc rằng bạn sẽ nhận ra chính mình thuộc một trong các kiểu này.

Nhà kinh doanh dữ liệu (data businesspeople) là những người tập trung nhất vào tổ chức và làm thế nào để những dự án dữ liệu mang lại lợi nhuận. Họ thường hay đánh giá mình cao như là nhà lãnh đạo và nhà khởi nghiệp, và có nhiều khả năng báo cáo là từng quản lý một nhân viên. Họ cũng khá thường thực hiện hợp đồng hay công việc tư vấn, và một tỉ lệ đáng kể bắt đầu một công việc kinh doanh. Mặc dù trong số những người được khảo sát, họ hiếm khi có một bằng cấp cao, hầu như họ đều có bằng MBA. Nhưng các nhà kinh doanh dữ liệu chắc chắn có kỹ năng kỹ thuật và đặc biệt thường có bằng kỹ sư trình độ đại học. Và họ làm việc với dữ liệu thực – ít nhất khoảng 90% báo cáo thỉnh thoảng họ mới làm việc với các vấn đề ở quy mô Gigabyte (GB).

Các nhà sáng tạo dữ liệu (data creatives). Các nhà khoa học dữ liệu có thể thường giải quyết toàn bộ quá trình phân tích từ đầu đến cuối theo cách thức riêng của họ: từ trích dữ liệu, đến tổng hợp và phân lớp dữ liệu, đến trình bày các phân tích dưới dạng thống kê hay các dạng tiên tiến khác, đến tạo ra cách diễn giải và sự hình dung thuyết phục, đến xây dựng các công cụ khiến cho sự phân tích có khả năng phát triển và ứng dụng rộng rãi. Tôi nghĩ các nhà sáng tạo dữ liệu (Data Creatives) là khái quát nhất của các nhà khoa học dữ liệu, họ là những người xuất sắc trong việc ứng dụng một loạt các công cụ và kỹ thuật cho một vấn đề, hay tạo ra các nguyên mẫu sáng tạo tại các cuộc thi lập trình (hackathons) – một ví dụ hoàn hảo cho câu cái gì cũng biết (Jack of All Trades). Họ có kinh nghiệm học thuật đáng kể, với khoảng ba phần tư có tham gia giảng dạy và các bài báo được báo cáo. Phổ biến là trình độ đại học trong các lĩnh vực như Kinh tế học và Thống kê. Hiếm khi các nhà sáng tạo dữ liệu (Data Creatives) có bằng Tiến sĩ. Là nhóm thường xác định như một Hacker, họ cũng có kinh nghiệm mã nguồn mở sâu nhất (deepest Open Source experience), với khoảng một nửa đóng góp vào các dự án phần mềm nguồn mở (OSS) và một nửa làm việc trên các dự án dữ liệu mở (Open Data projects).

Nhà phát triển dữ liệu (data developer). Chúng tôi nghĩ rằng các nhà phát triển dữ liệu là những người tập trung vào các vấn đề kỹ thuật của dữ liệu quản lý – làm thế nào để có được nó, lưu nó, và học hỏi từ nó. Các nhà phát triển dữ liệu của chúng ta có xu hướng đánh giá mình khá cao như các nhà khoa học, mặc dù không cao như các nhà nghiên cứu dữ liệu (data researchers). Điều này có ý nghĩa đặc biệt đối với những người tích hợp chặt chẽ với Học Máy (Machine Learning) và cộng đồng học thuật có liên quan. Nhà phát triển dữ liệu rõ ràng viết code trong công việc hằng ngày của họ. Khoảng một nửa trong số họ có bằng khoa học máy tính hay kỹ sư máy tính. Các nhà phát triển dữ liệu có nhiều đất sống hơn trong lĩnh vực Học Máy/nhóm kỹ năng dữ liệu lớn so với các kiểu khác của nhà khoa học dữ liệu.

Các nhà nghiên cứu dữ liệu (data researchers). Một trong những con đường nghề nghiệp thú vị dẫn đến danh hiệu “nhà khoa học dữ liệu” bắt đầu với nghiên cứu học thuật trong các ngành khoa học vật lý hay xã hội, hoặc trong ngành thống kê. Nhiều tổ chức đã nhận ra giá trị cảu việc đào tạo có tính học thuật sâu trong việc sử dụng các dữ liệu để hiểu các quá trình phức tạp, dù là lĩnh vực kinh doanh của họ có thể khác biệt khá nhiều so với các lĩnh vực khoa học cổ điển. Phần lớn những người có nhóm kỹ năng về thống kê tốt nhất trong số những người có nhóm kỹ năng về thống kê tốt nhất trong số những người được khảo sát đều rơi vào hạng mục này. Gần 75% các nhà nghiên cứu dữ liệu đã có công trình công bố trên tạp chí có bình duyệt và hơn một nửa trong số họ có bằng Tiến sĩ.

(còn tiếp) 

Người dịch: Nguyễn Minh Cao Hoàng

Nguồn: “How to Become A Data Scientist”, Data-Magnum, August 26, 2014.

Dữ liệu lớn: Có phải chúng ta đang lầm to? – Phần cuối


Tuy nhiên, dữ liệu mà ứng dụng Street Bump thực sự tạo ra, được lưu lại trên các thiết bị có cài ứng dụng này, là sơ đồ ổ gà tập trung một cách có hệ thống ở những vực trẻ, giàu có, là nơi có nhiều người sở hữu điện thoại thông minh. Ứng dụng Street Bump cho chúng ta bộ dữ liệu lớn “N = Tất cả” theo nghĩa là ghi nhận lại từng cái xóc nảy của từng chiếc điện thoại có cài đặt ứng dụng. Việc này không giống như việc ghi nhận lại từng cái ổ gà. Kate Crawford, nghiên cứu viên của Microsoft, chỉ rõ rằng dữ liệu được tìm thấy ẩn chứa những độ chệch mang tính hệ thống và phải thật cẩn trọng mới có thể phát hiện và khắc phục chúng. Các bộ dữ liệu lớn dường như có tính bao hàm như “N = Tất cả” thường chỉ là sự huyễn hoặc quyến rũ.

Tuy nhiên, ai bận tâm đến quan hệ nhân quả hay độ chệch khi chọn mẫu trong khi người ta có thể kiếm tiền từ dữ liệu lớn? Các tập đoàn trên khắp thế giới ắt hẳn là thèm nhỏ dãi khi họ chiêm ngắm thành công thần kỳ của chuỗi cửa hàng bách hóa Target của Mỹ, Charles Duhigg đã tường thuật thành công của Target bằng một bài viết đình đám trên tờ The New York Times vào năm 2012. Duhigg lý giải rằng Target đã thu thập rất nhiều dữ liệu về khách hàng của họ, và Target rất tài tình khi phân tích bộ dữ liệu đó, và Target cực kỳ thấu hiểu khách hàng.

Giai thoại chết người của Duhigg là về một người đàn ông đã xông vào cửa hàng Target gần Minneapolis và phàn nàn với người quản lý về việc công ty gửi phiếu giảm giá mặt hàng quần áo trẻ sơ sinh và thời trang thai sản cho cô con gái tuổi teen của ông. Người quản lý đã xin lỗi rối rít và sau đó còn gọi điện xin lỗi thêm lần nữa – mục đích chỉ là muốn nghe người cha thú nhận rằng cô gái tuổi teen thực sự đang mang thai. Cha cô gái không biết con mình có thai. Target thì biết sau khi họ phân tích các giao dịch mua khăn giấy ướt không mùi và thuốc bổ sung magiê của cô gái.

Huyền thuật thống kê ư? Có một cách lý giải thực tế hơn.

Theo Kaiser Fung,, người đã bỏ ra nhiều năm nghiên cứu phát triển các phương pháp tương tự cho những nhà bán lẻ và các công ty quảng cáo, thì “Có rất nhiều vấn đề tưởng thật nhưng là sai lầm”. Ý Fung muốn nói là người ta đã không nhắc đến vô số câu chuyện về những phụ nữ nhận phiếu giảm giá mặt hàng quần áo trẻ sơ sinh nhưng lại không đang mang thai.

Căn cứ vào các giai thoại, người ta dễ ngộ nhận rằng các thuật toán của Target không bao giờ sai – bất cứ ai nhận được phiếu giảm giá mặt hàng áo liền quần của trẻ sơ sinh và khăn giấy ướt đều đang mang thai. Rõ ràng không đúng. Thực tế, những phụ nữ đang mang thai nhận được phiếu giảm giá chỉ đơn giản vì Target đã gửi phiếu giảm giá đến toàn bộ khách hàng trong danh sách của họ. Trước tiên, chúng ta không nên đồng tình với suy nghĩ cho rằng Target sử dụng những nhân viên đọc được suy nghĩ của khách hàng rồi mới ngồi đếm xem mỗi lần đúng thì có mấy lần sai.

The cách lý giải của Charles Duhigg, Target xáo trộn các phiếu giảm giá ngẫu nhiên, ví dụ như phiếu giảm giá mặt hàng ly uống rượu, vì các khách hàng đang mang thai sẽ cảm thấy kinh sợ nếu họ nhận ra máy tính công ty hiểu họ tường tận như thế nào.

Fung còn có một cách lý giải khác: Target xáo trộn các phiếu giảm giá không phải vì họ sợ gửi tập phiếu giảm giá toàn mặt hàng trẻ sơ sinh cho một phụ nữ đang mang thai nào đó mà vì công ty biết rằng trong số các tập phiếu giảm giá đó rốt cuộc sẽ có nhiều tập đến tay những người phụ nữ đang không mang thai.

Những cách lý giải trên không có ý phủ nhận giá trị của việc phân tích dữ liệu khách hàng: các phân tích kiểu như vậy có thể sinh ra lợi nhuận rất đáng kể. Thậm chí khi mức độ chính xác của việc gửi phiếu giảm giá đặc biệt có mục tiêu xác định gia tăng lên chút ít cũng là một thành tựu đáng kể để phấn đấu. Tuy nhiên, không nên kết hợp khả năng sinh lời với sự toàn tri.

Năm 2005, John Ioannidis, chuyên gia dịch tễ học, đã công bố một bài nghiên cứu có tiêu đề rõ ràng đến mức không cần giải thích gì thêm, “Why Most Published Research Findings Are False” (Tại sao hầu hết các kết quả nghiên cứu đều sai). Bài nghiên cứu nổi đình nổi đám vì đã lột tả một vấn đề hệ trọng một cách đầy khiêu khích. Một trong các ý tưởng chủ chốt đằng sau công trình của Ioannidis chính là “vấn đề kiểm định nhiều giả thuyết” theo ngôn ngữ của các chuyên gia thống kê.

Khi khảo sát một mô thức trong dữ liệu, người ta thường đặt câu hỏi về khả năng mô thức đó xuất hiện một cách ngẫu nhiên. Nếu mô thức được quan sát ít có khả năng xảy ra một cách ngẫu nhiên, thì mô thức đó “có ý nghĩa thống kê”.

Vấn đề kiểm định nhiều giả thuyết xuất hiện khi một nhà nghiên cứu xem xét nhiều mô thức khả dĩ cùng một lúc. Xét một ví dụ về thực nghiệm ngẫu nhiên, theo đó người ta phát vitamin cho một số học sinh tiểu học, số khác được phát cho giả dược. Liệu rằng vitamin có tác dụng không? Câu trả lời hoàn toàn phụ thuộc vào việc chúng ta hiểu “tác dụng” là như thế nào. Các nhà nghiên cứu có thể nhìn vào chiều cao, cân nặng của trẻ, tỉ lệ sâu răng, hành vi trong lớp học, điểm kiểm tra, thậm chí là lý lịch tư pháp hoặc thu nhập khi 25 tuổi (chờ đến khi trẻ trưởng trẻ giàu, trẻ trai, trẻ gái hay không? Việc kiểm định đầy đủ các tương quan khác nhau và các kết quả may ra mới trúng sẽ nhấn chìm mọi khám phá thực sự.

Có nhiều cách giải quyết nhưng vấn đề lại càng trầm trọng hơn đối với các bộ dữ liệu lớn, vì có nhiều giả thuyết để kiểm định hơn là có nhiều dữ liệu để kiểm định. Nếu không phân tích cẩn thận, tỉ lệ mô thức thực sự so với mô thức giả tạo – một dấu hiệu của nhiễu – sẽ nhanh chóng tiến về 0.

Tệ hại hơn nữa, một trong các liều thuốc giải đối với vấn đề nhiều giả thuyết là sự minh bạch, cho phép những nhà nghiên cứu khác xác định số lượng giả thuyết được kiểm định và số lượng kết quả trái ngược đang mòn mỏi đợi chờ trong các ngăn kéo vì chúng có vẻ không hấp dẫn để công bố rộng rãi. Nhưng, dữ liệu được tìm thấy hiếm khi được bạch hóa. Amazon và Google, Facebook và Twitter, Target và Tesco – những công ty này không sẵn sàng chia sẻ thông tin với bạn hay với bất kỳ ai khác.

Các bộ dữ liệu mới, đồ sộ, rẻ tiền và các công cụ phân tích mạnh mẽ sẽ tạo ra tiền cổ tức – không ai nghi ngờ điều này. Và có một vài trường hợp, việc phân tích dữ liệu lớn đã mang lại kết quả thần kỳ. David Spiegelhalter đến từ Cambridge đề cập đến Google Translate, một công cụ vận hành bằng cách phân tích thống kê hàng trăm triệu tài liệu đã được con người chuyển ngữ và tìm kiếm mô thức mà nó có thể sao chép. Đây là ví dụ về “học máy” (machine learning) theo ngôn ngữ của các nhà khoa học máy tính, và công cụ dịch có thể cho ra các kết quả đáng kinh ngạc mà không cần đến những nguyên tắc ngữ pháp được lập trình sẵn. Công cụ dịch này của Google gần giống chiếc hộp đen chứa các thuật toán vận hành dựa vào dữ liệu và không bị chi phối bởi lý thuyết – và theo Spiegelhalter thì đó là “một thành tựu tuyệt vời”. Thành tựu đó được tạo ra trên nền tảng xử lý khéo léo các bộ dữ liệu khổng lồ.

Nhưng dữ liệu lớn không giúp giải quyết vấn đề đã ám ảnh các chuyên gia thống kê và các nhà khoa học trong nhiều thế kỷ qua: vấn đề thấu hiểu, vấn đề suy diễn điều gì đang xảy ra, và vấn đề xác định cách thức chúng ta có thể can thiệp nhằm cải thiện hệ thống.

Giáo sư David Hand đến từ trường Imperial College London nói rằng: “Chúng ta có một nguồn lực mới ở đây”. “Nhưng không ai muốn có “dữ liệu” đơn thuần cả. Cái họ muốn là các câu trả lời”.

Các phương pháp thống kê cần phải có những bước tiến dài để có thể làm được điều ấy.

Patrick Wolfe đến từ trường Đại học London (London College) phát biểu rằng: “Hiện trạng còn rất hoang sơ”. “Những người khôn ngoan và có động cơ sẽ xoay sở và tận dụng mọi công cụ khiến cho các bộ dữ liệu này lên tiếng, và quả là tuyệt vời. Nhưng trước mắt, chúng ta vẫn đang mò mẫm”.

Các chuyên gia thống kê đang vật lộn để phát triển các phương pháp mới nhằm đón bắt cơ hội của dữ liệu lớn. Chúng ta cần những phương pháp mới đó, nhưng chúng ta không được bỏ qua mà phải lấy các bài học thống kê truyền thống làm nền tảng phát triển các phương pháp mới để chúng có thể phát huy tác dụng.

Nhắc lại tuyên bố khẳng định của dữ liệu lớn. Độ chính xác kỳ lạ dễ thổi phồng kết quả nếu chúng ta lờ đi các trường hợp tưởng thật nhưng là sai lầm, như trường hợp dự báo về thai kỳ của Target. Tuyên bố cho rằng quan hệ nhân quả “đã bị hạ bệ” là đúng nếu chúng ta dự báo trong môi trường ổn định, nhưng lại là sai nếu thế giới biến động không ngừng (như trường hợp Dịch cúm) hay khi bản thân chúng ta muốn thay đổi thế giới. Sự hứa hẹn “N = Tất cả”, và do đó mà vấn đề độ chệch khi lấy mẫu không còn nữa, lại không đúng trong hầu hết các trường hợp được nhắc đến. Quan điểm cho rằng “khi có đủ dữ liệu trong tay, các con số sẽ nói lên tất cả” có vẻ chất phác một cách tuyệt vọng khi gặp phải những bộ dữ liệu mà các mô thức giả tạo lấn át các khám phá thực sự.

Thời đại “dữ liệu lớn” đã đến, nhưng thời đại của nhận thức sâu sắc thì chưa. Thách thức hiện tại là giải quyết các vấn đề mới và tìm được các câu trả lời mới mà không lặp lại những sai lầm về mặt thống kê trên một quy mô lớn hơn bao giờ hết.

Người dịch: Trần Thị Minh Ngọc

Nguồn: Big data: are we making a big mistaker? – FT Magazine, 28/03/2014.

Dữ liệu lớn: Có phải chúng ta đang lầm to? – Phần II


Tuy nhiên, một phân tích chỉ chú trọng sự tương quan không dựa trên nền tảng lý thuyết rõ ràng là không bền vững. Nếu bạn không hiểu điều gì ẩn đằng sau sự tương quan, thì bạn sẽ không biết tại sao sự tương quan đó bị phá vỡ. Một cách lý giải cho sự thất bại của Flu Trends chính là các bản tin đầy rẫy các câu chuyện đáng sợ về dịch cúm vào tháng 12/2012 và những câu chuyện đó đã kích thích những người khỏe mạnh tìm kiếm thông tin trên Internet. Một cách lý giải khác chính là thuật toán gợi ý tìm kiếm của Google đã dẫn dắt chệch mục tiêu khi Google bắt đầu đề xuất các chẩn đoán một cách tự động khi người ta nhập các triệu chứng bệnh vào.

Google Flu Trends sẽ phục hồi lại, sẽ được hiệu chuẩn lại bằng dữ liệu mới – và phải như vậy. Có nhiều lý do để vui mừng về các cơ hội lớn hơn được tạo ra cho chúng ta khi chúng ta dễ dàng thu thập và phân tích các bộ dữ liệu đồ sộ. Nhưng nếu chúng ta không rút được bài học gì từ sự cố này, chúng ta sẽ lại mắc sai lầm.

Các chuyên gia thống kê đã mất 200 năm để phát hiện những cạm bẫy chực chờ khi chúng ta tìm cách thấu hiểu thế giới bằng dữ liệu. Ngày nay, dữ liệu trở nên lớn hơn, nhanh hơn và rẻ hơn – nhưng chúng ta không được huyễn hoặc rằng các cạm bẫy giờ đây đã bị vô hiệu hóa. Cạm bẫy nguy hiểm vẫn chờ chực.

….

Năm 1936, Alfred Landon thuộc Đảng Cộng hòa đã ra tranh cử cùng Tổng thống Franklin Delano Roosevelt. The Literary Digest, một tạp chí uy tín, nhận lãnh trách nhiệm dự báo kết quả bầu cử. Tạp chí này đã thực hiện một cuộc thăm dò ý kiến dư luận hết sức tham vọng qua      đường bưu điện, mục tiêu đặt ra là phải tiếp cận được 10 triệu người, chiếm 1/4 toàn bộ lực lượng cử tri. Lượng thư phản hồi đổ về ào ạt ngoài sức tưởng tượng, nhưng The Literary Digest dường như thích thú với khối lượng công việc khổng lồ này. Vào cuối tháng 8, tạp chí đã tường thuật rằng: “Tuần sau, những phản hồi đầu tiên trong số 10 triệu thư phản hồi này sẽ khơi dòng cho luồng phiếu được đánh dấu, sẽ được kiểm tra ba lần, được đối chiếu, được phân loại chéo năm lần và được tổng hợp”.

Sau khi lập biểu thống kê 2,4 triệu phản hồi được gửi về trong hơn hai tháng, một con số đáng kinh ngạc, tạp chí The Literary Digest đã công bố kết quả khảo sát của họ: Landon sẽ thắng với tỷ lệ thuyết phục 55% so với 41%, một số ít cử tri còn lại ủng hộ ứng viên thứ ba.

Kết quả cuối cùng của cuộc bầu cử lại khác hoàn toàn: Roosevelt đã đè bẹp Landon với tỉ lệ 61% so với 37%. Sự đau đớn ê chề của tạp chí The Literary Digest chưa dừng lại ở đó, một cuộc điều tra có quy mô nhỏ hơn rất nhiều do George Gallup, một người tiên phong trong thăm dò dư luận, thực hiện đã có kết luận khá sát với kết quả bầu cử thực tế, dự báo được chiến thắng dễ dàng của Roosevelt. Ông Gallup đã nắm bắt được một số điều mà tạp chí The Literary Digest không biết. Nói đến dữ liệu, kích cỡ không quyết định tất cả.

Các cuộc thăm dò dư luận căn cứ trên các mẫu rút ra từ toàn bộ lực lượng cử tri. Điều này có nghĩa là những người thăm dò dư luận cần phải giải quyết hai vấn đề: sai số khi lấy mẫu (sample error) và độc chệch khi chọn mẫu (sample bias).

Sai số khi lấy mẫu thể hiện rủi ro, hoàn toàn ngẫu nhiên, mẫu được chọn ngẫu nhiên không phản ánh quan điểm thực của tổng thể. “Biên độ sai số” được báo cáo trong các cuộc thăm dò dư luận phản ánh rủi ro này và khi mẫu càng lớn thì biên độ sai số càng nhỏ. 1000 cuộc phỏng vấn là một mẫu đủ lớn phục vụ được nhiều mục đích và ông Gallup cho biết ông đã thực hiện 3000 cuộc phỏng vấn.

Nhưng nếu 3000 cuộc phỏng vấn cho ra kết quả tốt, vậy thì tại sao 2,4 triệu cuộc phỏng vấn lại không có được kết quả sát hơn? Câu trả lời là sai số khi lấy mẫu có một người bạn hết sức nguy hiểm: độ chệch khi chọn mẫu. Sai số khi lấy mẫu xuất hiện khi mẫu được chọn ngẫu nhiên không phản ánh được tổng thể một cách hoàn toàn ngẫu nhiên; độ chệch khi chọn mẫu xuất hiện khi mẫu hoàn toàn không được chọn một cách ngẫu nhiên. George Gallup đã phải tốn nhiều công sức để tìm mẫu không bị chệch vì ông hiểu rằng có được mẫu không chệch quan trọng hơn mẫu lớn.

Tạp chí The Literary Digest, trong quá trình săn tìm toàn bộ dữ liệu lớn hơn, đã vụng về chọn phải một mẫu bị chệch. Tạp chí này đã gửi biểu mẫu cho những người trong danh sách mà họ tập hợp được từ danh sách đăng kiểm xe hơi và từ danh bạ điện thoại – vào năm 1936 thì mẫu này gồm toàn những người giàu có so với mặt bằng chung. Độ chệch càng trầm trọng hơn khi những người ủng hộ Landon có nhiều khả năng gửi thư phản hồi hơn. Sự cộng hưởng của hai độ chệch này đủ kết liễu cuộc thăm dò của tạp chí The Literary Digest. Cứ mỗi người mà chuyên gia thăm dò ý kiến dư luận của George Gallup phỏng vấn, thì tạp chí The Literary Digest nhận được 800 thư phản hồi. Điều khiến họ đau đớn ê chề chính là việc họ ước lượng được một kết quả sai lầm cực kỳ chính xác.

Dữ liệu lớn tiếp tục đe dọa tạp chí The Literary Digest hết lần này đến lần khác. Do các bộ dữ liệu được tìm thấy rất lộn xộn, khó lòng mà phát hiện ra các độ chệch ẩn núp bên trong – và do chúng quá đồ sộ, nên các chuyên gia phân tích dường như đã kết luận rằng vấn đề chọn mẫu  không đáng lo. Đáng lo chứ.

Giáo sư Viktor Mayer-Schӧnberger đến từ Viện Internet của Oxford, đồng tác giả cuốn Big Data, đã nói với tôi rằng định nghĩa về dữ liệu lớn mà ông ưa thích chính là “N = Tất cả” – nghĩa là chúng ta không cần lấy mẫu nữa, chúng ta có toàn bộ tổng thể. Những người kiểm phiếu không ước lượng kết quả bầu cử bằng cách kiểm đến đại diện: họ đếm phiếu bầu – tất cả phiếu bầu. Và khi “N = Tất cả” thì thực sự không hề có vấn đề độ chệch khi chọn mẫu do mẫu bao gồm mọi quan sát.

Nhưng có phải “N = Tất cả” là mô tả phù hợp dành cho các bộ dữ liệu được tìm thấy mà chúng ta đang xét đến? Có lẽ là không. “Tôi sẽ thách thức quan niệm cho rằng người ta có thể có tất cả các dữ liệu”, lời của Patrick Wolfe, nhà khoa học máy tính và là giáo sư thống kê của trường Đại học London (London College).

Lấy ví dụ trường hợp của Twitter. Về mặt nguyên tắc, mỗi một tin nhắn trên Twitter có thể được lưu lại và phân tích, và được sử dụng để rút ra kết luận về tâm tư nguyện vọng của công chúng. (Trong thực tế, hầu hết các nhà nghiên cứu khi sử dụng một tập con của cái “vòi rồng” dữ liệu khổng lồ đó mà thôi). Nhưng trong khi chúng ta có thể xem xét tất cả các dòng trạng thái, thì những người dùng Twitter lại không đại diện cho toàn bộ tổng thể. (Theo Dự án Nghiên cứu Internet của Pew, vào năm 2013, những người dùng Twitter cư trú ở Hoa Kỳ đa phần là người trẻ tuổi, sống ở thành thị hay ngoại ô, và da đen).

Phải luôn luôn đặt câu hỏi ai và cái gì còn thiếu sót, đặc biệt là khi sử dụng một đống lộn xộn dữ liệu được tìm thấy. Kaiser Fung, chuyên gia phân tích dữ liệu và là tác giả cuốn Numbersense (Ý nghĩa của con số), đưa ra cảnh báo khi chúng ta giả định một cách đơn giản rằng chúng ta có trong tay tất cả mọi thứ cần thiết. Ông cho rằng: “N = Tất cả” thường là một giả định chứ không là một sự kiện về dữ liệu”.

Xét trường hợp ứng dụng Street Bump của thành phố Boston trên điện thoại thông minh, ứng dụng này sử dụng gia tốc kế của điện thoại để phát hiện ra ổ gà mà không cần lực lượng nhân công của thành phố đi tuần tra các tuyến đường. Khi người dân Boston tải ứng dụng và lái xe lòng vòng, điện thoại của họ sẽ tự động báo cho Tòa thị chính biết liệu có cần phải tu sửa mặt đường hay không. Việc giải quyết các thách thức về mặt kỹ thuật có liên quan đã tạo ra các dấu vết giàu thông tin giúp khắc phục vấn đề một cách đẹp mắt mà người ta không thể mường tượng được ở thời điểm cách đây một vài thập kỷ. Thành phố Boston tự hào tuyên bố rằng “dữ liệu cung cấp cho thành phố thông tin được cập nhật mới liên tục, thành phố sử dụng thông tin này để khắc phục những bất ổn và hoạch định các dự án đầu tư dài hạn”.

(còn tiếp) 

Người dịch: Trần Thị Minh Ngọc

Nguồn: Big data: are we making a big mistaker? – FT Magazine, 28/03/2014.

Dữ liệu lớn: Có phải chúng ta đang lầm to? – Phần I


Tim Harford

Dữ liệu lớn là thuật ngữ mơ hồ chỉ một hiện tượng có quy mô đồ sộ đã nhanh chóng trở thành mối quan tâm thường trực của các chủ doanh nghiệp, các nhà khoa học, các chính phủ và giới truyền thông.

Cách đây năm năm, một nhóm các nhà nghiên cứu của Google đã công bố một kết quả nghiên cứu đáng chú ý trên tạp chí Nature, một trong các tạp chí khoa học hàng đầu thế giới. Không cần sử dụng đến kết quả của bất cứ chương trình khám sức khỏe nào, ấy vậy mà họ vẫn có thể theo dõi được sự lây lan của dịch cúm trên khắp nước Mỹ. Không chỉ vậy, họ còn có thể làm được điều này nhanh hơn cả các trung tâm kiểm soát và phòng ngừa ịch bệnh (Centers for Disease Control and Prevention – CDC). Google lần theo dấu vết và báo cáo kết quả chỉ sau một ngày, trong khi CDC phải mất một tuần hoặc lâu hơn để tổng hợp tình hình dựa trên báo cáo của các phòng mạch. Google đã nhanh hơn vì nó theo dõi sự bùng phát của dịch cúm bằng cách lần ra sự tương quan giữa nội dung người ta tìm kiếm trực tuyến và hiệu chứng nhiễm cúm của người dùng.

“Google Flu Trends” (Công cụ dự báo dịch cúm của Google) không những nhanh, chính xác và rẻ tiền, mà lại không bị chi phối bởi lý thuyết nào cả. Các kỹ sư của Google đã không phải bận tâm xây dựng giả thuyết về từ khóa nào – “các triệu chứng cúm” hay “các hiệu thuốc gần nhà” – có thể tương quan với sự lây lan của dịch bệnh. Nhóm kỹ sư của Google chỉ chọn ra 50 triệu từ khóa phổ biến nhất và phần việc còn lại do các thuật toán đảm nhiệm.

Sự thành công của Google Flu Trends đã trở thành biểu trưng cho một xu hướng mới nổi bật trong kinh doanh, công nghệ và khoa học: “Dữ liệu lớn”. Các nhà báo phấn khởi hỏi rằng: Giới khoa học có thể học được gì từ Google?

So với nhiều thuật ngữ thời thượng, “dữ liệu lớn” là một thuật ngữ mơ hồ, thường được giới kinh doanh bàn tán đến. Một số người nhấn mạnh quy mô đồ sộ của các bộ dữ liệu hiện hữu – ví dụ như hệ thống máy tính của máy gia tốc hạt lớn (LHC hay Large Hadron Collider) lưu trữ 15 Petabytes dữ liệu mỗi năm, tưng đương với dung lượng của kho nhạc yêu thích của bạn được tải trong 15.000 năm.

Nhưng loại “dữ liệu lớn” đang thu hút sự quan tâm của nhiều công ty có thể được xem là “dữ liệu tìm được” từ các tập tin kỹ thuật số do các trình duyệt tạo ra chúng ta khi lướt web, từ các giao dịch thanh toán bằng thẻ tín dụng và từ các thiết bị di động kết nối với cột ăngten điện thoại gần nhất. Google Flu Trends được xây dựng trên nền tảng các dữ liệu tìm được và chính loại dữ liệu này mới là loại tôi quan tâm ở đây. Các bộ dữ liệu như vậy thậm chí còn lớn hơn dữ liệu của LHC – dữ liệu của Facebook là dữ liệu lớn – nhưng điều đáng chú ý chính là việc thu thập loại dữ liệu này không mấy tốn kém khi xét trong tương quan với quy mô của chúng. Các bộ dữ liệu lớn là sự chắp nối lộn xộn các đơn vị dữ liệu được thu thập cho nhiều mục đích khác nhau và được cập nhật liên tục theo thời gian thực. Khi hoạt động truyền thông, giải trí và thương mại được đẩy lên Internet và Internet được tích hợp trên điện thoại, trong xe hơi và thậm chí trên kính đeo mắt của chúng ta, cuộc sống có thể được lưu lại và được phân tích theo cách thức mà chỉ cách đây một thập kỷ thôi con người khó lòng mà hình dung ra.

Những người cổ vũ cho dữ liệu lớn đã đưa ra bốn tuyên bố khẳng định thú vị, tuyên bố nào cũng mang lại thành công của Google Flu Trends: thứ nhất, việc phân tích dữ liệu lớn tạo ra các kết quả chính xác đến kỳ lạ; thứ hai, có thể nắm bắt không sót một đơn vị dữ liệu nào, khả năng này khiến cho kỹ thuật thống kê chọn mẫu truyền thống trở nên lỗi thời; thứ ba, không còn phải băn khoăn đâu là nhân đâu là quả nữa, bởi vì sự tương quan về mặt thống kê sẽ cho chúng ta biết những gì chúng ta cần biết; và thứ tư, các mô hình khoa học hay các mô hình thống kê không còn cần thiết nữa vì “khi có đủ dữ liệu trong tay, các con số sẽ nói lên tất cả” (nội dung trong ngoặc kép được trích trong bài “The End of Theory” (Sự cáo chung của lý thuyết)), một bài luận đầy khiêu khích đăng trên Wired năm 2008.

Chẳng may, trong tình huống tốt nhất thì bốn tuyên bố khẳng định trên mang lại sự giản tiện hóa cao độ khả quan. Trong tình huống xấu nhất, theo David Spiegelhalter, Giáo sư Winton nghiên cứu Hiểu biết của Công chúng về Rủi ro tại Đại học Cambridge, thì dữ liệu lớn có thể là “thứ rác rưởi đơn thuần. Hoàn toàn vô nghĩa”.

Dữ liệu tìm được hình thành nên cơ sở vững chắc cho nền kinh tế Internet mới khi các công ty như Google, Facebook và Amazon tìm kiếm những phương cách mới nhằm hiểu thấu cuộc sống của chúng ta thông qua các dấu vết được lưu lại khi chúng ta lướt web. Kể từ khi Edward Snowden tiết lộ bí mật về quy mô và phạm vi hành vi theo dõi của Hoa Kỳ bằng các thiết bị điện tử, chúng ta càng thấy rõ các dịch vụ an ninh cũng chỉ quan tâm đến những thông tin mà họ thu thập được từ các dấu vết chúng ta để lại khi lướt web mà thôi.

Các chuyên gia tư vấn thúc giục những ai thờ ơ với dữ liệu cần phải tỉnh ngộ trước tiềm năng của dữ liệu lớn. Một báo cáo gần đây của Viện McKinsey Toàn cầu đã ước lượng rằng hệ thống chăm sóc sức khỏe của Hoa Kỳ đã có thể tiết kiệm 300 tỷ USD mỗi năm – tức 1000 USD tính bình quân trên mỗi công dân Hoa Kỳ – thông qua việc tích hợp và phân tích dữ liệu được sinh ra từ các thử nghiệm lâm sàng, các giao dịch bảo hiểm y tế cho đến các đôi giày chạy bộ thông minh.

Nhưng trong khi dữ liệu lớn hứa hẹn nhiều triển vọng dành cho các nhà khoa học, các doanh nhân và các chính phủ, thì chính dữ liệu lớn sẽ làm chúng ta thất vọng nếu chúng ta không quan tâm đến những bài học thống kê hết sức quen thuộc.

Spiegelhalter cho rằng: “Có rất nhiều vấn đề của dữ liệu nhỏ mà dữ liệu lớn cũng phải đối mặt”. “Các vấn đề đó không tiêu biến đi vì bạn có trong tay nhiều dữ liệu. Dữ liệu càng lớn, các vấn đề đó càng trầm trọng hơn”.

Bốn năm sau khi bài báo nguyên thủy được công bố trên tạp chí Nature, Bản Tin của tạp chí Nature đã loan báo một tin không hay: đợt bùng phát gần nhất của dịch cúm đã tấn công một nạn nhân bất ngờ: Google Flu Trends. Qua nhiều mùa đông cung cấp báo cáo chính xác và nhanh chóng về các đợt bùng phát của dịch cúm một cách đáng tin cậy, thì mô hình không bị chi phối bởi lý thuyết và có nguồn dữ liệu phong phú đã không còn đánh hơi được dịch cúm đang lan tới đâu. Mô hình của Google đã chỉ ra một đợt bùng phát dữ dội, nhưng khi dữ liệu chậm mà chắc của CDC đổ về thì người ta phát hiện ra rằng các ước lượng của Google về sự lây lan của những căn bệnh có vẻ như cúm đã bị khuếch đại lên gần như gấp 2 lần.

Vấn đề là Google không biết – không thể có sự khởi đầu để biết – điều gì đã tạo ra sự tương quan các từ khóa với sự lây lan của dịch cúm. Các kỹ sư của Google đã không cố gắng tìm hiểu đâu là nhân đâu là quả. Họ hầu như chỉ tìm ra các mô thức mang tính thống kê trong dữ liệu. Họ quan tâm đến tương quan hơn là nhân quả. Điều này khá phổ biến trong các phân tích sử dụng dữ liệu lớn. Xác định đâu là nhân đâu là quả không hề dễ dàng (một số người còn cho là bất khả). Xác định sự tương quan lại ít tốn kém và dễ dàng hơn. Theo nội dung cuốn sách Big Data của Viktor Mayer-Schӧnberger và Kenneth Cukier, đó chính là lý do tại sao “quan hệ nhân quả sẽ không bị vứt bỏ, nhưng lại đang bị hạ bệ, không còn được coi là cội nguồn của ý nghĩa nữa”.

(còn tiếp) 

Người dịch: Trần Thị Minh Ngọc

Nguồn: Big data: are we making a big mistaker? – FT Magazine, 28/03/2014.

Quản trị dữ liệu, kiến thức dữ liệu và quản lý chất lượng dữ liệu – Phần cuối


Kiến thức dữ liệu, như được hiểu theo Hiệp hội Thư viện đại học và nghiên cứu, tập trung vào việc tìm hiểu cách tìm và đánh giá dữ liệu, nhấn mạnh đến phiên bản của tập dữ liệu nhất định và người chịu trách nhiệm về nó, và không bỏ qua các câu hỏi trích dẫn và sử dụng dữ liệu có đạo đức.

Xem xét tất cả các định nghĩa này, kiến thức dữ liệu có thể được định nghĩa là một bộ kỹ năng và kiến thức cơ bản, trao quyền cho các cá nhân biến dữ liệu thành thông tin và thành kiến thức có thể thực hiện bằng cách cho phép họ truy cập, giải thích, đánh giá, quản lý và sử dụng dữ liệu một cách có đạo đức.

Searle (2015) xác định kiến thức dữ liệu là một trong các hoạt động dịch vụ dữ liệu nghiên cứu hỗ trợ các nhà nghiên cứu xây dựng các kỹ năng và kiến thức cần thiết để quản lý dữ liệu tốt. Do đó, chúng ta có thể nói rằng kiến thức dữ liệu có liên quan thực tế đến tất cả các quy trình được dịch vụ dữ liệu nghiên cứu quy định, và xây dựng khung chính cho sự tham gia của các thư viện trong việc hỗ trợ mô hình nghiên cứu chuyên sâu về dữ liệu. Các dịch vụ dữ liệu nghiên cứu chắc chắn là toàn diện, do đó bao gồm các khía cạnh của chúng làm cho kiến thức dữ liệu rộng khắp và toàn diện.

Khi xem xét kiến thức dữ liệu gần với kiến thức thông tin, phải suy ngẫm xem liệu có một thứ như là kiến thức thông tin khái quát hay không.

Theo Carlson (2011), các chương trình dữ liệu thông tin phải phù hợp với thực tiễn chuyên ngành và văn hóa hiện nay. Một nghiên cứu phân tích của Pinto (2014) cho thấy rằng kiến thức thông tin cả trong khoa học y tế và khoa học xã hội đều có “tính cách” cụ thể riêng. Nói chung, các phương pháp tiếp cận mới hơn đối với kiến thức thông tin nhấn mạnh rằng thông tin được sử dụng trong các bối cảnh chuyên ngành khác nhau. Trong bối cảnh này, trường hợp kiến thức thông tin hóa học đặc biệt thú vị. Bawden và Robinson (2015) đã xem xét lịch sử của nó và nhận thấy rằng – mặc dù kiến thức thông tin hóa học có chứa một số yếu tố chung chung – nhưng nó đặc biệt là lĩnh vực cụ thể hơn bất kỳ chủ đề nào khác. Như Farrell và Badke (2015) nhấn mạnh, để đáp ứng nhu cầu của thời đại thông tin về  những người xử lý thông tin có trình độ, việc đào tạo kiến thức thông tin phải nằm trong phạm vi thực tiễn văn hóa xã hội của các ngành bằng việc tập trung mở rộng vào nhận thức luận và siêu diễn ngôn. Kiến thức thông tin thực sự sẽ đòi hỏi các cán bộ thư viện hoặc các giảng viên mời sinh viên vào các ngành học. Vì vậy, iến thức thông tin phải được hiểu là thực hành thông tin thuộc về một ngành học.

Kỹ năng kiến thức dữ liệu cũng đực xem là một ngành học cụ thể. Về kỹ năng và khả năng cần thiết, những người có kiến thức dữ liệu biết cách chọn và tổng hợp dữ liệu và kết hợp nó với các nguồn thông tin khác và kiến thức có trước. Họ cũng phải nhận ra giá trị dữ liệu nguồn và làm quen với các loại và định dạng dữ liệu. Các kỹ năng khác bao gồm biết làm thế nào để xác định, thu thập, tổ chức, phân tích, tóm tắt và ưu tiên dữ liệu. Xây dững các giả thuyết, xác định các vấn đề, giải thích dữ liệu, xác định, lập kế hoạch, thực hiện, cũng như giám sát các quá trình hành động cũng gắn liền với các kỹ năng cần thiết và thêm nhu cầu biến đổi dữ liệu cho các mục đích sử dụng cụ thể.

Ridsdale (2015) thiết lập một ma trận về năng lực kiến thức dữ liệu với ý định thúc đẩy một cuộc đối thoại liên tục về các tiêu chuẩn về kiến thức dữ liệu và kết quả học tập trong đào tạo kiến thức dữ liệu. Hoạt động có lẽ quan trọng nhất trong ma trận này là đánh giá chất lượng, bao gồm việc đánh giá các nguồn dữ liệu cho độ tin cậy và sai sót hoặc các vấn đề. Việc đánh giá xuất hiện khi chúng ta thu thập dữ liệu và giải thích dữ liệu rõ ràng cho thấy các cơ chế cũng là đặc trưng cho kiến thức thông tin. Ngay cả việc hiển thị dữ liệu bao gồm đánh giá các biểu thị đồ họa về dữ liệu.

Một chương trình kiến thức dữ liệu thí điểm tại Đại học Purdue được xây dựng dựa trên các kỹ năng sau:

+ Lập kế hoạch;

+ Mô hình vòng đời;

+ Khám phá và thu nhận;

+ Mô tả và siêu dữ liệu;

+ An ninh và lưu trữ;

+ Bản quyền và cấp giấy phép;

+ Chia sẻ;

+ Quản lý và tài liệu;

+ Hình dung;

+ Kho chứa;

+ Bảo quản;

+ Xuất bản và quản lý

Thực tế là chất lượng dữ liệu đóng vai trò đặc biệt trong kiến thức dữ liệu cũng đã được Carlson minh chứng. Nói chung, khoa trong nghiên cứu này mong muốn sinh viên tốt nghiệp của họ có thể thực hiện các hoạt động quản lý và xử lý dữ liệu. Cả các trách nhiệm chính và những thiếu sót trong quản lý dữ liệu của sinh viên sau đại học bao gồm việc đảm bảo chất lượng. Đảm bảo chất lượng được xem như một sự pha trộn các kỹ năng kỹ thuật giúp cụ thể hóa trong sự hiểu biết với thiết bị, kiến thức ngành học và một quá trình siêu nhận thức đòi hỏi sự tổng hợp. Mặc dù đã bị thay thế một phần bởi Khung kiến thức thông tin cho giáo dục đại học, song kiến thức dữ liệu có thể được nhìn qua lăng kính của Các tiêu chuẩn năng lực kiến thức thông tin cho giáo dục đại học. Tiêu chuẩn 3 của các tiêu chuẩn này (Đánh giá thông tin) bao gồm yêu cầu phải hiểu và đánh giá nghiêm khắc các nguồn bằng cách xác định xem liệu dữ liệu có đáng tin không và/hoặc kho dữ liệu hay thành phần của nó có cung cấp mức độ kiểm soát chất lượng cho nội dung của nó hay không.

Như đã đề cập ở trên, việc quản lý siêu dữ liệu là một trong những quy trình quản trị dữ liệu quan trọng liên quan đến chất lượng. Đồng thời, việc đánh giá siêu dữ liệu là một phần của việc đảm bảo chất lượng nên được đưa vào các chương trình kiến thức dữ liệu. Bảo đảm chất lượng trong bối cảnh này bao gồm việc sử dụng siêu dữ liệu để tạo điều kiện hiểu rõ các vấn đề tiềm ẩn đối với dữ liệu.

Đào tạo kiến thức dữ liệu có hai mục đích. Thứ nhất là đảm bảo rằng sinh viên, giảng viên và nhà nghiên cứu trở thành những cán bộ khoa học kiến thức dữ liệu. Như Carlson và Johnston (2015) nhấn mạnh, chúng ta phải nâng cao nhận thức về kiến thức dữ liệu cho các giảng viên, sinh viên và các quản trị viên bằng cách gửi thông điệp rõ ràng đến nhu cầu của các bên liên quan. Một số thông điệp có thể có nguồn gốc từ môi trường kinh doanh. Việc truyền tải những thông điệp của công ty thậm chí có thể tăng cường độ tin cậy của các thông điệp như vậy. Mục đích thứ hai là để đào tạo các chuyên gia thông tin.

Chia sẻ kiến thức dữ liệu cho giảng viên bị cản trở bởi các tình huống mà đào tạo họ là một vấn đề khó khăn. Như Duncan (2013) đã chỉ ra, các giảng viên hiếm khi thích nghe nói rằng họ đang làm một cái gì đó sai cách. Exner (2014) cũng khẳng định rằng không dễ dàng vươn tới giảng viên, đặc biệt là nếu chúng ta không hiểu cuộc sống của họ đúng cách. Các giảng viên rất bận rộn, và là chuyên gia trong lĩnh vực của mình, họ thường đòi hỏi các cách tiếp cận khác với sinh viên.

Kết luận

Mặc dù đã quen với việc quản trị dữ liệu không nhận được nhiều sự chú ý trong giới học thuật, song nó mang lại kiến thức đáng kể cho công việc của người quản lý dữ liệu. Mặc dù có sự khác biệt giữa chúng, song cả quản trị dữ liệu và kiến thức dữ liệu đều không thể thiếu đối với việc quản lý chất lượng dữ liệu, do đó – theo bản chất tổng thể của nó – việc sử dụng chúng là điều kiện tiên quyết để quản lý dữ liệu hiệu quả, chứng minh các dịch vụ dữ liệu nghiên cứu.

Sử dụng các bài học kinh nghiệm từ quản trị dữ liệu có thể làm tăng đáng kể hiệu quả của quá trình quản lý dữ liệu nghiên cứu trong các thư viện đại học. Lý do của việc này là đa dạng. Thứ nhất, trong việc phân định các lĩnh vực quyết định và xác định trách nhiệm giải trình cho việc ra quyết định, áp dụng các thông lệ được áp dụng trong quản trị dữ liệu có thể cải thiện công tác quản trị dữ liệu trong thư viện. Thứ hai, quản trị dữ liệu là một dịch vụ dựa trên các quy trình chuẩn, lặp lại và được thiết kế để cho phép minh bạch các quá trình liên quan đến dữ liệu và giảm chi phí, do đó nó có thể được sử dụng trong thư viện đại học. Thứ ba, nó đề cập đến các quy tắc, chính sách, tiêu chuẩn; quyền quyết định; trách nhiệm giải trình và phương pháp thực thi. Do đó, nó sẽ phục vụ là sự bổ sung thực tế cho nguyên tắc chất lượng dữ liệu hiện có, thực tiễn và công cụ của thư viện. Thứ tư, thực tiễn quản trị dữ liệu cũng có thể hữu ích trong việc quản lý thay đổi và đàm phán các vấn đề dữ liệu lớn.

Những bài học này có thể nói cho chính họ và có thể được xây dựng trong các chương trình kiến thức dữ liệu. Điều quan trọng đối với ngành thư viện là phải thực hiện nghiêm túc thách thức này và có được các kỹ năng cần thiết để cung cấp đào tạo kiến thức dữ liệu hiệu quả, bất kể năng lực của nó vượt quá kiến thức và kỹ năng của một thủ thư hay một giảng viên điển hình. Việc chú ý đến việc quản lý chất lượng dữ liệu (đồng thời xem xét quản lý dữ liệu) là một bước quan trọng để làm cho tất cả các đối tượng mục tiêu của chúng ta chấp nhận nhiệm vụ của thư viện để cung cấp các dịch vụ dữ liệu nghiên cứu và cung cấp các dịch vụ này đến mức độ hài lòng của họ.

Người dịch: Phương Hoài

Nguồn: Tibor Koltay – Data governance, data literacy and the management of data quality – IFLA Journal, Vol. 2, Issue 4, 2016.

TN 2017 – 91 & 92.