Facebook đang nuốt chửng thế giới như thế nào? – Phần cuối


Chiến lược rủi ro, câu hỏi đầu tư khó

Rất nhiều tờ báo lựa chọn đầu tư vào sản phẩm apps của chính bản thân họ. Nhưng như chúng ta thấy, chính app của chúng ta cũng phải tuân thủ theo chuẩn mực phân phối của những người khác để có thể hiệu quả được. Và việc duy trì sự tồn tại này vào thời điểm mà quảng cáo (đặc biệt với báo giấy) đang chịu nhiều áp lực, và quảng cáo online cũng đang chững lại (không tăng trưởng nữa). Làm thế nào để cân bằng được giữa điểm đến (của thông tin) và phân phối có lẽ là câu hỏi đầu tư khó nhất cho các tờ báo truyền thống vào lúc này.

Các tờ báo giờ thấy Instant Articles (của Facebook) cho họ traffic gấp 3-4 lần cao hơn thông thường. Họ sẽ muốn xuất bản hết trên các platform, chia sẻ các bài viết trên mạng xã hội – sức hấp dẫn này ngày càng tăng. Có thể tưởng tượng ra cảnh các công ty hoàn toàn bỏ luôn các bộ phận về sản phẩm, về công nghệ, thậm chí là các phòng quảng cáo, rồi giao cho các platform thứ ba để đảm bảo kinh doanh có lời.

Đây là chiến lược rất rủi ro: Anh mất quyền kiểm soát mối quan hệ của mình với độc giả, với doanh thu, và thậm chí là cách thức các bài viết đến được với độc giả.

Với hàng tỉ người dùng và hàng trăm ngàn bài viết, hình ảnh, và video xuất hiện trên mạng mỗi ngày, các mạng xã hội phải dùng thuật toán để chọn các thông tin quan trọng và mới nhất và được ưa thích để quyết định coi ai sẽ được coi gì. Chúng ta không có cách nào hơn là phó thác hết cho mạng xã hội.

Thực tế thì chúng ta biết ít hoặc hầu như không biết cách các công ty này sắp xếp tin thế nào. Ví dụ, nếu Facebook quyết định là các video sẽ xuất hiện nhiều hơn các bài text, chúng ta sẽ không thể nào biết việc đó trừ khi Facebook nói ra hoặc chúng ta phải quan sát theo dõi. Đây là sân chơi không luật lệ. Không có bất cứ sự minh bạch nào vào hoạt động bên trong của các hệ thống này.

Việc có thế hệ những người rất giỏi công nghệ, hiểu biết xã hội, và rất thành công về mặt tài chính như Mark Zuckerberg thay thế dần vị trí và quyền lực kinh tế của các nhóm quyền lực cũ, đôi khi rất xấu xa của quá khứ, là điều ích lợi lớn. Nhưng ta cũng cần hiểu rằng các thay đổi văn hoá, kinh tế và chính trị này là rất ảnh hưởng.

Chẳng chịu trách nhiệm với ai

Chúng ta đang trao quyền kiểm soát một phần quan trọng của đời sống vào một nhóm cá nhân rất nhỏ – những người không được bầu lên và cũng chẳng phải chịu trách nhiệm với ai.

Một phê phán đối với các công ty này trong thời gian qua là họ chỉ chọn những phần kiếm lời nhất của quá trình xuất bản và né trách các phần tốn kém hơn của công việc thật sự tạo ra các sản phẩm báo chí tốt. Nếu các thử nghiệm hiện tại như Instant Articles dẫn tới mối quan hệ gắn thiết hơn với nghề báo, chúng ta sẽ thấy sự thay đổi của chi phí sản xuất, đặc biệt đối với công nghệ cũng như việc kinh doanh quảng cáo.

Quá trình sắp xếp lại cách thức truyền tải thông tin, từng được tưởng sẽ tự do hoá hoàn toàn nhờ sự phát triển của Web, có thể khiến các cơ chế hỗ trợ tài chính cho nghề báo lụn bại đi – trước khi hồi phục lại tốt hơn. Nhìn triển vọng của quảng cáo mobile, việc đặt ra các mục tiêu tăng trưởng rất cao của Apple, Facebook, Google và các công ty khác để làm hài lòng Wall Street (giới đầu tư), chúng ta có thể khẳng định nếu các mạng xã hội không chia lại phần tiền nhiều hơn cho các tờ báo, làm báo rất có khả năng trở thành hoạt động phi lợi nhuận hơn là hoạt động có lời trong thị trường.

Để tồn tại lâu dài, các công ty báo chí sẽ phải thay đổi tận gốc cơ cấu chi phí của mình. Dường như mô hình tiếp theo của các công ty báo chí sẽ giống như mô hình một studio mà quản lý các loại hình bài viết khác nhau, với các tài năng và các sản phẩm trên nhiều thiết bị và platform khác nhau. Và khi thay đổi này diễn ra, việc đưa bài báo trực tiếp lên Facebook hay các platform sẽ trở thành chủ đạo – thay vì chỉ là các thử nghiệm như hiện nay. Thậm chí người ta có thể bỏ trang web để theo đuổi các mô hình vi-phân-phối kiểu này. Sự khác biệt giữa platform với các chủ tờ báo sẽ bị xoá nhoà hoàn toàn.

Kể cả khi bạn nghĩ rằng mình là công ty công nghệ, thực tế bạn đang có những quyết định quan trọng đối với quyền tiếp cận các platform, cách thức thể hiện báo chí hay câu chuyện, việc có hay cấm một số nội dung nhất định, việc chấp thuận hay từ chối một số tờ báo.

Chuyện điều gì xảy ra với thế hệ làm báo bây giờ thực tế không quan trọng bằng câu hỏi loại hình xã hội báo chí và thông tin nào chúng ta muốn tạo ra và làm thế nào để thực hiện được điều đó.

Thanh Tuấn trích dịch

Nguồn: Columbia Journalism Review

Facebook đang nuốt chửng thế giới như thế nào? – Phần đầu


Thế giới truyền thông, ngành báo chí và không gian dư luận đang trải qua một thay đổi rất kinh hoàng mà chúng ta hầu như không nhận ra.

Trong năm thế kỷ vừa qua, những thay đổi với hệ sinh thái truyền thông trong 5 năm gần đây có lẽ là kinh hoàng nhất. Chúng ta thấy những bước nhảy vọt về công nghệ – thực tại ảo (Virtual Reality), video trực tuyến, các phần mềm tự động thông minh, tin nhắn và các phần mềm chat. Chúng ta chứng kiến sự thay đổi kinh hoàng đối với quyền kiểm soát (thông tin) và tài chính của ngành. Tương lai của hệ sinh thái xuất bản giờ nằm trong tay một vài (tập đoàn), những người kiểm soát số phận của rất nhiều người.

Nuốt chửng tất cả

Mạng xã hội không chỉ nuốt chửng báo chí, nó nuốt chửng tất cả mọi thứ. Nó đã nuốt chửng các chiến dịch tranh cử, các hệ thống ngân hàng, các ký ức cá nhân, ngành công nghiệp giải trí, bán lẻ, chính quyền và an ninh. Chiếc điện thoại trong túi ta giờ là cánh cổng kết nối với thế giới. Trên nhiều phương diện, đây là cơ hội tuyệt vời cho giáo dục, cho thông tin và kết nối. Nhưng cùng với đó nó đem theo những đe doạ mang tính sống còn.

Báo chí chỉ là một nhánh nhỏ trong hoạt động kinh doanh của các nền tảng mạng xã hội (social platforms), nhưng là nền tảng cốt lõi với lợi ích của nhiều người.

Internet và các mạng xã hội giúp nhà báo thực hiện những tác nghiệp khó, cùng lúc giúp công việc xuất bản báo chí giảm bớt chi phí.

Nhưng có hai việc quan trọng đang xảy ra mà chúng ta không chủ ý tới:

Thứ nhất, các ông chủ tờ báo giờ mất quyền kiểm soát đối với các kênh phân phối.

Mạng xã hội và các công ty sở hữu các nền tảng (phân phối/mạng xã hội) lấy mất thứ mà các ông chủ tờ báo dù có muốn cũng không thể làm được. Giờ tin tức được phân phối bằng thuật toán và bằng các nền tảng mạng xã hội vốn rất không rõ ràng và khó dự đoán. Ngành công nghiệp báo chí đang cổ suý điều này, và các công ty với nền tảng digital như BuzzFeed, Vox và Fussion tồn tại được bằng cách hợp tác với hệ thống mới thay vì chống lại nó.

Thứ hai, kết quả không tránh khỏi của điều này là quyền lực ngày càng tăng của các công ty mạng xã hội.

Tập trung quyền lực ghê gớm

Các công ty công nghệ hay mạng xã hội lớn như Google, Apple, Facebook, Amazon hay các công ty hạng hai như Twitter, Snapchat, và các công ty tin nhắn OTT mới nổi, đang trở thành vô cùng quyền lực trong việc kiểm soát ai được xuất bản gì đến ai, và cách thức việc đó kiếm tiền thế nào.

Đây là sự tập trung quyền lực ghê gớm nhất kể từ trước tới giờ. Các mạng này luôn xu hướng phát triển càng lớn càng tốt, nên mô hình tồn tại đa dạng các loại hình truyền thông như ở Anh biến mất trong chớp mắt. Cơ chế năng động của thị trường với các luật chống độc quyền của Mỹ vốn được dùng để loại bỏ các dạng thức bất thường này giờ cũng đang thất bại.

Cuộc cách mạng di động là nguyên nhân chính của thay đổi này.

Vì cuộc cách mạng của mobile, thời gian chúng ta trên mạng, các việc chúng ta làm online, thời gian chúng ta dành cho các nền tảng mạng đã bùng nổ.

Thiết kế và khả năng của các điện thoại hiện nay có lợi cho các Apps, điều khiến chúng ta hình thành các thói quen khác đi. Nghiên cứu gần đây của Google cho thấy dù có trung bình khoảng 25 ứng dụng trên mỗi điện thoại, thường chúng ta dùng khoảng 4-5 phần mềm thường xuyên mỗi ngày, và trong số đó thì thời gian nhiều nhất chúng ta dành cho một app mạng xã hội. Và lúc này, độ phủ của Facebook lớn hơn bất cứ mạng xã hội nào khác.

Theo điều tra của Pew Research Center thì phần lớn người Mỹ trưởng thành đều dùng Facebook, và phần lớn số này đều thường xuyên lấy tin tức từ Facebook. Khoảng 40% người trưởng thành ở Mỹ coi Facebook như một nguồn tin.

Nhìn lại thì:

  1. Mọi người ngày càng dùng smartphone cho mọi hoạt động của mình.
  2. Mọi người hầu hết sử dụng các app, đặc biệt là các ứng dụng mạng xã hội và nhắn tin như Facebook, WhatsApp, Snapchat và Twitter.
  3. Cuộc cạnh tranh để trở thành các app phổ biến đó rất quyết liệt. Lợi thế cạnh tranh của các platform dựa vào khả năng giữ người dùng ở trong app của mình. Người dùng càng ở trong phần mềm lâu thì anh càng hiểu về họ, càng có nhiều thông tin để bán cho người quảng cáo, doanh thu sẽ càng cao.

Cuộc chiến dành sự chú ý này diễn ra khốc liệt. “Bốn kỵ sĩ Khải Huyền”– Google, Facebook, Apple và Amazon (sẽ là năm nếu tính thêm Microsoft) – đang trong cuộc chiến dai dẳng, quyết liệt nhằm quyết định công nghệ hay platform, hay thậm chí là hệ tư tưởng nào chiến thắng.

Trong năm vừa rồi, các nhà báo và các chủ báo vô tình lại trở thành người hưởng lợi của cuộc chiến này.

Cánh cửa này mở ra, cánh cửa khác khép lại

Năm vừa rồi, Snapchat cho ra Discover App, cung cấp kênh phân phối cho các hãng như Vice, BuzzFeed, Wall Street Journal, Cosmo và Daily Mail. Facebook ra mắt Instant Articles và mới đây nói sẽ mở cho tất cả các tờ báo từ tháng 4/2016. Apple và Google cũng nhanh chóng theo sau với Apple News và Accelerated Mobile Pages. Không muốn bị loại ra, Twitter cũng ra mắt Moments, một dạng tổng hợp các nội dung đang “xu thế” trên platform của mình để đưa thông tin về các sự kiện.

Tin tốt là các công ty nhiều nguồn lực đó đang xây hệ thống để phân phối tin tức. Nhưng khi cánh cửa này mở ra, thì cánh cửa khác lại đang khép lại.

Cùng lúc dụ dỗ các tờ báo xuất bản trực tiếp lên apps và hệ thống mới, điều giúp nhanh chóng việc tăng độc giả mobile, Apple tuyên bố sẽ cho các phần mềm chặn quảng cáo (ad-blocking software) được xuất hiện trên App Store của mình.

Nói cách khác, là một tờ báo, bạn có thể lên các platform để kiếm tiền thông qua quảng cáo mobile. Nhưng giờ người dùng iPhone có thể chặn bất cứ quảng cáo hay phần mềm theo dõi data nào. Các bài viết xuất hiện trên các platform, như Discover trên Snapchat hay Instant Articles trên Facebook, phần lớn, dù không phải tất cả, không chịu ảnh hưởng bởi các phần mềm chặn này. Nhưng về cơ bản doanh thu quảng cáo mobile, vốn đã rất rất nhỏ, của các tờ báo có khả năng rất cao bị mất đi. Đương nhiên, mọi người có thể lý lẽ rằng điều này xuất phát từ việc các báo chất đầy trên trang của mình các quảng cáo vô cùng khó chịu khiến chẳng ai muốn.

Phụ thuộc về kênh phân phối

Có ba lựa chọn khác cho các báo.

Một là đẩy thậm chí nhiều hơn nội dung thẳng lên các app như lên Instant Articles của Facebook – nơi mà phần mềm chặn khó hoạt động hơn so với ở trên các trình duyệt web. Như một chủ báo nói, “Chúng tôi tính toán doanh thu có thể kiếm được từ mobile và đánh giá là kể cả đưa tất cả lên Facebook thì chúng tôi vẫn tốt hơn nhiều (về mặt tài chính)”. Rủi ro là, điều này sẽ dẫn tới bị phụ thuộc quá nhiều về nguồn thu và traffic vào một nhà phân phối.

Giải pháp thứ hai là xây dựng mô hình kinh doanh và nguồn thu khác không phụ thuộc vào các platform. Điều này đồng nghĩa chấp nhận phải đi kiếm độc giả qua các platform khác (số lượng lớn độc giả là ở đó) dù là việc đó tổn hại tới hoạt động kinh doanh báo chí của bạn. Bạn sẽ chuyển hướng tập trung vào lượng tương tác bạn đọc hơn là quy mô (traffic).

Thu phí là cách phổ biến nhất cho cách thức này. Nghịch lý là, điều kiện tiên quyết của việc này là phải có nhận diện thương hiệu đủ mạnh mà những người đặt báo cảm thấy đủ hấp dẫn. Trong thế giới mà nội dung giờ đang rất thừa, điều này sẽ khó hơn rất nhiều so với thời kỳ báo chí trước kia. Kể cả trong rất nhiều trường hợp mà mô hình thu tiền đang hoạt động, thường việc thu phí không phải lúc nào cũng bù đắp được phần hụt do quảng cáo.

Cách thứ ba, đương nhiên, là biến quảng cáo trở thành không giống quảng cáo để các phần mềm chặn kia không phát hiện ra. Các bài quảng cáo giấu mặt này trước  được gọi là “advertorial” hay “sponsorship” còn giờ được gọi là “native advertising”. Quảng cáo này giờ chiếm khoảng ¼ các quảng cáo trên mạng ở Mỹ. Thực tế, các tờ báo mạng hoàn toàn như BuzzFeed, Vox, hay các dạng “lai” như Vice, giờ đang chen ngang thị trường báo chí bằng cách trở thành các agency quảng cáo – ngành này giờ cũng đang khó khăn. Bằng cách này họ làm việc trực tiếp với khách hàng quảng cáo, họ sản xuất các video clip, các hình động GIFs mà chúng ta thấy rải rác đầy trên Facebook, rồi họ xuất bản tới những người mà đã “like” trang của họ.

(còn tiếp)

Thanh Tuấn trích dịch

Nguồn: Columbia Journalism Review

“Hồ sơ Panama”: Một thách thức kỹ thuật đối với báo chí dữ liệu


Jérémie Baruch và Maxime Vaudano

Đằng sau “Hồ sơ Panama“, và sự tham gia vào cuộc của hàng trăm nhà báo cùng hàng ngàn bài báo được xuất bản, là một cơ sở dữ liệu. Đó là một vụ “rò rỉ” 2,6 terabyte (hay 2.600 GB) thông tin được một nguồn tin giấu tên gửi đến tờ Süddeutsche Zeitung và được chia sẻ cho Hiệp hội các nhà báo điều tra quốc tế (ICIJ). Đối mặt với “sự chuyển đổi của cuộc điều tra sang thời đại dữ liệu lớn” này, như giám đốc của tờ LeMonde đã viết trong bài xã luận của ông vào hôm thứ hai, là việc 110 đối tác truyền thông tham gia cuộc điều tra đã phải từ bỏ cuốn sổ tay bỏ túi và cây bút chì để sử dụng những công cụ điện toán tiên tiến.

Một công cụ tìm kiếm và 11,5 triệu tài liệu

Đơn giản là không thể hình dung đọc từng trang một của “Hồ sơ Panama“, ngay cả đối với 376 nhà báo. Vì vậy, cần phải có một công cụ tìm kiếm có hiệu năng cao để khám phá các cơ sở dữ liệu.

Thông thạo với loại điều tra này, đội ngũ kỹ thuật của tổ chức ICIJ đã có sẵn một công cụ mạnh mẽ, dựa trên hệ thống Solr, và được cải tiến dành cho chiến dịch này. Tất nhiên, hệ thống có những toán tử tìm kiếm tiên tiến (“AND”, “OR”, tìm kiếm với độ chính xác cao những từ trong dấu ngoặc kép) và một hệ thống các “cửa sổ nhỏ” để sàng lọc hàng ngàn kết quả mà một số cuộc tìm kiếm đã tạo ra nhờ vào các siêu dữ liệu (dạng văn bản, ngày tạo văn bản, công ty liên kết). Hệ thống cũng cho phép trích xuất văn bản thô từ hàng chục định dạng tập tin, từ dạng văn bản .pdf đến dạng văn bản .doc, qua những dạng văn bản khônglỗi thời nhất .msg (một dạng thư tín điện tử gắn với Microsoft Outlook), những thứ được sử dụng chủ yếu trong các cuộc trao đổi thư tín nội bộ của công ty Mossack Fonseca.

Nhưng trên tất cả, công cụ được trang bị một cơ chế “tìm kiếm gần đúng” (“fuzzy search“), cho phép một tính năng tìm kiếm ít hạn chế hơn. Chẳng hạn như tìm từ gần đúng với “Jean Dupont” sẽ cho ra những kết quả như “Dupont Jean” hay “Jean Edouard Michel Dupont”.

Mặc cho tất cả các tính năng này, chúng tôi đã phải đối mặt với những hạn chế về cấu trúc liên quan đến bản chất của thông tin “rò rỉ”. Có rất nhiều tài liệu mà bản gốc không dưới những dạng mà máy tính có thể đọc được (như dưới dạng scan, hình ảnh), đã được xử lý qua một hệ thống nhận dạng ký tự bằng quang học (OCR, Optical character recognition) của tổ chức ICIJ. Kỹ thuật này, dù tốt đến đâu, cũng có nguy cơ bỏ qua những từ viết lại sai, như chữ viết tay hoặc bản scan kém chất lượng.

Ngoài ra, phải nhớ rằng những dữ liệu mà chúng tôi đang nghiên cứu xuất phát từ một tổ chức (công ty Mossack Fonseca) được hình thành bởi con người, mà con người thì cũng có thể sai lầm. Những lỗi chính tả hoặc những chuyển ngữ âm sai tên các cá nhân có thể làm cho những nhân vật đó thoát khỏi sự phát hiện của chúng tôi. Chưa kể đến các vấn đề về dịch thuật từ những cái tên tiếng Nga hay tiếng Trung Quốc được viết theo bảng chữ cái Ki-rin hoặc chữ tượng hình…

Sự cần thiết của tính hệ thống

Sau giai đoạn thăm dò đầu tiên các dữ liệu mang tính “lộn xộn” một chút, chúng tôi đã phải hợp lý hóa công việc tìm kiếm để đảm bảo không bỏ qua những cái tên quan trọng. Nói cho rõ là tìm kiếm tên của tất cả các nghị sĩ Pháp chứ không phải là một vài cái tên nổi tiếng.

Về vấn đề này, tổ chức ICIJ, trong quá trình thực hiện dự án, đã phát triển một cơ chế tìm kiếm theo khối (“batch search”). Thay vì tìm kiếm một cách chán ngắt, từng cái tên một,danh sách của 500 gia đình giàu nhất nước Pháp, thì chúng ta có thể đưa vào công cụ tìm kiếm một danh sách có cấu trúc những cái tên. Sau một vài phút, công cụ sẽ cho ra một bảng kết quả dưới định dạng .csv, có chứa tất cả những lần xuất hiện được tìm thấy đối với mỗi mục nhập của danh sách. Phần còn lại là công việc sàng lọc “gạo với trấu”, như đối với mọi tính năng tìm kiếm.

Nhưng công việc tìm kiếm tên của các thực thể chỉ là một cách trong nhiều cách khác để tìm ra những người đáng quan tâm. Ví dụ, chúng tôi đã tập trung phần lớn nguồn lực để tìm kiếm tên của những thường trú nhân tại Pháp, sử dụng sổ sách đăng ký nội bộ của công ty Mossack Fonseca, tài liệu duy nhất của vụ “rò rỉ thông tin” được định dạng dưới hình thức một bảng các dữ liệu có cấu trúc. Với 214.488 cấu trúc được thành lập ở nước ngoài là có không ít hơn 450.000 cổ đông, tất cả đều gần như dẫn đến một địa chỉ bưu điện.

Với phần mềm xử lý dữ liệu OpenRefine, chúng tôi đã “làm sạch” và cân đối các địa chỉ này (thông qua một công cụ “phân lớp” (“clustering”), cho phép thực hiện những tập hợp tự động) để trích xuất một danh sách hàng ngàn cổ đông cư trú tại Pháp, sau đó sử dụng một cách có hệ thống công cụ tìm kiếm “Google” để phát hiện ra những nhân vật có khả năng là quan trọng.

Sự tương hợp của các công cụ tìm kiếm của tổ chức ICIJ với những “biểu thức chính quy” (“regex” nói cho ngắn gọn) đã cho phép chúng tôi hệ thống hóa một số công việc tìm kiếm.

Ví dụ, khi biết rằng tất cả các tài khoản ngân hàng của Pháp đều có một cấu trúc định danh IBAN đồng nhất (chữ đầu tiên là “FR”, kế đến là hai chữ số, và tiếp theo là ít nhất bốn tập hợp của bốn chữ số), chúng tôi có thể tìm ra tất cả các tài khoản ngân hàng của Pháp thông qua biểu thức chính quy sau đây:

FR [0-9] * 2 [0-9] * 4 [0-9] * 4 [0-9] * 4 [0-9] * 4

Tương tự, chúng tôi có thể tìm được hầu hết các hộ chiếu của người Pháp lẫn lộn trong thông tin “rò rỉ” thông qua mã nhận dạng “P”.

Khai thác dữ liệu bằng đồ thị với Linkurious

Sự phức tạp của những dàn dựng ở nước ngoài, với rất nhiều công ty bình phong lồng trongnhau như những con búp bê Nga, đã làm cho công việc lần theo dấu vết của những người thụ hưởng thực rất vất vả. Vì vậy, tổ chức ICIJ đã cung cấp cho các đối tác truyền thông một công cụ hiển thị hóa bằng đồ thị, Linkurious, để giúp cho công việc thăm dò các cơ sở dữ liệuđược dễ dàng.

Cụ thể, công cụ này đã liên kết bốn thực thể khác nhau có tên trong phần “có cấu trúc” của thông tin “rò rỉ”: các công ty, các trung gian, các cổ đông và các địa chỉ của họ. Nó cho phép thực hiện những tìm kiếm nhanh và trực quan về các thực thể này.

Bổ sung với những nguồn mở

Tất nhiên, chỉ riêng những dữ liệu của thông tin “rò rỉ” không đủ phục vụ cuộc điều tra. Một mặt bởi vì không phải lúc nào cũng có chi tiết của các tài khoản ngân hàng, các tài sản và các hoạt động liên quan đến mỗi cấu trúc được thành lập ở nước ngoài, nhưng nhất là bởi vì sự chằng chịt của các công ty bình phong ở nước ngoài thường dẫn đến những công ty được đăng ký thành lập ở những nơi khác hơn là công ty Mossack Fonseca.

Có rất nhiều trường hợp mà chúng tôi đã nghiên cứu dẫn đến những công ty mẹ đóng tại Luxembourg – một quốc gia có chính sách thuế hạn chế, nhưng minh bạch về sổ sách đăng ký kinh doanh, có thể truy cập miễn phí trên mạng (ngược lại với Pháp, nơi mà những thông tin ấy vẫn chưa là những dữ liệu mở). Chúng ta đặc biệt tìm thấy trên đó những thông tin về việc thành lập các công ty, thay đổi quy chế và người quản lý, và đôi khi ngay cả tên các cổ đông của họ.

Tuy nhiên, việc thiếu liên kết các sổ sách đăng ký trong các công cụ tìm kiếm, khiến chúng tôi không thể tiến hành được việc tìm kiếm ngược (để biết xem một công ty xuất hiện như là cổ đông trong các hồ sơ nào, ví dụ). Chúng tôi đã khắc phục khó khăn này bằng cách sử dụng công cụ legicopylux rất tiện lợi, đó là một tính năng sao chép và dán sổ sách đăng ký kinh doanh của Luxembourg, với lợi thế được chỉ số hóa trong các công cụ tìm kiếm (và do đó tìm kiếm trên Google với “site:legicopylux.free.fr“).

Ngoài Luxembourg, chúng tôi đã tung hứng với những thông tin có sẵn trên các trang web bán miễn phí (như Société.com và Verif.com  tại Pháp, Duedil tại Vương quốc Anh hoặccompanyweb tại Bỉ) và trên trang OpenCorporates, một trang ra sức thu thập những thông tin công khai về các công ty bằng cách tổng gộp các sổ sách đăng ký kinh doanh trên toàn thế giới (thật tiện dụng, đặc biệt khi các sổ sách đăng ký của Panama bị rút khỏi mạng một cách lạ thường, khi những yêu cầu phỏng vấn đầu tiên của chúng tôi được gửi đến công ty Mossack Fonseca, vào đầu tháng ba …).

Điện thoại… và máy fax

Nhưng đôi khi, không có bất kì công cụ tin học nào nói đến trên đây đủ cho công việc tìm kiếm của chúng tôi. Bị dồn vào chân tường, chúng tôi buộc phải sử dụng vũ khí bí mật của chúng tôi. Một thiết bị cực kỳ tinh vi mà chúng tôi thường chỉ sử dụng trong những trường hợp cực kỳ khẩn cấp: điện thoại.

Nếu bỏ qua một bên những lời lăng mạ khó chịu và những lời dối trá trơ trẽn, những cuộcđối thoại này thường cho phép chúng tôi lượm lặt từ những nhân vật có liên quan trong các công ty bình phong ở nước ngoài những thông tin có giá trị về việc sử dụng các thiết chế này.

Việc sử dụng máy fax tỏ ra ít hiệu quả hơn. Sự cứng đầu của công ty mẹ Akila Finance, được một người đồng sáng lập công ty Adecco, Philippe Foriel-Destezet điều hành, yêu cầu gửi các câu hỏi qua máy fax, làm cho chúng tôi phát hiện ra rằng tờ Le Monde còn có một máy fax. Đáng tiếc là công ty cuối cùng cũng không hồi đáp các yêu cầu của chúng tôi.

An toàn và bí mật

Chúng tôi luôn tự nhủ trong suốt quá trình điều tra: việc bảo vệ sự an toàn các trao đổithông tin giữa chúng tôi là điều then chốt, nhằm giảm thiểu nguy cơ rò rỉ hay trộm cắp thông tin. Điều không hề thuận tiện, khi phải liên lạc với khoảng 400 đồng nghiệp rải rác hầu như khắp nơi trên thế giới, với những múi giờ thường ở những vùng rất xa xôi.

Trong nội bộ, chúng tôi sử dụng mã hóa PGP (Pretty Good Privacy – Bảo mật rất mạnh) để đảm bảo sự an toàn đối với những cuộc trao đổi email trong nội bộ tờ Le Monde, cũng như tính năng nhắn tin di động an toàn Signal. Đội ngũ công nghệ thông tin của tờ báo cũng cung cấp cho chúng tôi những máy tính, những phương tiện hỗ trợ lưu trữ và một đường kết nối Internet an toàn.

Để tất cả các đối tác truyền thông của “Prometheus” (tên mã hóa của chiến dịch “Hồ sơ Panama” kể từ nay) có thể làm việc với nhau, tổ chức ICIJ đã thành lập một diễn đàn hợp tác được mã hóa, gọi là “Global i-Hub”, được thành lập với sự tài trợ của quỹ Knight Foundation. Diễn đàn cho phép chúng tôi tập hợp lại thành những nhóm theo từng chuyên đề và khu vực địa lý, và chia sẻ những thông tin phát hiện được trong suốt quá trình chín tháng điều tra.

Làm thế nào để đi xa hơn?

  • Những hạn chế của sự hợp tác

Sau chín tháng điều tra, đã diễn ra hơn 1500 cuộc thảo luận trên diễn đàn “Global i-Hub” (có những thảo luận mang tính quyết định, có những thảo luận không cần thiết), điều làm cho các đồng nghiệp khó theo dõi công việc một cách toàn diện.

Ngoài ra, sự cần thiết tiến hành một công việc kiểm tra lâu dài, trước khi chắc chắn nắm được một manh mối thú vị, đã làm chúng tôi bỏ qua việc thông báo một số cái tên cho các đối tác của mình – và ngược lại. Đây là giới hạn của một công việc “siêu biên tập” quá đông đảo: chắc chắn chúng tôi đã bỏ qua rất nhiều câu chuyện để không phải “làm chìm ngập” các kênh truyền thông của mình với những “tin nhiễu” vô dụng.

Do thiếu thời gian, một công cụ hợp tác được ICIJ phát triển cũng đã là một thất bại: đó là việc tự động phát hiện, trong các cơ sở dữ liệu, tên của những người thừa hưởng thực của các công ty (đứng đằng sau những người đứng tên thay) nhờ một thuật toán máy tính, và sau đó kết quả được hợp thức hóa (không tránh khỏi kết quả không chắc chắn) bởi ít nhất ba nhà báo khác nhau. Do thiếu thời gian và phạm vi rộng lớn của công việc, nỗ lực “kiểm tra tập thể” này đã chưa bao giờ thành công.

  • Các công cụ “dữ liệu lớn” cho giới báo chí

Tuy nhiên, đây là sự khởi đầu của những gì có thể là bước tiếp theo của điều tra báo chí với sự hỗ trợ của máy điện toán: việc sử dụng một cách có hệ thống các công cụ “dữ liệu lớn”, điều mà đến nay còn giới hạn trong lĩnh vực nghiên cứu và doanh nghiệp, và vẫn còn rất xa lạ với giới truyền thông.

Ví dụ, chúng ta có thể hình dung việc phát triển các giải pháp phát hiện những thực thể được nêu tên để trích xuất những cái tên hoặc địa chỉ email của mớ “Hồ sơ Panama” hỗn độn không tưởng tượng nổi này.

Tất cả là nhằm giảm thiểu đến mức cao nhất những điều không chắc chắn và những may rủi trong việc con người xử lý khối lượng dữ liệu vượt quá khả năng của mình.

Huỳnh Thiện Quốc Việt dịch

NguồnPanama Papers”: un défi technique pour le journalisme de données, lemonde.fr, 08 avril 2016

Sự mở đầu của kỷ nguyên rò rỉ thông tin


Từ góc nhìn của một nhà hoạt động xã hội, tầm quan trọng của “Hồ sơ Panama” đã vượt quá việc xác nhận nhũng điều mà đa số dư luận nghi ngờ. Vụ rò rỉ thông tin thế kỷ này cung cấp nhiều bằng chứng hơn bao giờ hết về những điều mà nhiều người trong giới chóp bu chính trị thế giới có thể sẽ bị ngồi tù (trong khi vẫn phải trả những khoản nợ thuế). Tuy nhiên, đó không phải là tin bất ngờ đối với nhiều người. Ý nghĩa thực sự của “Hồ sơ Panama” là một khà năng thay đổi xã hội.

“Hồ sơ Panama” cho thấy sự bắt đầu của “kỷ nguyên rò rỉ thông tin”. Theo quan điểm của những nhà hoạt động xã hội, việc rò rỉ thông tin trung thực là một dạng “biểu tình xã hội” hiệu quả. Với sự nổi lên của cá nhà hoạt động tố cáo sai phạm trên thế giới như Julian Assange, Chelsea Manning và Edward Snowden, việc rò rỉ thông tin đã trở thành một chiến thuật ngày một phổ biến của chủ nghĩa tích cực đương đại.

Đây là một cơ hội “có một không hai” để kiểm tra tính hiệu quả của chủ nghĩa rò rỉ thông tin. “Hồ sơ Panama” có thể được cho là một vụ rò rỉ thông tin hoàn hảo. Đầu tiên là quy mô khổng lồ của vụ việc này: 11,5 triệu tài liệu với khoảng 2,6 terabyte dữ liệu được lấy từ công ty luật lớn thứ tư thế giới Mossack Fonseca (trụ sở ở Panama) trong thời gian hoạt động từ năm 1977 tới cuối năm 2015. Đây là một vụ rò rỉ thông tin toàn diện, một vụ rò rỉ thông tin lớn nhất trong lịch sử nhân loại. Thứ hai, “Hồ sơ Panama” hiện đang được phân tích qua một sự hợp tác chưa từng có tiền lệ giữa hàng trăm nhà báo quốc tế có uy tín cao, những người đã làm việc bí mật suốt một năm qua. Đây là sự chuyên nghiệp hóa rò rỉ thông tin trên thế giới. Tính nghiệp dư thời WikiLeaks đã kết thúc.

Vậy liệu “Hồ sơ Panama” có thực sự tạo ra sự thay đổi xã hội theo hướng tích cực? Rõ ràng, những vụ rò rỉ thông tin có tiềm năng truyền cảm hứng cho các cuộc biểu tình trên đường phố. Ở Iceland, Thủ tướng Sigmundur David Gunnlaugsson và vợ của ông đã có tên trong các hồ sơ. Ông đã bị buộc phải từ chức khi hơn 10.000 người biểu tình tức giận kéo đến Quốc hội. “Hồ sơ Panama” chứa đựng thông tin của 143 chính khách, liên đới từ Nga, Pakistan, Ukraine, Argentina, Saudi Arabia, Anh cho đến Trung Quốc, Brazil…, vì vậy có lý do để tin rằng các vụ biểu tình lớn sẽ lan rộng ở nhiều nước.

Hệ quả tức thời của “Hồ sơ Panama” có thể là tác động gây bất ổn lên các chính quyền trên thế giới. Nhiều nhà lãnh đạo quyền lực nhất thế giới có thể bị mất chức trong những ngày tới. Đúng như nhận định của nữ nhà báo Rana Foroohar trong bài xã luận cho tạp chí Time, “Hồ sơ Panama” có thể dẫn đến cuộc khủng hoảng lớn nhất của chủ nghĩa tư bản”.

Tuy nhiên, vẫn có sự khác biệt cơ bản giữa khủng hoảng và thay đổi xã hội. Xét cho cùng, khủng hoảng dường như là một phần thiết yếu trong bản chất của chủ nghĩa tư bản. Việc hàng loạt chính khách từ chức có thể phần nào xoa dịu dư luận, song nó không giải quyết được vấn đề cốt lõi: thế giới của chúng ta đang bị quản lý lệch lạc bởi 1% những kẻ đạo đức giả. Vậy nên, hãy tạm ngừng một chút để suy nghĩ thấu đáo trước khi vội vã hùa theo đám đông tin rằng một vụ rò rỉ thông tin và các cuộc biểu tình lớn sẽ dẫn đến một sự thay đổi lớn. Bài học thực tế rút ra từ những thất bại trong quá khứ không phải là nên bỏ cuộc, hay ngừng biểu tình, mà thay vào đó, người dân cần phải phá vỡ kịch bản của chủ nghĩa tích cực và biểu tình theo một cách khác.

“Hồ sơ Panama” làm sáng tỏ cho người dân ở mỗi quốc gia rằng họ đang đứng trước một kẻ thù chung. Không quan trọng ở Anh, Brazil, Nga hay Pakistan, sự thạt là những người cực giàu đã và đang sử dụng của cải để duy trì sự kiểm soát quyền lực trong khi che giấu nó khỏi cơ quan thuế. Vấn đề cơ bản mà “Hồ sơ Panama” đặt ra là câu hỏi về sự lãnh đạo toàn cầu: có những kẻ xấu đang nắm quyền. Vậy nếu một phong trào xã hội nổi lên, liệu nó có dẫn tới những cuộc biểu tình để thúc ép bầu cử sớm ở hàng loạt quốc gia nhằm giành lại quyền lực. Việc công bố “Hồ sơ Panama” sẽ là một thành công nếu như nó giúp thế giới nhận ra mục đích cao cả đó.

Nguồn: theguardian.com – 08/04/2016

TKNB 11/04/2016

Thời đại dữ liệu lớn – Phần cuối


Dữ liệu lớn với quản lý Nhà nước

Dữ liệu sẽ được ứng dụng không chỉ trong lĩnh vực y tế và thương mại, mà sẽ thay đổi sâu sắc cách thức vận hành của các chính phủ cũng như bản chất của chính trị. Những người khai thác được dữ liệu lớn sẽ có lợi thế đáng kể trong thúc đẩy tăng trưởng kinh tế, cung cấp dịch vụ công, hay tiến hành chiến tranh. Cho đến nay, có thể thấy những minh chứng thú vị nhất ở một số chính quyền địa phương, nơi có thể truy cập dữ liệu và làm thí nghiệm với thông tin một cách dễ dàng hơn. Từ nỗ lực mang tính tiên phong của Micheal Bloomberg, Thị trưởng thành phố New York – người kiếm được bộn tiền từ hoạt động kinh doanh thông tin – thành phố này đang sử dụng dữ liệu lớn nhằm cải thiện dịch vụ công và giảm chi phí, ví dụ như trong lĩnh vực phòng cháy.

Thường thì các tòa nhà bị cư trú quá tải bất hợp pháp dễ cháy hơn các tòa nhà khác. Hằng năm thành phố nhận được 25 nghìn khiếu nại về các tòa nhà bị cư trú quá tải, trong khi lực lượng thanh tra viên chỉ có 200 người. Một nhóm chuyên gia phân tích tại văn phòng thị trưởng nhận thấy rằng dữ liệu lớn có thể giúp giải quyết vấn đề nan giải này. Họ tạo ra một kho dữ liệu của tất cả 900 nghìn tòa nhà trong thành phố và bổ sung thêm bằng những dữ liệu thu được từ 19 cơ quan chức năng: những hồ sơ nợ thuế, bất thường trong hóa đơn điện nước, các trường hợp bị cắt dịch vụ, hóa đơn chậm trả, số lần gọi xe cứu thương, tỷ lệ tội phạm địa phương, khiếu nại chuột bọ…

Tiếp theo, họ so sánh cơ sở dữ liệu này với các hồ sơ về những vụ cháy nhà trong vòng 5 năm qua, được xếp hạng tùy theo mức độ nghiêm trọng, nhằm tạo ra một công cụ cho phép xác định đặc thù nào của các tòa nhà có sự trùng hợp cao nhất với các vụ cháy, từ đó nhận biết được loại hình khiếu nại quá tải cư trú cần được quan tâm hơn cả. Thực tế đã chứng minh giá trị của nghiên cứu này: trước đây, chỉ 13% trong số các căn hộ bị thanh tra được phát hiện là có vấn đề về phòng cháy cần được xử lý, ngày nay con số tăng thành 70% – một sự gia tăng vượt bậc về tính hiệu quả.

Các công ty bảo hiểm từ lâu đã dùng phương pháp tương tự để đánh giá nguy cơ cháy, nhưng họ chủ yếu chỉ khảo sát trên một nhóm nhỏ các yếu tố, thường là những tác nhân có sự liên quan một cách trực quan. Trái lại, cách tiếp cận bằng dữ liệu lớn của thành phố New York đã tiến hành khảo sát  trên rất nhiều yếu tố, bao gồm cả những yếu tố nghe qua tưởng như chẳng liên quan gì tới nguy cơ cháy nổ. Kết quả thực tiễn đã cho thấy cách khảo sát này của thành phố vừa rẻ và nhanh hơn, đồng thời kết quả đạt được cũng cao hơn.

Dữ liệu lớn có thể giúp tăng mức độ minh bạch và dân chủ trong quản lý Nhà nước. Trên thế giới đang có một phong trào dần lớn mạnh, xoay quanh ý tưởng “dữ liệu mở”, đi xa hơn cả những quy định pháp lý về tự do thông tin mà ngày nay đã trở nên phổ biến ở các nước dân chủ phát triển. Những người ủng hộ phong trào mới đang kêu gọi các chính phủ công khai hóa công chúng lượng dữ liệu vô hại mà chính quyền đang lưu giữ. Chính phủ Mỹ đang đi đầu trong xu thế này, mở ra trang web Data.gov, trong khi nhiều nước khác cũng đang làm theo.

Không chỉ khuyến khích sử dụng dữ liệu lớn, các chính phủ cũng cần bảo vệ công dân trước những thế lực độc quyền trên thị trường. Các công ty như Google, Amazon, hay Facebook – cùng với những nhà “môi giới dữ liệu” ít tên tuổi hơn, như Acxiom hay Experian – đang tích lũy  những lượng thông tin khổng lồ về tất cả mọi người và mọi thứ. Luật chống độc quyền có thể áp dụng được với các thị trường hàng hóa và dịch vụ vì không khó để ước tính thị phần ở những thị trường này. Nhưng liệu các chính phủ có nên áp dụng luật chống độc quyền về dữ liệu lớn, một thị trường rất khó xác định và liên tục thay đổi hình thái? Bên cạnh đó, điều khiến người ta lo ngại hơn nữa là nguy cơ bị xâm phạm thông tin đời tư, mặt trái của dữ liệu lớn mà những công cụ công nghệ và luật pháp hiện hành đều khó ngăn chặn.

Quy định về quản lý dữ liệu lớn có thể trở thành một trận chiến giữa các quốc gia. Các nước châu Âu đã sẵn sàng điều tra Google do những lo ngại về độc quyền và xâm phạm đời tư, tương tự như những biện pháp cứng rắn chống độc quyền mà Ủy ban châu Âu áp dụng với Microsoft từ một thập kỷ trước. Facebook cũng có thể là đối tượng tiếp theo ở nhiều nơi trên thế giới, vì họ nắm giữ quá nhiều dữ liệu về các cá nhân. Các nhà ngoại giao sẵn sàng cho cuộc đấu khẩu giữa các nước về việc liệu có nên áp dụng nguyên tắc thương mại tự do đối với dòng chảy thông tin: trong tương lai, việc Trung Quốc kiểm duyệt hoạt động tra cứu thông tin có thể sẽ bị khiếu nại không chỉ với lý do là kiềm chế tự do ngôn luận, mà còn vì tạo rào cản thương mại một cách bất công.

Nguy cơ con người bị áp đặt bởi Dữ liệu Lớn?

Một nguy cơ tiềm ẩn lớn khác là: con người bị áp đặt bởi dữ liệu lớn. Ở mọi quốc gia, đặc biệt là những nước phi dân chủ, dữ liệu lớn làm trầm trọng hóa chênh lệch cán cân quyền lực giữa chính quyền và nhân dân.

Sự chênh lệch có thể trở thành quá lớn, dẫn tới chủ nghĩa toàn trị dữ liệu lớn. Năm 2007, Bộ An ninh Nội địa của Mỹ phát động một dự án nghiên cứu mang tên FAST, với mục tiêu là xác định ra những tội phạm khủng bố tiềm năng, bằng cách phân tích dữ liệu về các cá nhân, từ những đặc điểm cơ bản tới cử chỉ và những đặc thù bề ngoài khác. Lực lượng cảnh sát ở nhiều thành phố như Los Angeles, Memphis, Richmond và Santa Cruz, đã áp dụng các phần mềm “trị an mang tính phòng ngừa”, trong đó phân tích các dữ liệu về những vụ án, nhằm dự đoán nơi nào và khi nào thì vụ án tiếp theo sẽ xảy ra.

Cho đến nay, những hệ thống trên không chỉ ra cá nhân nào là nghi phạm, nhưng dường như đó là xu thế đang được hướng đến. Người ta sẽ tìm ra thanh niên nào có xác suất cao nhất là kẻ ăn trộm. Điều này sẽ khiến người đó bị mang tiếng xấu trong mắt mọi người. Vô hình chung đó là một hình phạt cho đối tượng, cho dù chưa làm điều gì sai trái, và đây sẽ là sự xâm phạm tới quyền tự do cá nhân thiêng liêng.

Một lo ngại khác là các chính quyền có thể quá tin vào sức mạnh của dữ liệu mà đưa ra những chính sách sai lầm. Cuốn sách năm 1999, mang tựa đề Dưới góc nhìn của chính quyền (Seeing Like a State), nhà nhân chủng học James Scott đã ghi lại những trường hợp các chính phủ, do quá hăng say thu thập dữ liệu để dữ liệu hóa, nhiều khi đã đẩy cuộc sống người dân vào tình cảnh khốn khổ. Họ dựa trên bản đồ để tái định cư các cộng đồng mà không hề hỏi ý kiến người dân sinh sống ở đó. Họ dùng những bảng dữ liệu lớn về các vụ mùa để quyết định tiến hành hợp tác xã hóa, dù người làm chính sách chẳng am hiểu gì về trồng trọt. Họ biến đổi những tập quá bao đời của người dân, đôi khi chỉ để nhằm thỏa mãn nhu cầu thiết lập trật tự theo bảng dữ liệu của người quản lý.

Các tổ chức có thể bị lừa dối bởi vẻ hàng nhoáng của các con số, hoặc gán cho con số những ý nghĩa không tồn tại trong thực tế. Đó là một trong những bài học từ cuộc chiến tranh Việt Nam, khi Bộ trưởng Quốc phòng Mỹ Robert McNamara quá tin tưởng vào các con số thống kê khi đánh giá tiến trình ngoài mặt trận, như số lượng đối phương bị tiêu diệt, cho dù con số không thể phản ánh sự phức tạp của cuộc xung đột, chưa kể chúng thường không chính xác, và rất ít giá trị khi dùng để đo lường thành công.

Yếu tố ảnh hưởng của con người

Như vậy, dữ liệu lớn là một tài nguyên và một công cụ có giá trị tham khảo, giúp ta hướng tới sự hiểu biết, nhưng cũng có thể dẫn tới nhầm lẫn, tùy thuộc vào cách sử dụng của con người.

Tuy nhiên, với xu thế khai thác dữ liệu lớn một cách phổ biến, một câu hỏi đặt ra là: trong một thế giới mà các vấn đề ngày càng được định đoạt bởi dữ liệu và công cụ máy móc thì mục đích còn lại của con người là gì, đâu còn giá trị của trực quan hay sự mạo hiểm? Khi mà tất cả mọi người ai cũng giống nhau, đều bị quyến rũ bởi sức mạnh của dữ liệu và những công cụ khai thác, có lẽ chúng ta sẽ cần giữ riêng một nơi để bảo tồn cho những yếu tố như trực quan, tư duy thực tiễn, duyên may, nhằm đảm bảo rằng chúng không bị xâm lấn bởi dữ liệu và những câu trả lời do máy móc cung cấp.

Điều này rất quan trọng cho sự phát triển của xã hội. Dữ liệu cho phép chúng ta tiến hành các thử nghiệm nhanh hơn, khám phá nhiều manh mối hơn. Những lợi thế ấy cần được phục vụ cho tiến trình sáng tạo, và nhiều khi sự sáng tạo sẽ đem lại kết quả bất ngờ mà không dữ liệu nào có thể tiên đoán, vì nó chưa từng có trước đấy.

Người dịch: Hà Trang

Hiệu đính: Trần Hữu Phước

Nguồn: Kenneth Neil Cukier & Viktor Mayer Schoenberger – The Rise of Big Data – Foreign Affairs

TN 2013 – 53

Thời đại dữ liệu lớn – Phần II


Tìm kiếm sự trùng hợp thay vì tìm nguyên nhân

Hai xu hướng thay đổi trong cách nghĩ của chúng ta về dữ liệu – từ một nhóm sang toàn bộ và từ tinh sang thô – đưa đến thay đổi thứ ba: từ tìm kiếm nguyên nhân chuyển sang tìm kiếm sự trùng hợp. Đó là khi người ta không cần phải cố gắng tìm ra những nguyên nhân sâu xa về sự vận hành của các sự vật trên thế giới, mà đơn giản chỉ cần tìm hiểu sự trùng hợp giữa các hiện tượng và dùng thông tin này để giải quyết vấn đề.

Ví dụ như ở UPS, một công ty vận chuyển hàng. Người ta cài cảm biến trong các bộ phận xe tải nhằm phát hiện ra hiện tượng tăng nhiệt và những nhịp rung lắc mà trước đây thường bị quy kết là nguyên nhân dẫn tới trục trặc. Công ty định dùng cách này để dự đoán được các xe có vấn đề từ trước khi xảy ra hỏng hóc, và thay thế các bộ phận ngay khi có điều kiện phù hợp thay vì phải xử lý trong điều kiện khó khăn nếu bị hỏng dọc đường. Thế nhưng dữ liệu mà họ thu dược không cho thấy có sự trùng hợp rõ ràng giữa những trục trặc máy móc với mức độ tăng nhiệt hay nhịp rung lắc. Đây là một kết quả có ý nghĩa, mặc dù nó không giúp chỉ ra nguyên nhân khiến máy móc bị hỏng, nhưng ít ra cũng giúp công ty biết cần phải làm gì trước mắt, làm cơ sở để họ tiếp tục mở rộng điều tra.

Cùng với nguyên tắc của dữ liệu lớn là đi tìm sự trùng hợp thay vì tìm cách lý giải căn nguyên, các nhà nghiên cứu ở Canada đã nghiên cứu về điều trị những viêm nhiễm trong cơ thể con người, nhằm can thiệp điều trị viêm nhiễm ở trẻ sơ sinh từ trước khi các triệu chứng lộ rõ. Bằng cách chuyển hóa 16 thông tin cơ bản, trong đó có nhịp tim, huyết áp, hơi thể, và mức oxy trong máu, thành một dòng dữ liệu với 1000 điểm dữ liệu/giây, họ đã tìm ra sự trùng hợp giữa những biến đổi rất nhỏ trong cơ thể với những vấn đề sức khỏe cần xử lý và điều trị, từ đó giúp các bác sĩ có thể can thiệp và chữa trị kịp thời hơn. Qua thời gian, việc ghi lại những quan sát này sẽ cho phép các bác sĩ hiểu rõ nguyên nhân gây ra các vấn đề này, nhưng trước mắt, khi sức khỏe của trẻ sơ sinh đang bị đe dọa, việc phát hiện sớm các vấn đề còn hữu ích hơn so với biết chính xác căn nguyên của chúng.

Một ví dụ nữa là tháng 2 năm 2009, các nhà nghiên cứu của Google đã công bố một nghiên cứu trên tạp chí Nature cho thấy khả năng theo dõi sự bùng phát của dịch cúm, đơn giản chỉ dựa trên những hồ sơ tìm kiếm mà Google lưu lại. Hàng ngày Google giúp người sử dụng thực hiện hơn một tỷ cuộc tìm kiếm thông tin trên mạng và lưu trữ tất cả mọi kết quả thu được. Công ty đã chọn ra 50 triệu cụm từ khóa phổ biến nhất trong khoảng năm 2003 đến năm 2008, và so sánh chúng với dữ liệu về dịch cúm từ Trung tâm kiểm soát và ngăn ngừa bệnh dịch (CDC) của Mỹ. Ý tưởng ở đây là nhằm tìm hiểu, liệu có sự trùng hợp giữa việc gia tăng tần số của một nhóm từ khóa được tra cứu bởi những cư dân ở một địa phương, với những dữ liệu của CDC về các đợt bùng phát dịch cúm ở cùng địa phương đó. Trên thực tế, CDC hàng ngày vẫn theo dõi số lượng bệnh nhân tới phòng khám trên khắp đất nước, nhưng thông tin của CDC có độ trễ báo cáo trong khoảng 1 tới 2 tuần – quá lâu để có thể kịp thời ngăn chặn một dịch bệnh bùng phát. Trái lại, hệ thống của Goole hoạt động rất nhanh, cho kết quả dữ liệu gần như tức thời bất kỳ khi nào người ta cần đến.

Cách làm của Google là rà soát tất cả mọi từ khóa qua một thuật toán nhằm xếp hạng mức độ trùng khớp giữa chúng và các đợt dịch cúm. Sau đó hệ thống sẽ thử kết hợp các từ khóa này với nhau và kiểm tra xem tần số trùng khớp nhờ thế mà tăng cao hơn không. Cuối cùng, sau khi tiến hành gần nửa tỷ phép tính trên dữ liệu có trong tay, Google nhặt ra được 45 cụm từ khóa – kiểu như “đau đầu” hay “ngạt mũi” – có mức trùng khớp cao nhất với dữ liệu của CDC về các đợt dịch cúm.

Tất nhiên, một người bất kỳ có thể tiến hành tra cứu về dịch cúm dù bản thân người đó và những người xung quanh vẫn hoàn toàn khỏe mạnh, đơn giản vì chỉ nghe tiếng hắt hơi ở nhà bên cạnh, hay bỗng nhiên phát sinh lo lắng sau khi đọc tin tức. Hệ thống của Google hoàn toàn không thể nhận biết được nguyên nhân thực sự đằng sau các cuộc tra cứu của người sử dụng, và nó cũng chẳng bận tâm tới điều này. Do vậy mà tháng 12 vừa qua, hệ thống của Google đã ước tính quá cao số lượng các ca bệnh cúm ở Mỹ. Điều này nhắc nhở chúng ta rằng các dự đoán kiểu như vậy thuần túy mang tính xác suất và không phải khi nào cũng chính xác, đặc biệt là khi người ta đưa ra ước đoán dựa theo số lượng tra cứu trên Internet. Dạng căn cứ như vậy thường xuyên thay đổi và dễ bị tác động bởi những ảnh hưởng bên ngàoi, ví dụ như tin tức truyền thông.

Thu lợi từ dữ liệu hóa

Giáo sư Shigeomi Koshimizu của Viện Công nghệ công nghiệp tiên tiến ở Tokyo là một chuyên gia về khai thác thông tin từ tư thế ngồi của mọi người. Từ đường nét cơ thể, dáng ngồi, sự phân bổ trọng lượng, tất cả đều có thể được lượng hóa và xếp thành cột dữ liệu. Koshimizu và nhóm nghiên cứu của ông đối chiếu những dữ liệu này với áp lực được đo từ 360 điểm khác nhau mà các cảm biến trên ghế xe hơi thu được, mỗi điểm có mức áp lực được xếp từ 0 tới 256. Kết quả thu được là một mật mã kỹ thuật số riêng biệt cho mỗi cá nhân. Trong một thử nghiệm, hệ thống đã phân biệt được từng cá nhân trong một nhóm người, với độ chính xác là 98%.

Nghiên cứu này không phải chỉ để làm cho vui. Koshimizu có kế hoạch ứng dụng nó thành một công nghệ giúp chống trộm cho xe hơi. Xe hơi được trang bị công nghệ này sẽ nhận biết được người lạ ngồi sau vô lăng sẽ đòi người đó cung cấp mật khẩu trước khi cho phép xe hoạt động. Việc chuyển hóa tư thế ngồi thành dữ liệu như vậy rất hữu ích, và hứa hẹn một triển vọng kinh doanh tiềm năng. Không chỉ giúp chống trộm ôtô, nó còn có thể giúp nhận biết nguy hiểm trên đường giao thông dựa trên tư thế của tài xế, chẳng hạn như một sự thay đổi đặc biệt trong tư thế người lái trước khi xảy ra tai nạn. Hệ thống cũng có thể nhận biết khi nào tài xế xe hơi sụp người xuống do mệt mỏi và chuyển tín hiệu khẩn cấp tự động giúp xe phanh lại.

Điều đáng nói ở đây là Koshimizu đã chuyển hóa một thứ chưa từng được coi là dữ liệu – thậm chí chưa từng được coi là thông tin đáng quan tâm – thành một định dạng có thể lượng hóa. Ta tạm gọi sự chuyển hóa này là “dữ liệu hóa”. Khác với số hóa là sự chuyển hóa những nội dung analog như sách, phim, ảnh thành những thông tin số gồm một chuỗi những ký tự 0 và 1 mà máy tính có thể đọc được, dữ liệu hóa là một dạng hoạt động rộng hơn, cho phép chuyển hóa một sự vật bất kỳ trong đời sống thành dữ liệu: ví dụ như thiết bị kính đeo mắt chuyên dụng của Google dữ liệu hóa tia nhìn của người đeo, Twitter dữ liệu hóa những suy nghĩ tản mạn, LinkedIn dữ liệu hóa mạng lưới công việc của người sử dụng.

Sau khi dữ liệu hóa sự vật, chúng ta có thể chuyển hóa mục đích của chúng, và chuyển thông tin thu được thành một dạng giá trị mới. Ví dụ, IBM được cấp bằng sáng chế của Mỹ năm 2012 cho phương thức “thâu tóm ích lợi từ công nghệ tính toán trên bề mặt” (“securing premises using surface-based computing technology”) – một dạng công nghệ dựa trên dữ liệu hóa sàn nhà. Sàn nhà có thể nhận dạng các sự vật bên trên nó, từ đó có thể bật sáng đèn hoặc mở cửa phòng khi có người bước vào. Hơn thế, nó còn nhận dạng được từng cá nhân dựa trên cân nặng hoặc cách thức người đó đứng và đi lại. Nó cũng biết được khi ai đó ngã xuống mà không đứng lên, công năng rất hữu ích khi phục vụ người lớn tuổi. Khi ứng dụng tại các cửa hàng, công nghệ này còn có thể giúp người quản lý nắm bắt được luồng di chuyển của khách hàng qua từng quầy bán. Việc chuyển hóa tất cả mọi sự vật thành dạng dữ liệu có thể lưu trữ và phân tích được sẽ cho phép con người hiểu rõ hơn về thế giới. Điều này cho phép chúng ta, với khả năng đo lường một cách dễ dàng và rẻ tiền như ngày nay, khám phá ra những điều trước đây chưa từng biết đến.

(còn tiếp) 

Người dịch: Hà Trang

Hiệu đính: Trần Hữu Phước

Nguồn: Kenneth Neil Cukier & Viktor Mayer Schoenberger – The Rise of Big Data – Foreign Affairs

TN 2013 – 53

Thời đại dữ liệu lớn – Phần I


Kenneth Neil Cukier & Viktor Mayer Schoenberger

Chúng ta đều biết rằng Internet đã làm thay đổi cách thức hoạt động của các doanh nghiệp, chức năng của chính phủ và cuộc sống của con người một cách toàn diện. Nhưng một xu hướng công nghệ mới, ít nhìn thấy được đã biến đổi đúng lúc, đó là “dữ liệu lớn”. Dữ liệu lớn khởi đầu với thực tế rằng hiện nay có nhiều thông tin trôi nổi hơn bao giờ hết và nó đượ cđưa tới cho những người dùng đặc biệt mới. Dữ liệu lớn khác với Internet, mặc dù các trang Web cho phép thu thập và chia sẻ dữ liệu một cách dễ dàng hơn. Dữ liệu lớn không chỉ là về thông tin liên lạc: ý tưởng đó là chúng ta có thể biết nhiều hơn từ một khối thông tin lớn mà chúng ta không thể lĩnh hội được khi chỉ sử dụng một lượng thông tin ít hơn.

Từ thế kỷ thứ III trước CN, thư viện Alexandria được coi là nơi chứa đựng toàn bộ kiến thức của loài người. Ngày nay, tổng lượng thông tin trên toàn thế giới đủ để chia đều cho mỗi đầu người một lượng nhiều gấp 320 lần lượng thông tin mà các sử gia tin rằng thư viện Alexandria từng lưu trữ – ước tính vào khoảng 120 exabyte. Nếu tất cả những thông tin này được ghi lại vào đĩa CD và chúng ta xếp chồng các đĩa CD này lên nhau, sẽ có tới 5 chồng đĩa mà mỗi chồng đều vươn dài chạm tới mặt trăng.

Sự bùng nổ dữ liệu này chỉ mới xuất hiện gần đây. Cách đây không lâu, vào năm 2000, chỉ mới có một phần tư lượng thông tin lưu trữ trên toàn thế giới ở dạng kỹ thuật số. Ba phần tư còn lại được người ta lưu trên giấy tờ, phim, và các phương tiện analog khác. Nhưng do lượng dữ liệu kỹ thuật số bùng nổ quá nhanh – cứ 3 năm lại tăng gấp đôi – cục diện trên nhanh chóng đảo ngược. Ngày nay, chỉ dưới 2% tổng lượng thông tin chưa được chuyển sang lưu trữ ở dạng kỹ thuật số.

Với quy mô khổng lồ như vậy, chúng ta dễ hiểu rằng dữ liệu lớn thuần túy chỉ là vấn đề về kích cỡ. Nhưng nghĩ vậy là lầm lẫn. Dữ liệu lớn còn được biết đến với khả năng chuyển hóa thành dữ liệu từ nhiều khía cạnh của đời sống mà trước đây chưa từng được lượng hóa; ta gọi hiện tượng này là “dữ liệu hóa”. Ví dụ, các địa điểm ngày nay đều được dữ liệu hóa, đầu tiên là bằng kinh độ và vĩ độ, và gần đây là qua các hệ thống vệ tinh định vị toàn cầu (GPS). Chữ viết cũng được coi như dữ liệu khi sách vở của nhân loại qua nhiều thế kỷ được lưu trữ trong máy tính. Kể cả tình bạn và những sự “ưa thích” (likes) cũng được dữ liệu hóa qua mạng Facebook.

Những loại dữ liệu này được sử dụng vào những chức năng phi thường nhờ vào sự hỗ trợ của những bộ nhớ máy tính có chi phí rất thấp, những bộ xử lý cực mạnh, những phép toán thông minh, các phần mềm khôn ngoan, dựa trên những kiến thức toán được vay mượn từ kiến thức thống kê đơn giản. Thay vì cố gắng “dạy” máy tính cách làm một việc gì đó, chẳng hạn như lái xe hơi hay làm phiên dịch ngôn ngữ, điều mà các chuyên gia trí tuệ thông minh nhân tạo đã cố gắng bất thành qua hàng thập kỷ, cách tiếp cận ngày nay đơn giản chỉ là cung cấp đủ dữ liệu cho một máy tính để nó có thể tính ra xác suất của tất cả mọi thứ mà người ta muốn tính toán, từ xác suất người đi đường gặp đèn giao thông màu xanh, hay xác suất chuyển ngữ từ “ánh sáng” trong một câu văn thành từ lumière hay từ léger (cả hai từ này đều có nghĩa là ánh sáng trong tiếng Pháp) thì chuẩn xác hơn.

Việc sử dụng những khối lượng thông tin theo cách này đòi hỏi ba sự thay đổi sâu sắc trong cách chúng ta tiếp cận dữ liệu. Một là thu thập và sử dụng thật nhiều dữ liệu thay vì chấp nhận lấy những mẫu thống kê với số lượng nhỏ như các nhà thống kê vẫn làm từ hơn một thế kỷ nay. Hai là không nhất thiết phải kén chọn sàng lọc ra dữ liệu sạch, vì kinh nghiệm thực tiễn cho thấy rằng một chút sai lệch trong thông tin vẫn có thể chấp nhận được, và việc sử dụng một lượng khổng lồ những dữ liệu ô hợp đem lại nhiều ích lợi hơn là cố gắng sàng lọc ra những dữ liệu tuy chính xác nhưng quá ít ỏi về dung lượng. Ba là trong nhiều trường hợp, chúng ta không nhất thiết phải cố tìm ra nguyên nhân đằng sau các hiện tượng. Ví dụ, không cần phải cố tìm hiểu chính xác vì sao một cỗ máy bị hỏng, hay vì sao tác dụng phụ của một loại thuốc bỗng nhiên biến mất, thay vào đó các nhà nghiên cứu có thể thu thập và phân tích thật nhiều dữ liệu về chúng cùng tất cả mọi thứ liên quan, từ đó rút ra quy luật làm cơ sở dự đoán các sự vật trong tương lai. Dữ liệu lớn giúp trả lời cho câu hỏi “Cái gì”, chứ không phải câu hỏi “Tại sao”, và thường thì như thế là đủ.

Internet đã định hình lại cách con người giao tiếp. Dữ liệu lớn lại khác: nó đánh dấu sự thay đổi trong việc xã hội xử lý thông tin như thế nào. Theo thời gian, dữ liệu lớn có thể thay đổi cách chúng ta suy nghĩ về thế giới. Khi chúng ta khai thác nhiều dữ liệu hơn bao giờ hết để hiểu các sự kiện và đưa ra quyết định, chúng ta có thể phát hiện ra rằng nhiều khía cạnh của cuộc sống chỉ là xác suất, chứ không phải là chắc chắn.

Càng nhiều càng tốt

Xuyên suốt lịch sử, con người làm việc với những lượng dữ liệu tương đối nhỏ vì thiếu công cụ thể thu thập, tổ chức, lưu trữ, và phân tích thông tin. Người ta sàng lọc thông tin một cách tối đa nhằm thu được mẫu dữ liệu có kích cỡ tối thiểu để có thể dễ phân tích hơn. Đó là thời hoàng kim của toán thống kê hiện đại, được xuất hiện lần đầu từ cuối thế kỷ XIX và đã trở thành công cụ giúp con người thấu hiểu những vấn đề phức tạp kể cả khi có trong tay rất ít dữ liệu. Ngày nay, môi trường kỹ thuật đã thay đổi 179o. Vẫn còn, và sẽ luôn còn một hạn chế về việc chúng ta có thể quản lý bao nhiêu dữ liệu nhưng nó sẽ ít hạn chế hơn trước đây và thậm chí trở nên ít hơn nữa trong thời gian tới.

Thời đó, việc thu thập thông tin khá tốn kém và mất thời gian, nên người ta khắc phục bằng cách lấy những mẫu điều tra quy mô nhỏ, dựa trên nguyên lý là, trong phạm vi sai số nào đó, người ta có thể dùng một nhóm nhỏ để suy luận ra đặc thù của một quần thể lớn, miễn là nhóm nhỏ đó được thu thập một cách ngẫu nhiên. Ví dụ, người ta có thể phỏng vấn ngẫu nhiên khoảng vài trăm người đi bỏ phiếu trong ngày bầu cử, từ đó dự đoán kết quả bầu cử của cả một tiểu bang. Tuy nhiên, cách làm này chỉ hiệu quả khi người ta cần đưa ra những ước đoán đơn giản, và dễ thất bại khi cần giải đáp những thắc mắc chi tiết và phức tạp, kiểu như làm sao biết được tỷ lệ phiếu bầu của những phụ nữ độc thân dưới 30 tuổi, hay tỷ lệ phiếu bầu của những phụ nữ người Mỹ gốc Á và có bằng đại học dưới 30 tuổi. Với những thắc mắc kiểu như vậy, việc thu thập mẫu điều tra một cách ngẫu nhiên trở nên vô dụng, vì có thể trong mẫu điều tra người ta chỉ thu được một vài người phù hợp với tiêu chí điều tra, quá ít ỏi để có thể rút ra được kết luận có tính đại diện cho toàn thể những đối tượng nghiên cứu. Tuy nhiên, vướng mắc này sẽ được hóa giải nếu chúng ta thu thập được toàn bộ dữ liệu.

Một hạn chế khác của việc sử dụng một lượng nhỏ dữ liệu là người ta phải quyết định ngay từ đầu sẽ thu thập những dữ liệu gì và cách thức sử dụng như thế nào. Còn ngày nay, khi chúng ta thu thập được tất cả mọi dữ liệu mình muốn, ta không cần phải biết trước mình sẽ sử dụng chúng ra sao. Tất nhiên, không phải khi nào ta cũng thu được mọi dữ liệu, nhưng ngày nay việc thu thập một lượng dữ liệu khổng lồ còn dễ hơn là phải tính toán cân nhắc tỉ mỉ để thu về một lượng dữ liệu nhỏ.

Đổi lại, khi tăng quy mô dữ liệu, chúng ta phải chấp nhận rằng dữ liệu không được sạch và không được tổng hợp một cách cẩn thận. Quan điểm này trái nghịch với cách thức con người làm việc với dữ liệu từ nhiều thế kỷ qua trong môi trường thông tin bị hạn chế và không thể thu thập được nhiều dữ liệu, đó là cố gắng sàng lọc tối đa nhằm đảm bảo mọi dữ liệu thu thập được là chính xác. Còn ngày nay, với khả năng dễ dàng thu thập một lượng dữ liệu khổng lồ, ta hoàn toàn có thể cho phép sai lệch ở đâu đó.

Ví dụ như trong dịch thuật, lĩnh vực mà các máy tính có thể làm rất tốt khi phải dịch từng từ đơn (do khả năng lưu trữ lớn trong bộ nhớ và tìm thông tin nhanh chóng tức thời) nhưng lại vô cùng vụng về nếu phải dịch cả một đoạn văn. Trong thập kỷ 90 của thế kỷ XX, hãng IBM đã có một đột phát trong công nghệ dịch thuật cả một đoạn văn bằng máy tính dựa trên kỹ thuật thống kê. Người ta tải vào máy tính một tài liệu có nội dung là biên bản họp của Nghị viện của Canada, bằng cả tiếng Anh và tiếng Pháp, và lấy tài liệu này làm cơ sở để giúp lập trình cho máy tính nhận biết một từ ở ngôn ngữ này được dịch sang từ nào của ngôn ngữ kia thì đạt xác suất dịch đúng là cao nhất. Cách thức dịch thuật như vậy thuần túy dựa trên toán học và thống kê. Tuy nhiên, sau bước phát triển này, IBM không đi tiếp được xa hơn.

Đó chính là lúc Google nhảy vào cuộc. Thay vì dùng một lượng tài liệu nhỏ được dịch thuật chuẩn xác, Google dùng rất nhiều dữ liệu được thu thập một cách ‘thô sơ’ trên Internet. Đó là những bản dịch từ trang web của các doanh nghiệp ở mọi thể loại ngôn ngữ, thậm chí cả những bản scan các cuốn sách trong dự án khổng lồ mà Google đang theo đuổi. Số lượng trang tài liệu không chỉ lên tới hàng triệu, mà là hàng tỷ. Kết quả dịch thuật theo cách này có thể nói là khá tốt – còn tốt hơn cả công nghệ của IBM – và không chỉ giới hạn ở 2 ngôn ngữ mà có tới 65 ngôn ngữ có thể được dịch thuật chéo qua nhau. Vậy là, một lượng nhỏ dữ liệu tinh đã bại trận trước một lượng khổng lồ dữ liệu thô.

(còn tiếp) 

Người dịch: Hà Trang

Hiệu đính: Trần Hữu Phước

Nguồn: Kenneth Neil Cukier & Viktor Mayer Schoenberger – The Rise of Big Data – Foreign Affairs

TN 2013 – 53