Quản trị dữ liệu, kiến thức dữ liệu và quản lý chất lượng dữ liệu – Phần cuối


Kiến thức dữ liệu, như được hiểu theo Hiệp hội Thư viện đại học và nghiên cứu, tập trung vào việc tìm hiểu cách tìm và đánh giá dữ liệu, nhấn mạnh đến phiên bản của tập dữ liệu nhất định và người chịu trách nhiệm về nó, và không bỏ qua các câu hỏi trích dẫn và sử dụng dữ liệu có đạo đức.

Xem xét tất cả các định nghĩa này, kiến thức dữ liệu có thể được định nghĩa là một bộ kỹ năng và kiến thức cơ bản, trao quyền cho các cá nhân biến dữ liệu thành thông tin và thành kiến thức có thể thực hiện bằng cách cho phép họ truy cập, giải thích, đánh giá, quản lý và sử dụng dữ liệu một cách có đạo đức.

Searle (2015) xác định kiến thức dữ liệu là một trong các hoạt động dịch vụ dữ liệu nghiên cứu hỗ trợ các nhà nghiên cứu xây dựng các kỹ năng và kiến thức cần thiết để quản lý dữ liệu tốt. Do đó, chúng ta có thể nói rằng kiến thức dữ liệu có liên quan thực tế đến tất cả các quy trình được dịch vụ dữ liệu nghiên cứu quy định, và xây dựng khung chính cho sự tham gia của các thư viện trong việc hỗ trợ mô hình nghiên cứu chuyên sâu về dữ liệu. Các dịch vụ dữ liệu nghiên cứu chắc chắn là toàn diện, do đó bao gồm các khía cạnh của chúng làm cho kiến thức dữ liệu rộng khắp và toàn diện.

Khi xem xét kiến thức dữ liệu gần với kiến thức thông tin, phải suy ngẫm xem liệu có một thứ như là kiến thức thông tin khái quát hay không.

Theo Carlson (2011), các chương trình dữ liệu thông tin phải phù hợp với thực tiễn chuyên ngành và văn hóa hiện nay. Một nghiên cứu phân tích của Pinto (2014) cho thấy rằng kiến thức thông tin cả trong khoa học y tế và khoa học xã hội đều có “tính cách” cụ thể riêng. Nói chung, các phương pháp tiếp cận mới hơn đối với kiến thức thông tin nhấn mạnh rằng thông tin được sử dụng trong các bối cảnh chuyên ngành khác nhau. Trong bối cảnh này, trường hợp kiến thức thông tin hóa học đặc biệt thú vị. Bawden và Robinson (2015) đã xem xét lịch sử của nó và nhận thấy rằng – mặc dù kiến thức thông tin hóa học có chứa một số yếu tố chung chung – nhưng nó đặc biệt là lĩnh vực cụ thể hơn bất kỳ chủ đề nào khác. Như Farrell và Badke (2015) nhấn mạnh, để đáp ứng nhu cầu của thời đại thông tin về  những người xử lý thông tin có trình độ, việc đào tạo kiến thức thông tin phải nằm trong phạm vi thực tiễn văn hóa xã hội của các ngành bằng việc tập trung mở rộng vào nhận thức luận và siêu diễn ngôn. Kiến thức thông tin thực sự sẽ đòi hỏi các cán bộ thư viện hoặc các giảng viên mời sinh viên vào các ngành học. Vì vậy, iến thức thông tin phải được hiểu là thực hành thông tin thuộc về một ngành học.

Kỹ năng kiến thức dữ liệu cũng đực xem là một ngành học cụ thể. Về kỹ năng và khả năng cần thiết, những người có kiến thức dữ liệu biết cách chọn và tổng hợp dữ liệu và kết hợp nó với các nguồn thông tin khác và kiến thức có trước. Họ cũng phải nhận ra giá trị dữ liệu nguồn và làm quen với các loại và định dạng dữ liệu. Các kỹ năng khác bao gồm biết làm thế nào để xác định, thu thập, tổ chức, phân tích, tóm tắt và ưu tiên dữ liệu. Xây dững các giả thuyết, xác định các vấn đề, giải thích dữ liệu, xác định, lập kế hoạch, thực hiện, cũng như giám sát các quá trình hành động cũng gắn liền với các kỹ năng cần thiết và thêm nhu cầu biến đổi dữ liệu cho các mục đích sử dụng cụ thể.

Ridsdale (2015) thiết lập một ma trận về năng lực kiến thức dữ liệu với ý định thúc đẩy một cuộc đối thoại liên tục về các tiêu chuẩn về kiến thức dữ liệu và kết quả học tập trong đào tạo kiến thức dữ liệu. Hoạt động có lẽ quan trọng nhất trong ma trận này là đánh giá chất lượng, bao gồm việc đánh giá các nguồn dữ liệu cho độ tin cậy và sai sót hoặc các vấn đề. Việc đánh giá xuất hiện khi chúng ta thu thập dữ liệu và giải thích dữ liệu rõ ràng cho thấy các cơ chế cũng là đặc trưng cho kiến thức thông tin. Ngay cả việc hiển thị dữ liệu bao gồm đánh giá các biểu thị đồ họa về dữ liệu.

Một chương trình kiến thức dữ liệu thí điểm tại Đại học Purdue được xây dựng dựa trên các kỹ năng sau:

+ Lập kế hoạch;

+ Mô hình vòng đời;

+ Khám phá và thu nhận;

+ Mô tả và siêu dữ liệu;

+ An ninh và lưu trữ;

+ Bản quyền và cấp giấy phép;

+ Chia sẻ;

+ Quản lý và tài liệu;

+ Hình dung;

+ Kho chứa;

+ Bảo quản;

+ Xuất bản và quản lý

Thực tế là chất lượng dữ liệu đóng vai trò đặc biệt trong kiến thức dữ liệu cũng đã được Carlson minh chứng. Nói chung, khoa trong nghiên cứu này mong muốn sinh viên tốt nghiệp của họ có thể thực hiện các hoạt động quản lý và xử lý dữ liệu. Cả các trách nhiệm chính và những thiếu sót trong quản lý dữ liệu của sinh viên sau đại học bao gồm việc đảm bảo chất lượng. Đảm bảo chất lượng được xem như một sự pha trộn các kỹ năng kỹ thuật giúp cụ thể hóa trong sự hiểu biết với thiết bị, kiến thức ngành học và một quá trình siêu nhận thức đòi hỏi sự tổng hợp. Mặc dù đã bị thay thế một phần bởi Khung kiến thức thông tin cho giáo dục đại học, song kiến thức dữ liệu có thể được nhìn qua lăng kính của Các tiêu chuẩn năng lực kiến thức thông tin cho giáo dục đại học. Tiêu chuẩn 3 của các tiêu chuẩn này (Đánh giá thông tin) bao gồm yêu cầu phải hiểu và đánh giá nghiêm khắc các nguồn bằng cách xác định xem liệu dữ liệu có đáng tin không và/hoặc kho dữ liệu hay thành phần của nó có cung cấp mức độ kiểm soát chất lượng cho nội dung của nó hay không.

Như đã đề cập ở trên, việc quản lý siêu dữ liệu là một trong những quy trình quản trị dữ liệu quan trọng liên quan đến chất lượng. Đồng thời, việc đánh giá siêu dữ liệu là một phần của việc đảm bảo chất lượng nên được đưa vào các chương trình kiến thức dữ liệu. Bảo đảm chất lượng trong bối cảnh này bao gồm việc sử dụng siêu dữ liệu để tạo điều kiện hiểu rõ các vấn đề tiềm ẩn đối với dữ liệu.

Đào tạo kiến thức dữ liệu có hai mục đích. Thứ nhất là đảm bảo rằng sinh viên, giảng viên và nhà nghiên cứu trở thành những cán bộ khoa học kiến thức dữ liệu. Như Carlson và Johnston (2015) nhấn mạnh, chúng ta phải nâng cao nhận thức về kiến thức dữ liệu cho các giảng viên, sinh viên và các quản trị viên bằng cách gửi thông điệp rõ ràng đến nhu cầu của các bên liên quan. Một số thông điệp có thể có nguồn gốc từ môi trường kinh doanh. Việc truyền tải những thông điệp của công ty thậm chí có thể tăng cường độ tin cậy của các thông điệp như vậy. Mục đích thứ hai là để đào tạo các chuyên gia thông tin.

Chia sẻ kiến thức dữ liệu cho giảng viên bị cản trở bởi các tình huống mà đào tạo họ là một vấn đề khó khăn. Như Duncan (2013) đã chỉ ra, các giảng viên hiếm khi thích nghe nói rằng họ đang làm một cái gì đó sai cách. Exner (2014) cũng khẳng định rằng không dễ dàng vươn tới giảng viên, đặc biệt là nếu chúng ta không hiểu cuộc sống của họ đúng cách. Các giảng viên rất bận rộn, và là chuyên gia trong lĩnh vực của mình, họ thường đòi hỏi các cách tiếp cận khác với sinh viên.

Kết luận

Mặc dù đã quen với việc quản trị dữ liệu không nhận được nhiều sự chú ý trong giới học thuật, song nó mang lại kiến thức đáng kể cho công việc của người quản lý dữ liệu. Mặc dù có sự khác biệt giữa chúng, song cả quản trị dữ liệu và kiến thức dữ liệu đều không thể thiếu đối với việc quản lý chất lượng dữ liệu, do đó – theo bản chất tổng thể của nó – việc sử dụng chúng là điều kiện tiên quyết để quản lý dữ liệu hiệu quả, chứng minh các dịch vụ dữ liệu nghiên cứu.

Sử dụng các bài học kinh nghiệm từ quản trị dữ liệu có thể làm tăng đáng kể hiệu quả của quá trình quản lý dữ liệu nghiên cứu trong các thư viện đại học. Lý do của việc này là đa dạng. Thứ nhất, trong việc phân định các lĩnh vực quyết định và xác định trách nhiệm giải trình cho việc ra quyết định, áp dụng các thông lệ được áp dụng trong quản trị dữ liệu có thể cải thiện công tác quản trị dữ liệu trong thư viện. Thứ hai, quản trị dữ liệu là một dịch vụ dựa trên các quy trình chuẩn, lặp lại và được thiết kế để cho phép minh bạch các quá trình liên quan đến dữ liệu và giảm chi phí, do đó nó có thể được sử dụng trong thư viện đại học. Thứ ba, nó đề cập đến các quy tắc, chính sách, tiêu chuẩn; quyền quyết định; trách nhiệm giải trình và phương pháp thực thi. Do đó, nó sẽ phục vụ là sự bổ sung thực tế cho nguyên tắc chất lượng dữ liệu hiện có, thực tiễn và công cụ của thư viện. Thứ tư, thực tiễn quản trị dữ liệu cũng có thể hữu ích trong việc quản lý thay đổi và đàm phán các vấn đề dữ liệu lớn.

Những bài học này có thể nói cho chính họ và có thể được xây dựng trong các chương trình kiến thức dữ liệu. Điều quan trọng đối với ngành thư viện là phải thực hiện nghiêm túc thách thức này và có được các kỹ năng cần thiết để cung cấp đào tạo kiến thức dữ liệu hiệu quả, bất kể năng lực của nó vượt quá kiến thức và kỹ năng của một thủ thư hay một giảng viên điển hình. Việc chú ý đến việc quản lý chất lượng dữ liệu (đồng thời xem xét quản lý dữ liệu) là một bước quan trọng để làm cho tất cả các đối tượng mục tiêu của chúng ta chấp nhận nhiệm vụ của thư viện để cung cấp các dịch vụ dữ liệu nghiên cứu và cung cấp các dịch vụ này đến mức độ hài lòng của họ.

Người dịch: Phương Hoài

Nguồn: Tibor Koltay – Data governance, data literacy and the management of data quality – IFLA Journal, Vol. 2, Issue 4, 2016.

TN 2017 – 91 & 92.

Advertisements

Quản trị dữ liệu, kiến thức dữ liệu và quản lý chất lượng dữ liệu – Phần III


Rõ ràng là các dịch vụ dữ liệu nghiên cứu được cung cấp bởi các thư viện đại học có thể đóng vai trò quan trọng như là các trung tâm dữ liệu chất lượng trong trường đại học, bằng cách cung cấp các dịch vụ kiểm tra và kiểm định chất lượng dữ liệu cho các cộng đồng nghiên cứu. Mặc dù mối quan tâm tới tính sẵn có của dữ liệu là một yêu cầu rõ ràng, không cần giải thích thêm, song việc hướng đến các thủ thư dữ liệu, hiểu biết về cách đánh giá tính xác thực, tính toàn vẹn và tính chính xác của các đối tượng số theo thời gian cũng sẽ có ích. Gần đây, Zilinski và Nelson (2014) đã xác định một số yếu tố khác của chất lượng dữ liệu như phạm vi và sự liên quan đến câu hỏi và định dạng nghiên cứu, bao gồm các trường và các đơn vị được sử dụng, các quy ước đặt tên, ngày tạo và cập nhật. Chúng cũng hướng sự chú ý của chúng ta đến một tập hợp các thuộc tính kiểm soát chất lượng tương tự như quản trị dữ liệu để trả lời câu hỏi xem kiểm soát chất lượng được nêu rõ hay không bằng cách tìm hiểu xem ai có trách nhiệm kiểm tra chất lượng và những quy trình nào họ sử dụng.

Quản trị dữ liệu thành công không chỉ phụ thuộc vào các quy định liên quan đến vai trò nói chung, mà còn các trách nhiệm liên quan đến các tiêu chuẩn dữ liệu thích hợp và các môi trường siêu dữ liệu được quản lý. Do đó, quản lý siêu dữ liệu là một trong những quá trình quản trị dữ liệu quan trọng liên quan đến chất lượng vì nó cho phép – trong số những thứ khác – ghi lại nguồn gốc dữ liệu đảm bảo chất lượng được đảm bảo.

Quản trị dữ liệu, chất lượng dữ liệu và kiến thức dữ liệu

Để minh chứng tầm quan trọng của quản trị dữ liệu, chúng ta có thể xem xét nghiên cứu tình huống của Soares (2012) về những sự kiện không may xung quanh tàu thăm dò sao Hỏa (Mars Climate Orbiter). Năm 1999, một lỗi định hướng dẫn Orbiter vào quỹ đạo thấp hơn 170 km so với độ cao dự kiến trên sao Hỏa bởi vì các kỹ sư của NASA đã sử dụng các đơn vị Anh (pound) thay vì các đơn vị được chỉ định của NASA (newtons). Sai lầm tương đối nhỏ này dẫn đến sự tính toán sai lầm lớn về độ cao quỹ đạo và tổn thất 328 triệu USD. Với sự chú ý đặc biệt đến các nguyên tắc quản trị dữ liệu và các chi tiết thực tế, và nếu các kỹ năng kiến thức dữ liệu được huy động thì tai nạn này có thể tránh được.

Mặc dù kiến thức dữ liệu đang trải qua giai đoạn phát triển, song kiến thức dữ liệu bắt đầu được chấp nhận rộng rãi như là một khả năng quan trọng cho các chuyên gia thông tin tham gia và việc hỗ trợ nghiên cứu chuyên sâu về dữ liệu. Mặt khác, các thuật ngữ trong lĩnh vực kiến thức dữ liệu vẫn chưa được chuẩn hóa. Ở đây có kiến thức dữ liệu khoa học kiến thức dữ liệu nghiên cứu. Carlson (2011) tranh luận về kiến thức dữ liệu thông tin vì – theo cách tiếp cận của học – nó khác với ý nghĩa hạn chế của kiến thức dữ liệu, tức là khả năng đọc đồ thị và biểu đồ thích hợp, rút ra kết luận chính xác từ dữ liệu và nhận dạng khi dữ liệu được sử dụng theo cách thức gây hiểu nhầm hoặc không thích hợp. Sau đây, sự khác biệt về đặt tên sẽ không được xem xét, và chúng tôi sẽ bỏ phiếu cho thuật ngữ kiến thức dữ liệu trước bởi vì thuật ngữ này đơn giản và dễ hiểu, mặc dù nó có vẻ không có giới hạn mà Carlson đề cập. Bên cạnh đó, mặc dù các thuật ngữ khác nhau, song định nghĩa và danh sách năng lực cho thấy sự hội tụ. Nếu chúng ta nhìn vào sự phát triển của các định nghĩa về kiến thức dữ liệu, chúng ta có thể thấy rằng Fosmire và Miller (2008) đã nói đơn giản về kiến thức thông tin trong thế giới dữ liệu. Hai năm sau, kiến thức dữ liệu được định nghĩa rõ ràng là khả năng hiểu, sử dụng và quản lý dữ liệu. Theo định nghĩa của Calzada Prado và Marzal (2013), kiến thức dữ liệu cho phép các cá nhân truy cập, diễn giải, đánh giá, quản lý, xử lý và sử dụng dữ liệu hợp lý.

Như đã đề cập ở trên, Johnson (2012) mô tả kiến thức dữ liệu chi tiết hơn, xác định nó như là khả năng xử lý, sắp xếp và lọc số lượng lớn thông tin, việc này đòi hỏi phải biết cách tìm kiếm, lọc và xử lý để sản xuất và tổng hợp thông tin. Rõ ràng rằng các thuộc tính này về cơ bản giống với các đặc điểm của kiến thức thông tin khi chúng xuất hiện trong định nghĩa phổ biến và được thừa nhận rộng rãi về kiến thức thông tin, bao gồm khả năng nhận biết nhu cầu thông tin, xác định, định vị, đánh giá và sử dụng thông tin để giải quyết một vấn đề cụ thể. Tuy nhiên, cần nói thêm rằng – mặc dù kiến thức thông tin dường như chủ yếu cho phép chúng ta xử lý hiệu quả tất cả các loại nội dung thông tin – cộng đồng hoạt động đối với thủ thư dữ liệu khác với kiến thức thông tin.

Về những điểm tương đồng với kiến thức thông tin, cần nói thêm rằng một số tác giả nhấn mạnh điều đó. Khung kiến thức thông tin của Australia và New Zealand, do Alan Bundy (2004) biên soạn, cho biết những người có kiến thức thông tin có thể thu thập, lưu trữ và phổ biến không chỉ văn bản mà cả dữ liệu nữa. Andretta (2008) đã xác định việc trình bày, đánh giá và diễn giải các dữ liệu định tính và định lượng như là một kết quả học tập của kiến thúc thông tin. Theo Hunt (2004), việc đào tạo kiến thức dữ liệu cần phải vay mượn từ đào tạo kiến thức thông tin, ngay cả khi lĩnh vực kiến thức dữ liệu phân tán hơn lĩnh vực kiến thức thông tin. Schneider (2013) cũng xác định kiến thức dữ liệu như là một phần của kiến thức thông tin.

Cả mô hình Bảy trụ cột của kiến thức thông tin SCONUL (2011) và thấu kính kiến thức thông tin về Khung phát triển của các nhà nghiên cứu Vitae (Vitae, 2011) đều nhấn mạnh rằng để xác định thông tin nào có thể cung cấp tư liệu tốt nhất nhằm đáp ứng nhu cầu tin, tìm kiếm, tạo ra và xử lý với dữ liệu nghiên cứu là rất quan trọng, vì kiến thức thông tin hiện nay không chỉ bao gồm các thông tin được công bố và các dữ liệu cơ bản. Điều này phù hợp với cách giải thích rộng hơn về kiến thức thông tin, trong đó thừa nhận rằng khái niệm thông tin bao gồm dữ liệu nghiên cứu. Carlson (2011) nhấn mạnh rằng việc mở rộng phạm vi kiến thức thông tin bao gồm quản lý dữ liệu là một sự phát triển hợp lý. Si (2013) cho rằng các dịch vụ liên quan đến dữ liệu cần được các chuyên gia giỏi về kiến thức thông tin hỗ trợ.

Mặc dù không đề cập đến kiến thức dữ liệu, Wang (2013) đề cập đến các cán bộ tra cứu thường xuyên tổ chức các buổi học kiến thức thông tin để đào tạo người dùng tin về các nguồn dữ liệu hiện có cho các lĩnh vực nghiên cứu cụ thể của họ.

Calzada Prado và Marzal (2013) cho biết rằng kiến thức thông tin và kiến thức dữ liệu là một phần của sự liên tục giáo dục về khoa học, một quá trình đào tạo dần dần bắt đầu ở trường học được hoàn thiện và trở nên chuyên sâu trong đào tạo đại học và trở thành một phần của quá trình học tập suốt đời. Khi đề xuất một khuôn khổ mới cho đào tạo kiến thức dữ liệu, Maybee và Zilinski (2015) cũng chỉ ra mối quan hệ chặt chẽ giữa kiến thức thông tin và kiến thức dữ liệu.

Ngoài các định nghĩa, việc áp dụng và phân tích một số tiêu chuẩn kiến thức thông tin, Calzada Prado và Marzal (2013: 126) đã xác định được một số khả năng, một số đã chỉ rõ nguồn gốc của họ trong định nghĩa phổ biến nhất về kiến thức thông tin và Tiêu chuẩn năng lực kiến thức thông tin cho giáo dục đại học.

+ Xác định khi dữ liệu là cần thiết;

+ Truy cập các nguồn dữ liệu phù hợp với các thông tin cần thiết;

+ Nhận biết giá trị, loại và định dạng dữ liệu nguồn;

+ Đánh giá dữ liệu và nguồn của nó;

+ Biết cách lựa chọn và tổng hợp dữ liệu và kết hợp dữ liệu với các nguồn thông tin khác và kiến thức sẵn có;

+ Sử dụng dữ liệu một cách đạo đức;

+ Áp dụng kết quả để học tập, ra quyết định hoặc giải quyết vấn đề.

Họ cũng nhấn mạnh đến khả năng xác định bối cảnh trong đó dữ liệu được tạo ra và tái sử dụng. Bằng cách đề cập đến hai thành phần chính trong vòng đời dữ liệu, chúng phù hợp với quan điểm hiện tại về kiến thức thông tin kết hợp sự hiểu biết về cách thức tạo ra thông tin.

Mandinach và Gummer (2013) xác định kiến thức dữ liệu là khả năng hiểu và sử dụng dữ liệu hiệu quả để đưa ra quyết định. Với điều này, họ mang lại trọng lượng cho vai trò của kiến thức dữ liệu trong việc hỗ trợ việc ra quyết định Do đó, chúng mang kiến thức dữ liệu đến quản trị dữ liệu, thừa nhận rằng nó có thể được gắn liền với thế giới kinh doanh.

(còn tiếp)

Người dịch: Phương Hoài

Nguồn: Tibor Koltay – Data governance, data literacy and the management of data quality – IFLA Journal, Vol. 2, Issue 4, 2016.

TN 2017 – 91 & 92.

Quản trị dữ liệu, kiến thức dữ liệu và quản lý chất lượng dữ liệu – Phần II


Quản trị dữ liệu cũng mô tả các lĩnh vực quyết định, tức là những quyết định phải được thực hiện để đảm bảo quản lý hiệu quả và sử dụng tài sản của tổ chức. Nó cũng xác định phạm vi trách nhiệm đối với việc ra quyết định bằng cách xác định ai có quyền quyết định trong tổ chức và ai chịu trách nhiệm về quyết định liên quan đến tài sản dữ liệu. Seiner cho biết thêm rằng quản trị dữ liệu hợp lệ có thể yêu cầu xác định “những người có trách nhiệm về dữ liệu họ xác định, tạo ra và sử dụng để hoàn thành công việc hoặc chức năng của họ”. Một trong những lý do là việc quản trị đúng đắn và hiệu quả phụ thuộc nhiều vào công nghệ cũng như vào văn hóa tổ chức, bất chấp thực tế rằng công nghệ quản trị tốt sẽ làm cho dữ liệu minh bạch, dẫn đến trách nhiệm giải trình và giúp xác định các lĩnh vực hoạt động mà có thể cải thiện hiệu suất.

Trách nhiệm giải trình, các thành phần chính của cương vị quản lý và tiêu chuẩn hóa, được định nghĩa theo cách thức đưa ra kiểm tra và cân bằng giữa các nhóm khác nhau, giữa những người tạo ra và thu thập thông tin, những người quản lý, những người sử dụng và những người đưa ra các tiêu chuẩn và yêu cầu tuân thủ.

Khi cương vị quản lý xuất hiện trong danh sách này và cũng có mặt trong một số tài nguyên liên quan đến quản lý dữ liệu nghiên cứu, và vì đôi khi nó được sử dụng hoán đổi cho quản trị dữ liệu, thì cần phải làm rõ một số thông tin. Cương vị quản lý dữ liệu liên quan đến việc giữ gìn các tài sản dữ liệu mà không thuộc quản lý của người quản lý, do đó các nhà quản lý dữ liệu đại diện cho mối quan tâm của người khác và đảm bảo rằng các công việc liên quan đến dữ liệu được thực hiện theo các chính sách và thông lệ như đã được xác định thông qua quản trị. Ngược lại, quản trị dữ liệu là một quá trình tổng thể nhằm kết hợp các nhóm chức năng (bao gồm cả người quản lý dữ liệu và/hoặc người cai quản dữ liệu) để tạo ra các quy tắc phụ thuộc lẫn nhau hoặc để giải quyết các vấn đề và cung cấp dịch vụ cho các bên liên quan.

Để thành công, quản trị dữ liệu cần phải có định nghĩa rõ ràng về mục tiêu, quy trình và thước đo của nó. Nó phải tạo ra các quy trình và tiêu chuẩn riêng. Bên cạnh via trò và trách nhiệm như thế tất cả các vai trò quản trị dữ liệu, các hội đồng thực thi quản trị, quản lý và quản lý thông tin phải được thiết lập. Các quy trình quản lý thay đổi cũng phải được thiết lập, và cuối cùng nhưng không kém phần quan trọng – phải có phần thưởng cho việc quản trị dữ liệu tốt.

Quản trị dữ liệu không là tùy ý, bởi vì nó góp phần vào sự thành công của tổ chức thông qua các hành động lặp lại và tuân thủ. Theo nghĩa quản lý, giám sát và đo lường các khía cạnh khác nhau của một tổ chức, quản trị có thể liên quan đến việc quản lý công nghệ thông tin, nhân lực và các nguồn lực hữu hình khác. Dữ liệu ở khắp mọi nơi, do đó quản trị dữ liệu chạy theo chiều ngang. Các định nghĩa về dữ liệu và cách sử dụng nó là một phần của quá trình quản lý dữ liệu, trong khi tích hợp dữ liệu vào tổ chức và thiết lập các cá nhân để giám sát việc quản lý các quá trình dữ liệu gắn liền với quản trị dữ liệu. Quản trị dữ liệu cũng phải bao gồm siêu dữ liệu, dữ liệu phi cấu trúc, đăng ký, phép phân loại và bản thể học.

Các nguyên tắc truyền thống của quản trị dữ liệu cũng áp dụng cho dữ liệu lớn. Trong số các loại dữ liệu lớn, dữ liệu từ Web và từ truyền thông xã hội, cũng như dữ liệu từ máy tính đến máy tính đều đáng chú ý. Quản trị dữ liệu lớn đặc biệt quan trọng đối với việc sử dụng dữ liệu có thể chấp nhận được. Trong các môi trường mà dữ liệu lớn đóng vai trò quan trọng, một trong những sai lầm tích hợp dữ liệu phổ biến nhất là đánh giá thấp quản trị dữ liệu. Mặc dù sự tích hợp dữ liệu lớn khác với tích hợp dữ liệu truyền thống theo nhiều yếu tố, song nó cho thấy sự phức tạp và tầm quan trọng của quản trị dữ liệu. Tích hợp dữ liệu có thể được định nghĩa là sự kết hợp các quy trình kỹ thuật và kinh doanh được sử dụng để kết hợp dữ liệu từ các nguồn khác nhau thành thông tin có ý nghĩa và có giá trị. Nó giúp làm hiểu rõ, làm đáng tin cậy từ nhiều nguồn khác nhau. Tích hợp dữ liệu giải quyết các vấn đề liên quan đến việc kết hợp dữ liệu có xuất xứ đa dạng bằng cách thể hiện một quan điểm thống nhất về những dữ liệu này.

Như Sarsfield đã chỉ ra, quản trị dữ liệu giống như một con voi trong một căn phòng tối. Con voi có thể được nhận thức tùy thuộc vào từng bộ phận mà bạn chạm vào nó. Nó bạn chạm vào đuôi thì con voi được cảm nhận nó giống như một con rắn. Nếu bạn chạm vào một trong hai chân thì con voi được cảm nhận nó giống như một cái thân cây. Do đó, các quan điểm theo chức năng về quản trị dữ liệu khác nhau và chúng ta sẽ xem xét tính đa dạng này để kết hợp nó với chất lượng dữ liệu và kiến thức dữ liệu.

Trong môi trường nghiên cứu, các bên liên quan của quản trị dữ liệu là các nhà nghiên cứu, các nhà tài trợ, các nhà xuất bản và công chúng nói chung. Sự hiểu biết tốt về quản trị dữ liệu cũng giải tỏa nỗi lo lắng về các quyền và lợi ích bị mất của các nhà nghiên cứu. Các cơ cấu quản trị cũng cần thiết cho việc quản lý các dữ liệu liên quan đến con người, bởi vì việc đảm bảo những thông tin nhạy cảm đòi hỏi không chỉ phải thiết lập các tiêu chuẩn và các quy tắc thực tiễn mà còn thúc đẩy sự thay đổi văn hóa theo hướng quản lý dữ liệu tốt hơn. Ngoài các chức năng này, quản trị dữ liệu trong môi trường này cho phép truy cập và chia sẻ hợp lý, ngay cả khi quyền sở hữu dữ liệu thường không rõ ràng, bởi vì nếu ai đó có quyền lợi trong dữ liệu nghiên cứu, thì điều đó không có nghĩa là họ là chủ sở hữu dữ liệu đó. Nhiều kỹ năng quản trị dữ liệu, chẳng hạn như xử lý các điều khoản và thỏa thuận cấp phép, cũng như kiến thức về bản quyền đã được các thủ thư sở hữu.

Nói chung, quản trị dữ liệu là điểm khởi đầu cho việc quản lý dữ liệu. Một chương trình quản trị dữ liệu chính thức phải cung cấp câu trả lời cho các câu hỏi, như là khả năng có sẵn và khả năng truy cập, nguồn, ý nghĩa và tính tin cậy. Là một phần trách nhiệm trong toàn bộ các thành phần của một tổ chức, quản trị dữ liệu bắt buộc phải cung cấp các cách tiếp cận phối hợp, liên chức năng và tạo điều kiện thực hành tốt nhất. Quản trị dữ liệu ngăn chặn việc lạm dụng tài sản dữ liệu của tổ chức và khuyến khích sử dụng hiệu quả hơn các tài sản dữ liệu tương tự của chính tổ chức này. Khả năng hiểu biết về bản chất của quản trị dữ liệu là cơ sở cho dịch vụ dữ liệu nghiên cứu và quản trị dữ liệu nghiên cứu phát triển tốt là một trong những điều kiện cần thiết cho dữ liệu mở, mặc dù đây cũng là một trong những vấn đề thách thức nhất trong việc chia sẻ dữ liệu.

Quản trị dữ liệu và quản lý chất lượng dữ liệu

Quản trị dữ liệu cũng “đảm bảo rằng dữ liệu có thể đáng tin cậy và rằng mọi người có thể phải chịu trách nhiệm cho bất kỳ sự kiện bất lợi nào xảy ra vì chất lượng kém” (Sarsfield, 2009: 38). Quan niệm tương tự, Khatri và Brown (2010) nhấn mạnh rằng quản trị bao gồm việc xác định ai trong tổ chức có quyền quyết định để xác định các tiêu chuẩn về chất lượng dữ liệu. Quản lý dữ liệu liên quan đến việc xác định các tiêu chuẩn thực tế được áp dụng cho chất lượng dữ liệu, trong khi quản trị dữ liệu chỉ định ai nên đưa ra những quyết định này. Theo Seiner (2014), quản trị dữ liệu chính thức hóa không chỉ hành vi liên quan đến định nghĩa, sản xuất và sử dụng dữ liệu, mà còn cả về chất lượng. Tương tự, Báo cáo của Information Builders nhấn mạnh rằng quản thành phần quan trọng của bất kỳ chiến lược quản lý chất lượng dữ liệu nào. Một báo cáo khác có tựa đề Quản trị thông itn thành công thông qua dữ liệu chất lượng cao nhấn mạnh rằng sự thành công của một chương trình quản trị thông tin phụ thuộc vào chất lượng dữ liệu có thể đạt được nếu chúng ta giảm sự gia tăng của dữ liệu không chính xác hoặc không nhất quán bằng việc phân tích và giám sát liên tục.

Chất lượng dữ liệu là một trong những nền tảng của mô hình chuyên sâu về dữ liệu của nghiên cứu khoa học. Điều này đúng, ngay cả khi rất khó đánh giá dữ liệu, bởi vì việc đánh giá đòi hỏi kiến thức chuyên ngành sâu và đánh giá theo cách thủ công các bộ dữ liệu rất tốn thời gian và tốn kém, trong khi các phương pháp tiếp cận tự động đang ở giai đoạn sơ khai. Trong lĩnh vực học thuật, vấn đề chất lượng dữ liệu đã được xây dựng tương đối tỉ mỉ, do đó việc xử lý sâu hơn là không cần thiết. Tuy nhiên, chúng ta hãy nhắc lại các yếu tố đáng chú ý nhất, đó là tính sẵn có và khả năng khám phá, tin cậy và tính xác thực, khả năng chấp nhận, tính chính xác (bao gồm tính đúng đắn và nhất quán), khả năng áp dụng, toàn vẹn, đầy đủ, dễ hiểu và khả năng sử dụng.

(còn tiếp) 

Người dịch: Phương Hoài

Nguồn: Tibor Koltay – Data governance, data literacy and the management of data quality – IFLA Journal, Vol. 2, Issue 4, 2016.

TN 2017 – 91 & 92.

Một xã hội dữ liệu không phải là một xã hội thống kê


Xavier de la Porte

Liệu các máy vi tính, các thuật toán và các cơ sở dữ liệu có thể giúp chúng ta nghĩ khác về xã hội của chúng ta không?

Lev Manovich (@manovich) là một nhà nghiên cứu người Nga di cư sang Hoa Kỳ. Kể từ cuối những năm 1990, và dựa trên nhiều cuốn sách, trong đó có cuốn kinh điển Le Langage des nouveaux médias (Ngôn ngữ của các phương tiện truyền thông mới), ông tự khẳng định như là một trong những nhà tư tưởng quan trọng nhất của kỹ thuật số. Được Claire Ricahrd phỏng vấn trên chương trình phát thanh Place de la toile, ông trả lời vấn đề trên một cách thuyết phục.

Manovich giải thích, kể từ thế kỷ XIX đến gần đây, xã hội của chúng ta được hình dung thông qua các số liệu thống kê. Nhưng số liệu thống kê chỉ quan tâm đến số trung bình. Vào những năm 1830, khi Adolphe Quételet đo lường chiều cao các binh lính của quân đội Pháp, điều mà ông ta quan tâm, đó là con người trung bình. Và xã hội hiện đại của chúng ta, phù hợp với các công cụ mô tả là những số liệu thống kê, đã được xây dựng xung quanh hệ chuẩn này… Kể từ Foucault, chúng ta đã biết rõ tất cả điều này.

Nhưng từ những năm 1960 và cùng với những tiến bộ của tin học, cơ sở dữ liệu đã xuất hiện. Và ngày nay, Internet mở ra cơ hội để lấp đầy các cơ sở dữ liệu ấy bằng vô số các dữ liệu, ngày càng chi tiết hơn. Khi muốn nghiên cứu một dân số, thì không còn là một vài ngàn con số để có thể thao tác, mà là hàng triệu, thậm chí hàng tỷ con số. Và, theo, Manovich, điều đó đã làm thay đổi mọi thứ. Trước đây, khi chưa có tin học hoặc có ở dạng thô sơ, người ta chỉ có thể phân loại dân số theo một vài hạng mục: nam/nữ, bình thường/bất thường, khỏe mạnh/ốm đau, người Pháp/người nước ngoài… Ngày nay, nếu quan tâm đến dân số của một thành phố lớn, bạn có thể tung hứng vô số các biến. Vì vậy, bạn có thể tạo ra những phạm trù đáp ứng vô số các tiêu chí, và cả các tiêu chí mới. Vì sao điều này quan trọng? Đối với Manovich, có được khả năng tập hợp và phân chia theo một số lượng gần như vô hạn các tiêu chí sẽ làm yếu đi các biểu trưng đại diện cổ điển của các quần thể dân số. Còn giá trị gì nữa những phạn trù cũ về giai cấp, giới tính hay dân tộc, khi mà người ta có thể có được một biểu trưng đại diện chính xác hơn nhiều, chi tiết hơn nhiều các quần thể sinh sống trong một thành phố? Bởi vì từ nay, điều mà chúng ta có thể dựa vào để làm việc đó là các dữ liệu khác: sở thích, sự dịch chuyển, các tập quán văn hóa, tính thời gian, và chúng ta có thể kiểm tra chéo mọi thứ theo mọi hướng.

Hãy thử tưởng tượng một lúc rằng Lev Manovich có lý. Hãy thử tưởng tượng rằng các công cụ mới sẽ làm xuất hiện những biểu trưng mới, hãy thử tưởng tượng rằng những biểu trưng mới này sẽ làm xuất hiện những nhóm quần thể mới không được hình thành theo những tiêu chí cũ (giới tính, giai cấp, dân tộc…) mà theo những tiêu chí khác… Liệu chúng ta có thể hi vọng rằng biểu trưng của chúng ta về xã hội đã thay đổi không? Khi nhận ra rằng các nhóm quần thể mới vượt ngoài các tiêu chí cũ, liệu chúng ta có thể hi vọng rằng chúng loại bỏ các tính khác biệt cũ không?

Và về thứ bậc giữa các tiêu chí, bạn có thể nói với tôi rằng có những tiêu chí mang tính quyết định hơn các tiêu chí khác không: là nam hay nữ, là điều mang tính quyết định hơn so với việc chọn màu xanh thay vì màu đỏ!” Về điều này, Manovich trả lời: “nhưng thứ bậc là một khái niệm của thế giới cổ”. Trước hết, cơ sở dữ liệu phá vỡ thức bậc khi đặt tất cả các con số ngang hàng với nhau. Nhưng trên hết, mạng loại bỏ thứ bậc. Khi tạo điều kiện đi từ nội dung này sang nội dung khác, từ một mẩu quảng cáo đến Proust, từ Proust đến một cuốn tiểu thuyết bình dân, từ một cuốn tiểu thuyết bình dân đến Barack Obama, mạng, bằng cách nào đó, đã chuẩn bị cho chúng ta tiếp nhận những biểu trưng mới ấy của xã hội chúng ta, khi mà các thứ bậc cũ không còn hiệu lực. Mọi thứ đều hội tụ vào sự ra đời của một xã hội không còn là xã hội của các số liệu thống kê, mà là một xã hội của các dữ liệu, một xã hội vẫn còn phải làm rõ những nét đặc trưng.

Vâng tôi hoàn toàn ý thức được các vấn đề mà điều đó đặt ra. Và đặc biệt là cho quan điểm chính trị. Bởi vì khi nào mà các tiêu chí cũ ấy vẫn còn hiệu lực trong thực tế (việc có một cái tên Arab, việc là người phụ nữ, là người tàn tật… vẫn còn muốn nói lên một điều gì đó), thì các tiêu chí cũ ấy vẫn còn là các đòn bẩy đấu tranh. Nhưng dù sao, nếu các máy tính, các cơ sở dữ liệu và các thuật toán có thể cuối cùng thuyết phục được chúng ta rằng các tính khác biệt không tồn tại ở nơi mà chúng ta nghĩ, nếu chúng có thể làm xuất hiện những sự gần nhau bất ngờ và đáng kinh ngạc và những điểm giống nhau sâu sắc và thiết yếu, thì điều đó sẽ giúp chúng ta tiến bộ một chút.

Người dịch: Huỳnh Thiện Quốc Việt

Nguồn: “Une société de données n’est pas une société statistique”, internetactu.net, 07/07/201114.

Quản trị dữ liệu, kiến thức dữ liệu và quản lý chất lượng dữ liệu – Phần I


Tibor Koltay

Tóm tắt

Quản trị dữ liệu và kiến thức dữ liệu là hai khối quan trọng trong nền tảng kiến thức của các chuyên gia thông tin liên quan đến việc hỗ trợ tra cứu đa dữ liệu, và giải quyết cả chất lượng dữ liệu và quản lý dữ liệu tra cứu. Việc áp dụng quản trị dữ liệu để nghiên cứu các quy trình quản lý dữ liệu và đào tạo kiến thức dữ liệu giúp phác họa các phạm vi quyết định và xác định trách nhiệm giải trình cho việc ra quyết định. Việc thông qua quản trị dữ liệu là có lợi, bởi nó là một dịch vụ dựa trên các quy trình chuẩn, lặp lại và được thiết kế để cho phép minh bạch các quá trình liên quan đến dữ liệu và giảm giá thành. Quản trị dữ liệu cũng hữu ích, bởi vì nó đề cập đến các quy tắc, chính sách, tiêu chuẩn; quyền quyết định; trách nhiệm giải trình và phương pháp thực thi. Do đó, mặc dù đã nhận được nhiều sự quan tâm hơn trong các sắp đặt thư viện và một số kỹ năng liên quan đến quản trị dữ liệu mà các thủ thư đã có, song kiến thức về quản trị dữ liệu vẫn là nền tảng cho các dịch vụ tra cứu dữ liệu, đặc biệt là khi nó xuất hiện ở tất cả các mức độ của dịch vụ tra cứu và có thể áp dụng cho dữ liệu lớn.

Giới thiệu

Khoa học chuyên sâu về dữ liệu, cùng với các nhiệm vụ cho kế hoạch quản lý dữ liệu và dữ liệu mở từ các nhà tài trợ nghiên cứu, đã dẫn đến sự chú trọng ngày càng tăng lên về quản lý dữ liệu nghiên cứu trong cả các thư viện nghiên cứu và các thư viện đại học. Vai trò của thư viện đại học đang thay đổi, vì vậy các thủ thư thư viện đại học thường được lồng ghép vào quy trình tra cứu, trước tiên là trong các dịch vụ dữ liệu nghiên cứu (research data service – RDSs). Do đó, không có gì ngạc nhiên khi việc hỗ trợ nghiên cứu chuyên sâu về dữ liệu là xu hướng hàng đầu trong hoạt động thư viện đại học. Đó là tâm điểm đặc biệt vì nó tạo cơ hội để thay đổi tình hình hiện tại, nơi các giảng viên và các nhà nghiên cứu coi thư viện không phải là nơi hỗ trợ nghiên cứu theo thời gian thực, mà chỉ là một trạm phân phối sách vở.

Trong bối cảnh này, việc đánh giá tài liệu được thực hiện để xác định và kiểm tra các yếu tố quan trọng của cơ sở tri thức mà có ý nghĩa quyết định đối với các chuyên gia thông tin tham gia vào việc hỗ trợ nghiên cứu chuyên sâu về dữ liệu. Yếu tố đầu tiên là quản trị dữ liệu (data governance – DG), được giải quyết rộng rãi trong lĩnh vực doanh nghiệp và được nghiên cứu trong bài báo này với niềm tin rằng sẽ cho phép cung cấp dịch vụ dữ liệu nghiên cứu tốt hơn. Thứ hai là kiến thức dữ liệu, có rất nhiều văn bản trong số đó có dạng các bài viết đánh giá. Kiến thức dữ liệu liên quan chặt chẽ đến các dịch vụ dữ liệu nghiên cứu mà bao gồm cả quản trị dữ liệu nghiên cứu (research data management – RDM). Vì khái niệm dịch vụ dữ liệu nghiên cứu và đào tạo kiến thức dữ liệu vẫn đang phát triển, cho nên mối quan hệ của chúng với quản trị dữ liệu đòi hỏi việc thử nghiệm có thể dẫn đến một vài kiểu tổng hợp. Việc quản lý chất lượng dữ liệu cũng được kiểm tra để xác định vai trò của một giao diện giữa hai yếu tố này.

Theo đó, bài viết này được xây dựng trên ba thuật ngữ chính. Quản trị dữ liệu có thể được định nghĩa là việc đưa ra quyết định và thẩm quyền bao gồm một hệ thống các quyền quyết định và trách nhiệm giải trình dựa trên các mô hình được thỏa thuận, mô tả những người có thể thực hiện hành động nào, khi nào và trong hoàn cảnh nào, sử dụng những phương pháp nào. Mặc dù các định nghĩa khác về kiến thức dữ liệu sẽ được thảo luận dưới đây, song chúng tôi xác định kiến thức dữ liệu ở đây như là khả năng xử lý, sắp xếp và lọc một khối lượng thông tin khổng lồ, đòi hỏi phải biết cách tìm kiếm, lọc và xử lý để sản xuất và tổng hợp thông tin đó. Định nghĩa này phù hợp với ý tưởng của Schneider (2013), cho rằng ranh giới giữa thông tin trong kiến thức thông tin và dữ liệu trong kiến thức dữ liệu đang mờ dần, bởi vì các ranh giới này không bao giờ cứng nhắc.

Các dịch vụ dữ liệu nghiên cứu bao gồm nhiều dịch vụ thông tin và kỹ thuật mà thư viện cung cấp cho các nhà nghiên cứu để quản lý vòng đời dữ liệu trọn vẹn.

Các dịch vụ dữ liệu nghiên cứu và mô hình quản lý thư viện đại học

Việc hiểu rõ hơn về vai trò của các thư viện đại học trong môi trường chuyên sâu về dữ liệu có thể đạt được nếu chúng ta đặt chúng vào bối cảnh mô hình phát triển trong quá khứ và hiện tại của thư viện đại học mà Martel đã đưa ra. Mô hình đầu tiên, được gọi là mô hình “Sở hữu” hay “Bộ sưu tập” được phát triển sau Chiến tranh thế giới II và đạt đến đỉnh cao trong những năm 1960. Mô hình được xây dựng trên giả định rằng các hệ thống thư viện đại học sẽ có thể thu thập tất cả các tài liệu có thể thỏa mãn đầy đủ nhu cầu học tập và giảng dạy của các cơ sở giáo dục. Sự hỗ trợ này cho phép nhiều cách giải thích, nhưng nó đã được chứng minh là không bền vững và đã bị thay thế bởi mô hình “Truy cập”, hướng nhiều sự quan tâm hơn và lợi dụng chia sẻ tài nguyên thông tin từ cuối những năm 1970 cho đến cuối thế kỷ 20. Việc truy cập rộng rãi vào tài liệu số, cụ thể là hàng loạt văn bản điện tử toàn văn có sẵn đã làm cho quyền sở hữu theo nghĩa truyền thống trở nên không thực tế, do đó mô hình “iAccess” ra đời. Gần đây hơn là sự nổi lên và ngày càng phổ biến của truyền thông xã hội tạo ra cơ hội để thêm vào khía cạnh xã hội cho iAccess, tạo ra mô hình “sAccess”.

Mặc dù truyền thông xã hội chắc chắn có vai trò trong Nghiên cứu 2.0, song thường thì khó có thể cắt đứt mối quan hệ giữa các đặc điểm được tạo ra bởi sự hiện diện của nó từ ảnh hưởng của tầm quan trọng ngày càng tăng của dữ liệu. Truyền thông xã hội ảnh hưởng đến các thư viện đại học theo nhiều cách. Nó tạo ra số lượng dữ liệu (lớn) khổng lồ có thể được phân tích, xuất bản và tái sử dụng chủ yếu bởi các nhà nghiên cứu về khoa học xã hội. Nó cũng làm thay đổi cách thức thực hiện nghiên cứu, dù là thiếu sự tin tưởng vào các kênh truyền thông xã hội đối với truyền thông học thuật làm giảm tác động của nó. Vì vậy, đó là công việc đòi hỏi xác định mức độ nghiên cứu chuyên sâu về dữ liệu gắn liền với iAccess và sAccess. Trong mọi trường hợp, cả hai mô hình đều có tác động ở một mức độ nào đó.

Quản trị dữ liệu chi tiết

Như đã nêu ở trên, quản trị dữ liệu là một mối quan tâm trong lĩnh vực kinh doanh. Do đó, nó hiếm khi được các tài liệu khoa học thông tin thư viện đề cập. Một ngoại lệ đáng chú ý là công trình của Krier và Strasser (2014) tập trung vào việc quản trị dữ liệu trong các thư viện.

Xem xét các định nghĩa về quản trị dữ liệu của Smith cho thấy rõ ràng mối quan hệ chặt chẽ của quản trị dữ liệu với lĩnh vực kinh doanh. Bên cạnh việc cung cấp một bộ định nghĩa gắn nó với các công ty và doanh nghiệp, Smith còn nhấn mạnh rằng “quá trình quản trị dữ liệu là kiểm soát dữ liệu trong sự liên kết doanh nghiệp”.

Dường như rõ ràng là lĩnh vực học thuật, thư viện, cũng như khoa học thông tin – thư viện cũng nên quan tâm đến quản trị dữ liệu, mặc dù nó thu hút sự chú ý chủ yếu trong lĩnh vực kinh doanh. Điều này được DosSantos ngầm xác nhận, ông chỉ ra rằng vai trò của nhà quản trị dữ liệu phải thay đổi giống như một thủ thư dữ liệu để làm cho việc quản trị dữ liệu trở thành động lực đằng sau sự đổi mới kinh doanh, thay vì là trở ngại đối với dữ liệu. Mục tiêu này có thể đạt được bằng cách cung cấp công nghệ thông tin như là một dịch vụ và cho phép các quá trình định vị và tổ chức các dữ liệu có sẵn tốt nhất.

Quản trị dữ liệu có thể ám chỉ các cơ quan tổ chức; các quy tắc, chính sách, tiêu chuẩn; quyền quyết định; trách nhiệm giải trình và phương pháp thực thi. Quản trị dữ liệu cho phép đưa ra quyết định tốt hơn và bảo vệ nhu cầu của các bên liên quan. Nó làm giảm ma sát vận hành và khuyến khích áp dụng các cách tiếp cận phổ biến đối với các vấn đề dữ liệu. Quản trị dữ liệu cũng giúp xây dựng các quy trình chuẩn, lặp lại, giảm chi phí và tăng hiệu quả thông qua phối hợp các nỗ lực và thông qua việc minh bạch các quá trình. Nó bị chi phối bởi các nguyên tắc về tính toàn vẹn, tính minh bạch và tính thẩm tra.

(còn tiếp) 

Người dịch: Phương Hoài

Nguồn: Tibor Koltay – Data governance, data literacy and the management of data quality – IFLA Journal, Vol. 2, Issue 4, 2016.

TN 2017 – 91 & 92.

Ưu thế đang lên của thông tin – Phần cuối


Kết luận

Ứng dụng thông tin vào bạo lực quân sự có ba yếu tố cơ bản: nhận thức hiện thực và tái hiện trong bits (tình báo), xử lý và phân phối bits, và sử dụng bits tác động vào hiện thực (tác chiến). Nếu sử dụng từ ngữ tác chiến trên không, cú pháp sẽ được phân tích là quan sát, định hướng, quyết định và hành động. Khi một điều khiển học không gian (trên định nghĩa rộng) phát triển thì ảnh hưởng của địa lý đối với từng bộ phận giảm đi nhanh chóng. Xử lý và phân phối thông tin hầu như đã được giải phóng hoàn toàn khỏi mối quan tâm về không gian. Sự phân biệt về tính địa lý còn lại trong giám sát, đó là giữa thông tin thu được từ phía bên kia biên giới (thí dụ từ không gian vũ trụ hoặc từ biển xanh) với những thông tin không thể thu được và với thông tin thu được từ các bộ cảm ứng rẻ tiền không bị theo dõi, như từ các khí cụ bay không người điều khiển được sử dụng trong việc tăng thích đáng việc thu thập dữ liệu. Sau hết, mặc dù ứng dụng thông tin vào lực lượng vũ trang vẫn còn bị ràng buộc bởi địa lý, những người sản sinh và truyền phát thông tin (thí dụ Hoa Kỳ) không nhất thiết giống như những người đưa vào thông tin để hành động (thí dụ các quốc gia đang bị uy hiếp). Bất kỳ một suy đoán gì về điều khiển học không gian cũng đều phải thận trọng, bởi vì những gì tất yếu sẽ đến thường cần có thời gian dài hơn so với điều người ta nghĩ ban đầu và những ý kiến đánh giá của các tổ chức, các viện nghiên cứu khi nhìn lại sự việc hiển nhiên là sẽ khác nhau. Vì vậy hậu cần (hoặc ít ra là trọng tải) vẫn còn quan trọng nên nó vẫn còn đó. Colin Gray lập luận cho rằng môi trường cũng quan trọng và do đó địa lý cũng như vậy. Song tầm quan trọng của cả hai đang nhanh chóng giảm đi. Cuộc chạy đua có thể không nhất thiết là phần thắng sẽ thuộc về bên nào nắm được tinh hoa mới – không còn tồn tại nơi chốn – địa lý. Nhưng cái để đặt cược vẫn cứ là điều khiển học không gian.

Lời đáp của Colin S. Gray

Martin Libicki bao giờ cũng nói lên được điều hấp dẫn và ông thường nói đúng, chỉ mỗi điều rút cuộc vẫn không thuyết phục được mọi người. Đánh giá bài viết của Robert Jervi ta cũng gặp khó khăn ấy. Ông đặt đúng vấn đề, thường đưa ra những phân tích sáng sủa, song lại đi đến những lời giải đáp sai lớn hơn. Với một loạt lập luận nghe ra có lý dựa trên những chi tiết có tính thuyết phục, hết đoạn nọ đến đoạn kia, người ta có thể bị dẫn đi lạc đến ủng hộ những kết luận phô trương quá mức của ông. Trong cốt lõi những kết luận của ông có lời khẳng định liên quan đến sự xuất hiện điều khiển học không gian là “vũ đài an ninh quốc tế”. Vấn đề của luận điểm của Libicki không ở chỗ nó sai – ngược lại hầu hết luận điểm của ông đúng – song vấn đề lại ở chỗ nó không rút ra được kết luận về an ninh quốc gia do ông đưa ra. Trừ phi tôi hoàn toàn hiểu sai ông – điều ấy cũng có thể, nhưng tôi đã không hiểu sai – tôi có thể chấp nhận hầu hết các điểm phân tích của ông là phù hợp với các luận điểm của tôi như đã trình bày trong bài viết. Nhưng mặc dù vậy, tôi vẫn phủ nhận các kết luận của ông.

Phản bác của tôi đối với Martin Libicki được trình bày trên 6 điểm lớn và tôi nghĩ ông sẽ đồng ý phần lớn. Tôi cũng xin được nhắc lại, khác biệt của tôi với Libicki phần nhiều thuộc về những xét đoán chiến lược chứ không phải về những phân tích chiến thuật và chiến dịch.

1/ Cuộc cách mạng trong quân sự như Libicki đề cập, thế mạnh của nó là ở “quyền kiểm soát thông tin” dù cho có thể là thực và quan trọng đấy, song tính chất và mục đích cơ bản của nó vẫn chưa phải là cách mạng. Theo đuổi và thậm chí đạt tới “kiểm soát thông tin” không phải là điều độc đáo của kỷ nguyên điều khiển học không gian. “Hệ thống của các hệ thống” có ích thật đấy, nhưng mặt khác cũng phải thấy rằng gián điệp, chim bồ câu đưa tin, sĩ quan tham mưu đi ngựa, cáp điện tín đáy đại dương và vô tuyến điện cũng đã từng là quan trọng. Mọi cuộc chiến tranh – và tội ác – của mọi thời đại đều lấy cuộc đấu tranh giành ưu thế thông tin bao trùm lên hết thảy.

2/ Người ta không cần phải nhận thức đi sâu mới thấy được phân tích của Libicki hiển nhiên không bao gồm tí chút gì về nội dung con người. Ông tô vẽ tính lãng mạn về cảm ứng, phát xạ, truyền thông, điều chỉnh hướng, tín hiệu, lọc sóng, xác định, phân loại và quyết định mục tiêu. Nhưng trên thực tế ai là người thực hiện sự uy hiếp, bẻ gãy và tiêu diệt mà chiến tranh đòi hỏi? Tướng Archibald Wavell từng ghi nhận rằng: “Lịch sử chiến tranh là công việc thuộc về xương máu chứ không phải là công việc về thông số, công thức hay quy tắc; không phải là cuộc xung đột của máy móc mà là của con người”. Libicki biết rõ điều này, song ông không thể hiện trong luận điểm của mình. Trong vũ trụ an ninh của Libicki, ở đó điều khiển học không gian là vua, chiến tranh đã được đ6è cao là một hoạt động thuận lợi không đổ máu. Có lẽ chỗ yếu nhất trong luận điểm của ông là: ông đã làm ngơ, không nhấn mạnh và thậm chí không đề cập rằng máy tính không hơn không kém, chỉ là công cụ. Và chắc chắn rằng công cụ làm thay đổi điều kiện của tác chiến chiến thuật, cũng có thể tác động ảnh hưởng đối với những lựa chọn chiến dịch, nhưng cũng không kém phần chắc chắn là nó không phá bỏ về cơ bản mối quan hệ phiền toái, bất tiện giữa con người với địa lý tự nhiên.

3/ “Điều khiển học không gian – cái có thể hiểu là một tổng số những khâu truyền thông và nút điện toán toàn cầu” hoặc là “cái không tồn tại nơi chốn” ngày càng được chứng tỏ rằng nó sẽ là người thắng cuộc trong cuộc chay đua về an ninh, nhưng hãy thử hỏi xem nó ở đâu? Do kỹ thuật phát triển, ý nghĩa của địa lý về mặt chiến dịch và chiến thuật đang thay đổi – từ trước đến nay, tình hình vẫn cứ là như thế nhưng đó không phải là nằm trong quá trình cuộc cách mạng quân sự hủy bỏ ý nghĩa của địa lý, đi đôi với khai thác điều khiển học không gian. Libicki biện luận rằng: “Do điều khiển học không gian (theo nghĩa rộng) được phát triển, ý nghĩa địa lý ở từng phần một nhận thức hiện thực rồi tái hiện trong bits (tình báo); xử lý và phân phối bits tác động vào thực hiện (tác chiến) đã suy giảm nhanh chóng. Chẳng phải đã là sự thật hay sao: việc xử lý và phân phối thông tin hầu như đã được giải phóng hoàn toàn khỏi mối quan tâm về không gian. Điều nói ra dưới đây nghe có vẻ như thô thiển, con người và các công cụ giết người hoạt động trên đất liền, trên biển, trên không và trong không gian. Điều khiển học không gian là một cái gì có giá trị, thậm chí là vô giá bao trùm bên trên từng môi trường của bốn môi trường địa lý ấy. Nhưng điều khiển học không gain không vượt lên, chuyển hóa hoặc làm vô hiệu hóa tầm quan trọng của các môi trường đó. Chim câu đưa tin, sĩ quan tham mưu đi ngựa hoặc đầu ra của điều khiển học không gian, phương tiện nào cũng vậy ở vào điểm quyết định, đều có thể tác động vào lực lượng vũ trang để đạt hiệu quả tối đa. Còn con người khác với điều khiển học không gian, không phải là không ở vào một vị trí nào. Con người hành động trong phạm vi địa lý.

4/ Tuy Libicki trong bài viết, dành nhiều chỗ hơn so với thường lệ, nói về chiến sĩ điều khiển học không gian, xem xét cân nhắc để thiết lập một “đội quân đỏ” nhưng qua bối cảnh chiến lược được ông đề cập và đưa ra bàn cãi, người ta vẫn nhận thấy dường như ông chấp thuận uy lực của Hoa Kỳ chi phối điều khiển học không gian. Và bất kỳ ai nếu tôn trọng kinh nghiệm của cuộc cách mạng quân sự trước kia, cũng đều cần phải có thái độ thận trọng đúng đắn khi đứng trước những luận cứ mang tính lãnh đạo quốc gia lâu dài. Nói chung Libicki còn ngây thơ trên mặt trận này nhưng người ta vẫn không khỏi nghi ngại: do quá nhiệt thành ủng hộ điều khiển học không gain, Libicki đã không có sự tưởng tượng cần thiết về những chiến thuật, chiến dịch và chiến lược phản chiến tranh điều khiển từ xa.

5/ Libicki cùng với đô đốc Williams Owens xếp tác chiến trong vũ trụ vào lớp trên cùng trong “hệ thống các hệ thống”. Họ có thể đúng nhưng tôi cho rằng, dường như do thừa nhận, hoặc thừa nhận quá mức ý nghĩa của điều khiển học không gian, khiến các nhà bình luận không còn trông thấy đặc tính riêng biệt của khai thác không gian. Để khẳng định điều khiển học không gian trên một số mặt đòi hỏi người ta phải phát huy hết năng lực trí tuệ, tuy cá nhân con người có thể đạt tới được, nhưng nó có thể che khuất tầm quan trọng cốt tử của kiểm soát chiều địa lý thứ 4 của chiến tranh – ngoại tầng không gian.

Sau hết cũng bởi lập luận của Libicki bị tước bỏ đi nội dung về con người, nên trong trình bày cũng thiếu phần kinh nghiệm lịch sử. Phải chăng chủ đề của Libicki thật sự là về cuộc cách mạng quân sự hoặc đó chỉ là sự biểu thị trong hiện tại những đòi hỏi lâu nay vẫn được người ta đặt ra đối với quyền kiểm soát thông tin? Đọc Libicki trên ý nghĩa nào đó khác nào đọc toàn văn những tiên đoán của ngày hôm qua về không lực và lực lượng mặt đất được thiết giáp hóa và cơ giới hóa. Vấn đề không phải là điều khiển học không gian (hoặc máy bay, xe tank) có thể làm được gì, mà đúng hơn người ta cần phải đề cập tất cả những điều đó có ý nghĩa gì. Đương nhiên mỗi học thuyết gia đều có thể tìm thấy trong quá khứ những gì hợp với mình, song ít nhiều chúng ta sẽ thấy yên tâm nếu có thể tìm thấy ở Libicki những điều ông tôn trọng một cách có hệ thống đối với bài học có thể rút ra từ kinh nghiệm lịch sử.

Người dịch: Nguyễn Đại

Nguồn: Martin Libicki – The Emerging Primacy of Information (A debate on Geo-politics). Orbis, Spring 1996, Volume. 40, No 2, pp261 – 276.

TĐB 97 – 13 & 14

Ưu thế đang lên của thông tin – Phần VI


Vậy nếu điều khiển học không gian xuất hiện với tư cách một phương tiện an ninh là điều không thể tránh khỏi, thì phải chăng Hoa Kỳ, hoặc nói chung phương Tây, bằng lòng dung nạp và hình thành một hiện tượng như thế sẽ là một việc làm có lợi cho họ? Câu trả lời là họ có lợi nhưng với chiến lược dưới đây:

+ Hoa Kỳ sử dụng một số “dòng bits” sẵn có – phần nhiều thu nhận từ vệ tinh – đem ra phục vụ các khách đặt hàng (thí dụ các nước khác) hoặc phục vụ tất cả mọi người (như đã là tiền lệ, những tấm ảnh sau khi giải mật vốn thuộc Chương trình Corona tuyệt mật nay được phát hành trực tuyến). Và rồi sẽ đến lúc có thể bổ sung các hồ sơ dữ liệu chung và các “dòng bits” của các hệ thống theo dõi hiện đang hoạt động, như kiểm soát giao thông và điều chỉnh liên mạng. (Cũng không cần thiết phải nói thêm rằng có một số sẽ không được đưa lên trực tuyến: Các hệ thống mật, các hệ thống cho biết những mục tiêu nhạy cảm nào đang bị quan sát; những hệ thống được xây dựng nhằm theo dõi những tài sản mà đối với chúng Hoa Kỳ sẵn có ưu thế lâu dài…).

+ Công cụ phần mềm có thể được đưa vào hoạt động để thu thêm nhiều thông tin, liên kết chúng với các thông tin khác rồi xác định dạng, đưa ra kết luận lấy đó làm chứng cứ để đổi mới hệ thống logic và chuẩn bị chứng cứ để biểu thị trong dạng mẫu thay thế. Kèm theo sẽ có những tiêu chuẩn, biên bản và kiến trúc bao gồm trong các công cụ đó.

+ Thỏa thuận ngầm hoặc công khai với một số người khác, khích lệ họ đóng góp công cụ và “dòng bits” (từ các phương tiện giám sát bên ngoài cũng như các phương tiện theo dõi bên trong – thí dụ đối với vận tải và môi trường), hoặc ít ra họ sẽ cởi mở, không che đậy đối với quan sát của bên ngoài cũng như quan sát của bên trong.

Hoa Kỳ thông qua việc tăng cường sử dụng điều khiển học không gian nhằm mục đích an ninh chung sẽ có cái lợi tự phục vụ mình trên các mặt chiến dịch và chiến lược.

Hầu hết những lợi ích của vận hành khai thác trên cơ sở phát huy những ưu thế tinh tế và toàn diện là thuộc về những ai định được tiêu chuẩn, kiến trúc và các điều kiện của thương mại trên lĩnh vực thông tin (được bao gồm trong phần mềm của máy). Thí dụ ai thông thạo về cách thức làm việc của các hệ thống người đó sẽ có thể giúp các nước khác. Đặc biệt nước nào yêu cầu viện trợ của Hoa Kỳ theo đơn đặt hàng, thì sẽ có thể lợi dụng tốt hơn và nhanh chóng hơn bất kỳ một ưu thế thông tin nào (thí dụ các bộ cảm ứng triển khai cụ thể) mà Hoa Kỳ cung cấp cho đồng minh. Và khi nào cần hình thành liên minh, thì đương nhiên các nước đó sẽ thấy rằng liên kết với Hoa ỳ có thể được thực hiện dễ dàng.

Có một điều quan trọng hơn nữa, đó là các tiêu chuẩn của một điều khiển học không gian bất kỳ phản ánh như thế nào kiến trúc của nó (tức là ai có thể nói điều quan trọng gì với ai) rồi chuyển thành phản ánh mối quan tâm (tức là hệ thống phải làm tốt những gì và những gì hệ thống chưa làm tốt) của nhà thiết kế. Như vậy, hệ thống sẽ phải tập trung vào những gì Hoa Kỳ lo ngại nhất (thí dụ trang bị vũ khí cho một cuộc chiến tranh khu vực lớn) mà không tập trung vào những gì Hoa Kỳ ít quan tâm (ví dụ đối với vấn đề bất đồng chính kiến) hoặc đối với những gì Hoa Kỳ đã có nhiều về số lượng (thí dụ vệ tinh, các khí cụ cơ động tầm xa, hoặc tàu ngầm đại dương). Còn những ai bỏ tiền ra mua cổ phần của hệ thống thì có nghĩa là họ bỏ tiền ra mua những lựa chọn đó. Và như vậy, người ta đi tìm kiếm những gì chúng ta cũng tìm kiếm thì dễ, nhưng sẽ khó khăn cho họ trong trường hợp họ tìm kiếm những gì chúng ta không đi tìm.

Nói về lợi ích chiến lược, người ta sẽ gặp trường hợp là một quốc gia ở vào thời điểm một cực của nó mà tỏ ra rộng lượng như vậy sẽ chẳng khác gì tự giải giáp (đúng với cả hai nghĩa của từ này) còn nếu thuộc vào trường hợp thúc bách hơn, đó là vì người ta muốn khích lệ các nước bạn (hoặc ít nhất là các nước không đối địch ra mặt) bỏ tiền ra chung phần vào một hệ thống toàn cầu và do đó, phụ thuộc vào hệ thống đó. Cùng với thời gian, nếu sự tiếp cận hệ thống “dòng bits” kiên trì vượt qua những khác biệt quốc tế nhỏ bé, thì hệ thống đó sẽ đạt được độ tin cậy lớn hơn (một tiến trình diễn ra từ từ đi đôi với công việc truyền phát thông tin từ các vệ tinh thuộc hệ thống định vị toàn cầu). Riêng việc tiếp cận thông tin không khuyến khích các quốc gia vứt bỏ các hệ thống cũ kỹ của họ, nhưng có thể ngăn giữ họ không phát triển thêm (rút cuộc là nâng cấp, duy trì) những năng lực mới phức tạp và chi phí tốn kém. Các nhà hoạch định chính sách của Hoa Kỳ vốn rành về buôn bán sòng phẳng giữa việc cung cấp tình báo cho đồng minh của mình với việc quan sát họ phát triển các năng lực riêng độc lập. Điều khiển học không gian về an ninh mở rộng logic này trong quan hệ với các nước có khả năng sẽ trở thành cường quốc lớn, và tạm thời giữa Hoa Kỳ với họ chỉ có những thỏa thuận miệng với nhau. Thời gian qua đi, nếu chiến lược này đem lại hiệu quả (nghãi là nếu các quốc gia ấy từ bỏ năng lực độc lập) thì tấm rào cản đường một kẻ cạnh tranh tương xứng đối địch sẽ được nâng lên ngày càng thêm cao. Nhưng nếu là một quốc gia kiên quyết, thì họ sẽ gặp nhiều khó khăn hơn bao giờ hết và dễ bị phát hiện. (Ước tính cần phải có ít nhất 10 năm đầu tư mới và học lại việc tích hợp hệ thống). Và trong lúc quá độ, quốc gia đó sẽ phải công khai bất hòa với Hoa Kỳ và với các đồng minh của Hoa Kỳ. Trong giai đoạn bất trắc kéo dài ấy, quốc gia đó phải tranh thủ thời gian tiến hành các công việc đối phó, chờ đợi thời cơ với sự kiện bất kỳ nào khiến kẻ cạnh tranh có thể điều chỉnh thay đổi hướng đi.

Một điều khiển học không gian về an ninh được phát triển đầy đủ tự thân nó và về phần nó sẽ không thực hiện bảo vệ các quốc gia; phạm vi yểm trợ của nó vẫn nhằm các điểm cụ thể, vì vậy các đồng minh vẫn là quan trọng và còn nữa mối đe dọa về mặt địa lý vẫn không phải là không còn gì đáng kể. Tuy nhiên nếu lợi dụng được tối đa thành phần của an ninh quân sự đang được phát triển nhanh chóng – thông tin – khiến toàn cầu tiếp cận được với nó, thì một điều khiển học không gian có thể làm thay đổi ảnh hưởng đang suy thoái của các phương tiện chiến tranh khác. Đó mới thật là chiến tích không nhỏ.

Một vài giả thiết

Khái niệm điều khiển học không gian là vũ đài an ninh quốc tế dựa trên hai giả thiết. Một là thế giới tương đối hòa bình hôm nay sẽ còn tiếp tục trải qua một thời gian nữa. Rồi sự tái hiện một cách bất ngờ đối địch gay gắt giữa các cường quốc lớn sẽ chia cắt nhỏ “sảnh đường” lớn của điều khiển học không gian thành các phòng nhỏ đố kị, ghen ghét lẫn nhau. Và tương tự như thế, thế giới cũng sa vào tội lỗi, rối loạn, tha hóa và điên dại khiến người ta phải dành quá nhiều nghị lực vào việc bảo vệ nền văn minh và chỉ còn chút ít nghị lực dành cho việc mở rộng điều khiển học không gian.

Giả thiết thứ hai là điều khiển học không gian không tự thân nó phân biệt trở thành môi trường, ở đó quốc gia này tiến công quốc gia khác (thí dụ bằng cách thả côn trùng, virus, ngựa Trojan, bom logic vào cơ sở hạ tầng của thông tin). Hiển nhiên mối đe dọa đó ngày càng tỏ rõ tính chất quan trọng của nó vào lúc các hệ thống thông tin mở đường len lỏi thâm nhập vào các khu vực kinh tế kỹ thuật cao của tất cả mọi người. Và trong bối cảnh một nền văn hóa phát triển phụ thuộc vào máy móc thì mối đe dọa đó cũng sẽ dễ dàng được người ta khuếch đại lên mà chỉ một số ít người hiểu được mà thôi. Đối với điều khiển học không gian, chỉ trừ những ngoại lệ vốn rất ít có và cũng chẳng mấy ai để ý, nói chung không có chuyện nhập do bị ép buộc. Chính các chuyên gia biên soạn mới gây hư hại cho hệ thống. Bởi vì những hệ thống mà họ tiến công đã dựa vào khả năng của kỹ thuật vượt lên trên các biện pháp bảo vệ an toàn (cái giá của an toàn đáng đến đâu là tùy thuộc ở mối đe dọa đối với nó và giá trị của cái đáng được bảo vệ). Nếu mối đe dọa là nghiêm trọng thì hệ thống có thể thích ứng bằng cách gây khó khăn, hoặc trong một số trường hợp, có thể khiến việc nhập không thể nào thực hiện được. Tuy nhiên sự thích ứng như thế không phải là không tốn kém, song dù sao vẫn là nhỏ so với việc bảo vệ các quốc gia chống lại cuộc xâm lăng thường quy, hoặc bằng vũ khí hạt nhân.

Cũng bởi xuất phát từ kiến trúc bảo đảm an ninh, điều khiển học không gian không thể không ủng hộ một số lợi ích này nhiều hơn so với một số lợi ích khác, những ai bị chừa ra ngoài vì thế sẽ tìm cách gây hư hại hoặc làm xuống cấp những phương tiện mà nhờ chúng người ta mới tạo nên được điều khiển học không gian. Nếu tiến công vào mặt bằng dữ liệu không đem lại hiệu quả (thí dụ virus bị đánh bại vì máy tính có bảo đảm an toàn) thì cuộc tiến công vào mặt bằng thông tin (thí dụ gài những “dòng bits” mập mờ, đánh lạc hướng người đọc) có thể sẽ đạt hiệu quả hơn.

(còn tiếp) 

Người dịch: Nguyễn Đại

Nguồn: Martin Libicki – The Emerging Primacy of Information (A debate on Geo-politics). Orbis, Spring 1996, Volume. 40, No 2, pp261 – 276.

TĐB 97 – 13 & 14