Web phân mảnh – Phần II


3.

Mặc dù Web chứa hàng triệu trang, mười chín bước cách biệt cho thấy điều hướng trong Web là việc khá dễ dàng. Thế giới Web lớn mà nhỏ. Nhưng điều này cũng dễ gây hiểu nhầm. nếu có một đường dẫn giữa hai tài liệu, đường dẫn đó thường ngắn. Nhưng trên thực tế, không phải tất cả các trang đều được kết nối với nhau. Bắt đầu từ một trang bất kỳ, chúng ta chỉ có thể đi đến 24% số trang tài liệu. Phần còn lại chúng ta không thể nhìn thấy, không thể truy cập bằng cách lướt web.

Đây là một hệ quả của một thực tế là: do nhiều lý do kỹ thuật, những liên kết của các Web trở thành có hướng. Tức là, theo một URL cho trước, ta chỉ có thể đi theo một hướng. Nếu không có liên kết trực tiếp giữa hai nút trong một mạng lưới có hướng, bạn có thể kết nối chúng qua các nút khác: ví dụ, nếu bạn muốn đi từ A đến D, bạn có thể bắt đầu từ nút A, sau đó đi đến nút B, rồi C và đến D. Nhưng bạn không thể đi theo một đường vòng. Trong một mạng không có hướng, nơi bạn có thể đi theo một liên kết ở cả hai hướng, con đường A -> B -> C -> D tồn tại đồng nghĩa rằng, đường ngắn nhất từ D đến A là đường ngược lại, D -> C -> B -> A. Tuy nhiên, trong một mạng lưới có hướng, ta không chắc là tồn tại một con đường khác để quay lại, từ D bạn cần phải qua hàng chục nút trung gian để trở lại A. Web có nhiều đường có hướng như vậy. Về cơ bản chúng xác định khả năng ta điều hướng trong Web.

Cho đến nay, chúng ta chỉ nghiên cứu các liên kết không hướng. Thật vậy, hầu hết các mạng lưới, từ mạng lưới xã hội đến mạng lưới tương tác đều là mạng vô hướng. Nhưng một số mạng lưới khác, từ Mạng toàn cầu đến lưới thức ăn, có liên kết có hướng. Tính chất có hướng này ảnh hưởng đến topo mạng. Trong bối cảnh của Mạng toàn cầu, những hậu quả này lần đầu tiên được Andrei Broder, từ AltaVista, và cộng tác viên của ông từ IBM và Compaq nêu ra. Họ đã nghiên cứu một mẫu gồm 200 triệu nút, gần một phần năm tổng số trang tài liệu năm 1999. Các phép đo của họ chỉ ra rằng, hệ quả quan trọng nhất của tính có hướng là Web không tạo thành một mạng đơn nhất. Thay vào đó, nó được chia thành 4 lục địa chính (xem hình 12.1), mỗi lục địa buộc chúng ta phải tuân theo các quy tắc điều hướng khác nhau.

Hình 12.1: Các lục địa của một mạng lưới có hướng. Các mạng lưới có hướng như Mạng toàn cầu sẽ tự phân mảnh thành những lục địa dễ dàng nhận biết. Trong lõi trung tâm, mỗi nút có thể được tiếp cận từ mọi nút khác. Các nút trong lục địa IN được bố trí sao cho các liên kết cuối cùng sẽ đưa bạn đến trung tâm lõi, nhưng bắt đầu từ lõi bạn không thể trở lại lục địa IN. Ngược lại, tất cả các nút của lục địa OUT có thể đi đến từ lõi, nhưng một khi bạn đã đến, không có liên kết đưa bạn trở về lõi. Cuối cùng, các ống trực tiếp kết nối lục địa IN với lục địa OUT; một số nút hình thành “sợi tua”, chỉ nối với các lục địa IN và OUT; và một vài nút tạo thành hòn đảo bị cô lập không thể truy cập được từ các nút còn lại.

Lục địa đầu tiên chứa khoảng một phần tư tổng số trang web, thường được gọi là lõi trung tâm, là ngôi nhà chung cho tất cả các trang web lớn từ Yahoo! đến CNN.com. Tính chất đặc trưng của lõi trung tâm là dễ dàng điều hướng, vì luôn có một con đường giữa bất kỳ hai trang nào trong nó. Điều này không có nghĩa là có một liên kết trực tiếp giữa hai nút của lõi trung tâm, mà có một con đường đi qua các nút trong lõi cho phép bạn liên kết hai nút này với nhau.

Các lục địa thứ hai và thứ ba, được gọi là INOUT cũng lớn bằng lõi trung tâm nhưng khó điều hướng hơn nhiều. Từ các trang của lục địa IN, bạn có thể đến lõi trung tâm, nhưng không thể trở lại IN. Ngược lại, các nút thuộc về lục địa OUT có thể dễ dàng đi đến từ lõi trung tâm, nhưng một khi bạn đã ra khỏi lõi, không có liên kết nào đưa bạn trở lại. Vùng đất OUT bao gồm nhiều trang web của công ty có thể dễ dàng truy cập từ bên ngoài; nhưng một khi bạn vào trong thì không thể ra ngoài nữa. Lục địa thứ tư là các sợi tua và các hòn đảo bị cô lập, là nhóm các trang tương kết không thể liên kết đến và không thể truy cập từ lõi trung tâm. Một số các nhóm cô lập có thể chứa hàng ngàn trang web. Khoảng một phần tư Web thuộc về lục địa này. Nói chung, vị trí của trang web trong Web không liên quan gì đến nội dung của trang mà chủ yếu được xác định bởi mối quan hệ của nó với các trang khác, thông qua các liên kết đến và đi.

Bốn lục địa này đã hạn chế đáng kể khả năng điều hướng trong Web. Phạm vi lướt Web của chúng phụ thuộc vào nơi chúng ta bắt đầu. Bắt đầu từ một nút thuộc lõi trung tâm, chúng ta có thể tiếp cận tất cả các trang thuộc lục địa chính này. Tuy nhiên, dù ta có nhấp chuột bao nhiêu chăng nữa, ta vẫn không thể biết về một nửa số trang web trên Web, bởi ta không thể đi đến vùng đất IN và các hòn đảo bị cô lập. Nếu chúng ta bước ra khỏi lõi trung tâm này, vào vùng đất OUT, chúng ta sẽ sớm ngõ cụt. Nếu chúng ta bắt đầu cuộc hành trình từ một sợi tua hay một hòn đảo cô lập, Web đối với ta sẽ khá nhỏ bé, bởi ta chỉ có thể truy cập những trang web của hòn đảo này. Nếu trang web của bạn thuộc về một hòn đảo, các công cụ tìm kiếm sẽ không bao giờ biết về sự tồn tại của nó, trừ khi bạn gửi địa chỉ URL của bạn cho họ.

Do đó, khả năng chúng ta lập sơ đồ toàn Mạng toàn cầu không chỉ có vấn đề về nguồn lực hay chi phí. Tính có hướng của các liên kết tạo ra một Web rất phân tán, trong đó bốn lục địa chính chiếm ưu thế. Các công cụ tìm kiếm có thể lập sơ đồ khoảng một nửa số đó, bao gồm thành phần kết nối và vùng đất OUT, vì các nút trong đó có thể định vị từ bất cứ nút nào của lõi trung tâm. Tuy nhiên, nửa còn lại của Web, được tạo thành từ các hòn đảo và vùng đất IN, bị cô lập hoàn toàn. Cho dù robot của bạn nỗ lực như thế nào, chúng sẽ không thể tìm thấy các tài liệu thuộc phần này. Đây là lý do tại sao hầu hết các công cụ tìm kiếm cho phép bạn gửi địa chỉ của trang web của bạn. Nếu bạn làm như vậy, các công cụ tìm kiếm có thể tìm những liên kết đến những khu vực mới của Web mà trước đây bạn chưa từng biết đến. Nếu bạn từ chối cung cấp địa chỉ trang web của bạn, nhiều nút sẽ mãi nằm ở những vùng đất hoang bí ẩn trong nhiều năm tới.

Liệu cấu trúc phân mảnh sẽ còn mãi? Hay Web sẽ phát triển và tăng trưởng, cuối cùng sẽ nhập bốn lục địa thành một lõi kết nối duy nhất? Câu trả lời rất đơn giản: các liên kết có hướng vẫn còn tồn tại thì sẽ không xảy ra sự đồng nhất hóa đó. Các lục địa phân mảnh không phải là một đặc trưng riêng của Mạng toàn cầu mà xuất hiện trong tất cả các mạng lưới có hướng. Hãy xem ví dụ về một mạng lưới liên quan trực tiếp đến khả năng tìm thông tin khoa học của chúng ta: mạng lưới trích dẫn. Mỗi tài liệu khoa học đều trích dẫn đến các nghiên cứu khác, có liên quan đến vấn đề nghiên cứu. Một bài báo về toán học sẽ trích dẫn các nghiên cứu toán học khác viết về các vấn đề tương tự, hoặc đôi khi là một bài báo sinh học hoặc vật lý, minh họa cho các ứng dụng của các kết quả thu được. Vì vậy, tất cả các ấn phẩm khoa học là một phần của một mạng lưới khoa học, trong đó các nút là các ấn phẩm nghiên cứu được kết nối bằng liên kết trích dẫn. Các liên kết này là liên kết có hướng. Thật vậy, đọc phần tài liệu tham khảo ở cuối cuốn sách này, bạn có thể tìm những nghiên cứu được trích dẫn. Tuy nhiên, không có nghiên cứu nào trong số đó sẽ trích dẫn cuốn sách này. Mạng lưới trích dẫn là một mạng lưới có hướng, trong đó các thành phần IN và OUT phản ánh thứ tự lịch sử của các nghiên cứu, lõi trung tâm (nếu có) là phần rất nhỏ. Trong tự nhiên cũng có những mạng lưới có hướng. Trong các lưới thức ăn, các liên kết hiếm khi có hai hướng: sư tử ăn thịt linh dương chứ linh dương không ăn thịt sư tử.

Kết luận là, tất cả các mạng lưới có hướng đều phân tách thành bốn lục địa. Sự tồn tại của chúng không phản ánh bất kỳ nguyên tắc tổ chức cụ thể nào trên Web. Dù mạng lưới là ngẫu nhiên hay không tỷ lệ, nếu liên kết có hướng, thì các lục địa xuất hiện. Gần đây, Sergey Dorogovstev, José Mendes và A.N. Samukhin, từ Đại học Porto, Bồ Đào Nha cũng đã chứng minh điều này. Họ cho thấy rằng kích thước và cấu trúc của các lục địa có thể được dự đoán qua phân tích. Rõ ràng, tùy thuộc vào đặc tính của mạng lưới, kích thước tương đối của các lục địa này có thể thay đổi. Tuy nhiên, những kết quả này chỉ ra rằng, cho dù Web phức tạp và lớn đến cỡ nào thì các lục địa vẫn luôn tồn tại.

(còn tiếp)

TH: T.Giang – CSCI

Nguồn tham khảo: Albert László Barabási – Thế giới mạng lưới – NXB DT 2017

Bình luận về bài viết này