Web phân mảnh – Phần I


Những nhà văn khoa học viễn tưởng và những người có tầm nhìn xa trông rộng, những người viết những cuốn sách khiến tôi si mê hồi nhỏ, khiến tôi tin rằng, khi sang thế kỷ mới, những robot hình người sẽ làm mọi công việc thường nhật. Nhưng khi chúng ta bước sang thiên niên kỷ mới, chẳng có những robot phục vụ nào như vậy cả. Hoặc có lẽ, những robot đến lặng lẽ quá mà ta không nhận ra.

Các robot của thế kỷ 21 là những robot “vô diện”, tàng hình. Chúng là những cư dân trong thế giới ảo, di chuyển thảnh thơi từ châu lục này sang châu lục khác. Bạn có nhìn chằm chằm vào màn hình máy tính cũng sẽ không thấy những robot này. Nhưng nếu bạn dành thời gian để kiểm tra cẩn thận các file log trong máy tính của bạn, nơi lưu giữ hồ sơ chi tiết về những người đã truy cập trang của bạn, bạn ció thể thấy chúng. Bạn sẽ thấy chúng không mệt mỏi thực hiện một trong những công việc vô ích và nhàm chán mà nhân loại đã từng thiết kế: đọc và lập chỉ mục hàng triệu trang web.

Được thiết kế để tối ưu tốc độ và hiệu quả, những robot này – những siêu xe của Web – nhanh chóng quét dọc theo các đường liên kết, đánh hơi mọi thứ trên đường chúng đi qua. Nhờ những công cụ mạnh này, các nhà nghiên cứu đã có được một số khám phá hấp dẫn. Họ đã phát hiện ra rằng Web bị chia cắt thành các lục địa và cộng đồng, giới hạn và xác định hành vi của chúng ta trong thế giới trực tuyến. Nghịch lý thay, chúng cũng cho thấy rằng Web rộng lớn còn có nhiều vùng “đất hoang” chưa khai khẩn, những phần Web chưa bao giờ được các robot phát hiện.

1.

Một vài năm trước, chúng ta thường nghĩ rằng chúng ta biết tất cả mọi thứ về Web. Rất nhiều lời bình luận như “Nếu dùng Alta Vista mà bạn không thể tìm thấy thông tin, có lẽ thông tin bạn cần không hề hiện hữu” hoặc HotBot là công cụ tìm kiếm đầu tiên có khả năng lập chỉ mục và tìm kiếm toàn bộ Web”. Chúng ta tin rằng các công cụ tìm kiếm có phạm vi tìm kiếm rộng bằng chính phạm vi Web. Những suy nghĩ này đột nhiên thay đổi vào tháng 4 năm 1998. “Chúng tôi thích một vài trang chất lượng hơn là lượng các trang chất lượng thấp” một phát ngôn viên đã phát biểu như vậy về một công cụ tìm kiếm chính. Những người khác thậm chí đã đi xa hơn, tuyên bố rằng “nhiều trang web không đáng lập chỉ mục”. Điều gì đã xảy ra? Sự thay đổi đột ngột này bắt nguồn từ một bài báo nghiên cứu được công bố vào ngày 3 tháng 4 năm 1998 trên tạp chí Science. Ba trang tạp chí này đã hoàn toàn thay đổi nhận thức của chúng ta về khả năng tiếp cận thông tin lưu trữ trên Web.

Steve Lawrence vả Lee Giles không có ý định làm mọi người mất niềm tin về các công cụ tìm kiếm. Làm việc tại Viện Nghiên cứu NEC ở Princeton, New Jersey, họ quan tâm đến việc Máy học (machine learning), một lĩnh vực nhỏ đang bùng nổ của khoa học máy tính. Họ đã xây dựng một siêu máy tìm kiếm dữ liệu, một robot tên là Inquirus, có thể yêu cầu các máy tìm kiếm chính trả về các tài liệu phù hợp cho một truy vấn nhất định. Rồi họ bỗng nhận ra, robot của họ có thể làm nhiều hơn thế: nó có thể giúp họ ước tính kích thước của Web.

Inquirus yêu cầu một số công cụ tìm kiếm liệt kê tất cả các trang web có chứa một từ nhất định, ví dụ như crystal. Nếu mỗi công cụ tìm kiếm truy cập và chỉ mục toàn bộ Web, thì chúng phải trả lại cùng một danh sách các trang web. Trong thực tế các danh sách được trả về bởi các công cụ tìm kiếm khác nhau hiếm khi giống hệ nhau. Tuy nhiên, luôn có trùng lặp đáng kể. Ví dụ, trong số 1000 trang web có chứa crystal được Alta Vista tìm thấy, 343 trong đó cũng nằm trong danh sách của HotBot. Chia số lượng các trang web bị lặp trên số lượng các trang web được Alta Vista trả về cho kết quả là phạm vi tìm kiếm của HotBot. Vì HotBot đã chỉ mục 110 triệu trang trong tháng 12 năm 1997, nhóm NEC ước tính rằng Mạng toàn cầu có khoảng 110/0,343 triệu, hoặc khoảng 320 triệu trang vào thời điểm đó. Ngày nay, con số này không có vẻ gì lớn cho lắm. Tuy nhiên vào năm 1997, con số này ít nhất là gấp đôi dự đoán lúc bấy giờ về kích thước Web.

Trước năm 1998, chúng tôi tin vào tất cả những gì các công cụ tìm kiếm nói với chúng tôi về kích thước của Web. Nhưng, nghiên cứu mang tính bước ngoặt của Lawrence và Giles đã biến Web thành một đối tượng nghiên cứu khoa học – một đối tượng có thể và phải được nghiên cứu bằng các phương pháp có hệ thống và tái sinh. Nhưng những phát hiện của họ về khả năng vẽ sơ đồ Web của các công cụ tìm kiếm không thật sự là tin mừng với chúng tôi.

2.

Một người sẽ nghĩ rằng nghiên cứu của NEC sẽ thúc đẩy các công cụ tìm kiếm tăng phạm vi tìm kiếm, nhưng không. Một năm sau, vào tháng 2 năm 1999, Lawrence và Giles đã lặp lại các phép đo của họ và thấy rằng kích thước Web đã tăng hơn gấp đôi, lên đến 800 triệu trang, nhưng các công cụ tìm kiếm đã không theo kịp sự tăng trưởng này. Trên thực tế, phạm vi tìm kiếm của chúng ngày càng giảm. Lần này, Northern Light đứng đầu, phạm vi tìm kiếm là khoảng 16% Web. HotBot và Alta Vista đã mất điểm đáng kể: phạm vi tìm kiếm đã giảm xuống lần lượt là 11 và 15%. Google chỉ có phạm vi tìm kiếm là 7,8%. Tựu chung, vào năm 1999, các bộ máy tìm kiếm có phạm vi bằng 40% toàn bộ Web. Điều đó có nghĩa là, sáu trong số mười trang liên quan đến truy vấn của bạn sẽ không bao giờ được trả về bởi bất kỳ công cụ tìm kiếm nào. Đơn giản vì các công cụ tìm kiếm không phát hiện ra những trang đó.

Cuối cùng, nghiên cứu của NEC đã dấy lên một cuộc cạnh tranh khốc liệt giữa các công cụ tìm kiếm. Đột nhiên, vấn đề phạm vi tìm kiếm trở nên quan trọng. Một cuộc đấu tranh giành quyền thống trị giữa Alta Vista và công cụ tìm kiếm mới của FAST, có địa chỉ alltheweb.com. Vào tháng 1 năm 2000, alltheweb.com đã vượt mốc 300 triệu trang. Alta Vista theo sau một thời gian ngắn. Đến tháng 6 năm 2000, “người chơi mới” Google, đã trở thành một đối thủ đáng gờm, vượt mốc 500 triệu trang. Inktomi sớm đuổi kịp và WebTop.com, một tên tuổi mới cũng theo sau. Vào tháng 6 năm 2001, Google đã đạt kỷ lục mới, lần đầu tiên đạt được con số 1,1 tỷ trang tài liệu.

Tín đến thời điểm hiện tại, Google duy trì vị trí dẫn đầu. Alltheweb.com theo đuổi ước mơ cuối cùng vẽ sơ đồ Web, đứng thứ hai với hơn 600 triệu tài liệu, tiếp theo là Alta Vista với 550 triệu. Các công cụ tìm kiếm đang ngày càng cải tiến, một tin tuyệt vời. Nhưng có một vấn đề: Web đang phát triển nhanh hơn.

Gần như tất cả các công cụ tìm kiếm thậm chí không có gắng để tăng phạm vi tìm kiếm. Lý do rất đơn giản: công cụ tìm kiếm có phạm vi tìm kiếm lớn nhất chưa chắc là công cụ tìm kiếm tốt nhất. Nếu bạn tìm kiếm thông tin hiếm gặp, thì chắc chắn, cơ sở dữ liệu lớn nhất sẽ cho kết quả tốt nhất. Nhưng với các chủ đề phổ biến, cơ sở dữ liệu lớn chưa chắc cho ra kết quả tốt hơn. Hầu hết chúng ta đã bị choáng ngợp bởi hàng ngàn kết quả mà công cụ tìm kiếm trả về từ những câu hỏi đơn giản. Chúng ta không muốn xem hàng triệu kết quả. Do đó, ngoài một điểm nào đó, ta nên nâng cao thuật toán để chọn trang tốt nhất từ cơ sở dữ liệu khổng lồ của công cụ tìm kiếm hơn là tiếp tục đi sâu hơn vào Web.

Ta không bao giờ đi hết toàn bộ Web, vì việc lướt web sẽ luôn bị giới hạn bởi các cá nhân hay robot, những định hướng hay mục đích khác nhau. Topo của Web cũng hạn chế khả năng chúng ta xem tất cả mọi thứ. Mạng toàn cầu là một mạng lưới không tỷ lệ, chứa các nút trục và các nút có nhiều liên kết. Tuy nhiên, như chúng ta sẽ thấy, topo quy mô lớn này cùng tồn tại với rất nhiều cấu trúc quy mô nhỏ sẽ hạn chế lớn khả năng khám phá Web của ta khi chỉ thực hiện nhấp chuột dọc theo những liên kết.

(còn tiếp)

TH: T.Giang – CSCI

Nguồn tham khảo: Albert László Barabási – Thế giới mạng lưới – NXB DT 2017

Bình luận về bài viết này