Trình duyệt AI: Chiến trường của cuộc chiến trình duyệt lần thứ ba
Cuộc chiến trình duyệt lần thứ ba đang âm thầm diễn ra. Từ Netscape đến IE, rồi đến Firefox và Chrome, cuộc chiến trình duyệt luôn là biểu hiện tập trung của quyền kiểm soát nền tảng và sự chuyển biến của các mô hình công nghệ. Chrome đã chiếm ưu thế với tốc độ cập nhật nhanh chóng và sự kết nối sinh thái, Google thông qua cấu trúc "đôi độc quyền" giữa tìm kiếm và trình duyệt đã tạo thành vòng khép kín cho cửa ngõ thông tin.
Tuy nhiên, cấu trúc này đang bị lung lay. Sự trỗi dậy của các mô hình ngôn ngữ lớn (LLM) khiến ngày càng nhiều người dùng hoàn thành nhiệm vụ trên trang kết quả tìm kiếm mà không cần nhấp chuột, hành vi nhấp chuột vào các trang web truyền thống đang giảm. Đồng thời, tin đồn Apple có ý định thay thế công cụ tìm kiếm mặc định trong Safari càng đe dọa đến nền tảng lợi nhuận của Alphabet, thị trường trở nên bất an về "chính thống tìm kiếm".
Trình duyệt đang đối mặt với việc tái định hình vai trò. Nó không chỉ là công cụ hiển thị trang web, mà còn là một tập hợp các khả năng như nhập dữ liệu, hành vi người dùng, danh tính riêng tư, v.v. AI Agent tuy mạnh mẽ, nhưng để thực hiện các tương tác trang phức tạp, gọi dữ liệu danh tính cục bộ, kiểm soát các phần tử trang web, vẫn cần nhờ vào ranh giới tin cậy và hộp cát chức năng của trình duyệt. Trình duyệt đang chuyển từ giao diện con người thành nền tảng gọi hệ thống của Agent.
Điều có khả năng thực sự phá vỡ cấu trúc thị trường trình duyệt hiện tại không phải là một "Chrome tốt hơn", mà là một cấu trúc tương tác mới: không phải là trình bày thông tin, mà là gọi nhiệm vụ. Trình duyệt trong tương lai cần được thiết kế cho AI Agent - không chỉ có thể đọc, mà còn có thể viết và thực hiện. Các dự án như Browser Use đang cố gắng làm cho cấu trúc trang trở nên có ngữ nghĩa, biến giao diện trực quan thành văn bản có cấu trúc có thể gọi bởi LLM, tạo ra ánh xạ từ trang đến lệnh, giảm thiểu chi phí tương tác một cách đáng kể.
Các dự án chính đã bắt đầu thử nghiệm: Perplexity xây dựng trình duyệt gốc Comet, sử dụng AI để thay thế kết quả tìm kiếm truyền thống; Brave kết hợp bảo vệ quyền riêng tư với suy diễn cục bộ, sử dụng LLM để tăng cường chức năng tìm kiếm và chặn; trong khi các dự án gốc Crypto như Donut nhắm đến một lối vào mới cho sự tương tác giữa AI và tài sản trên chuỗi. Những dự án này có đặc điểm chung là: cố gắng tái cấu trúc đầu vào của trình duyệt, thay vì làm đẹp lớp đầu ra.
Đối với những người khởi nghiệp, cơ hội nằm trong mối quan hệ tam giác giữa đầu vào, cấu trúc và đại lý. Trình duyệt như một giao diện gọi thế giới của tương lai, có nghĩa là ai có thể cung cấp các "khối khả năng" có cấu trúc, có thể gọi và đáng tin cậy, người đó sẽ trở thành một phần của nền tảng thế hệ mới. Từ SEO đến AEO (Tối ưu hóa động cơ đại lý), từ lưu lượng trang đến gọi chuỗi nhiệm vụ, hình thức sản phẩm và tư duy thiết kế đang được tái cấu trúc. Cuộc chiến trình duyệt lần thứ ba xảy ra ở "đầu vào" chứ không phải "trình bày"; người quyết định thắng thua không còn là ai thu hút được sự chú ý của người dùng, mà là ai giành được sự tin tưởng của đại lý, nhận được cổng gọi.
Lịch sử phát triển của trình duyệt
Vào đầu những năm 90, Netscape Navigator ra mắt, mở ra cánh cửa dẫn đến thế giới kỹ thuật số cho hàng triệu người dùng. Sau đó, Microsoft đã tích hợp Internet Explorer vào hệ điều hành Windows, làm suy yếu vị thế thị trường của Netscape.
Kỹ sư Netscape công khai mã nguồn trình duyệt, đặt nền tảng cho dự án Mozilla. Firefox đã đạt được những bước đột phá trong trải nghiệm người dùng, hệ sinh thái plugin, và tính bảo mật, đánh dấu chiến thắng của tinh thần mã nguồn mở.
Năm 2008, Google đã ra mắt trình duyệt Chrome, được xây dựng dựa trên dự án mã nguồn mở Chromium và động cơ WebKit. Chrome đã nhanh chóng nổi lên nhờ việc cập nhật thường xuyên và trải nghiệm đồng nhất trên toàn nền tảng, vượt qua Firefox vào năm 2011, và sau nửa năm lại vượt qua IE, hoàn thành cuộc chuyển mình từ kẻ thách thức thành người thống trị.
Trong những năm 2020, thị phần toàn cầu của Chrome ổn định ở khoảng 65%. Công cụ tìm kiếm Google và trình duyệt Chrome tạo thành một hệ thống độc quyền kép, kiểm soát lối vào tìm kiếm và "cửa sổ đầu tiên" mà người dùng vào mạng.
Với sự trỗi dậy của các mô hình ngôn ngữ lớn (LLM), tìm kiếm truyền thống đã bị ảnh hưởng. Năm 2024, thị phần tìm kiếm của Google giảm từ 93% xuống 89%. Tin đồn rằng Apple có thể ra mắt công cụ tìm kiếm AI riêng càng khiến cho cột trụ lợi nhuận của Alphabet bị rung chuyển, gây ra sự bất an trên thị trường về tương lai của thời đại tìm kiếm.
Từ Navigator đến Chrome, từ lý tưởng mã nguồn mở đến thương mại hóa quảng cáo, từ trình duyệt nhẹ đến trợ lý tìm kiếm AI, cuộc chiến trình duyệt luôn là cuộc chiến về công nghệ, nền tảng, nội dung và quyền kiểm soát. Ai nắm giữ cổng vào, người đó sẽ định nghĩa tương lai.
Kiến trúc cũ của trình duyệt hiện đại
Kiến trúc trình duyệt truyền thống bao gồm:
Cổng vào phía trước của khách hàng: hoàn thành giải mã TLS, lấy mẫu QoS và định tuyến địa lý.
Hiểu biết về truy vấn: thực hiện kiểm tra chính tả, mở rộng từ đồng nghĩa và phân tích ý định.
Gọi lại ứng viên: Sử dụng chỉ mục đảo ngược và chỉ mục vector để sàng lọc ban đầu.
Sắp xếp đa cấp: Sử dụng các đặc điểm nhẹ để lọc các trang ứng viên xuống còn khoảng 1000 bài.
Sắp xếp chính sâu: Sử dụng các công nghệ như RankBrain và Neural Matching để hiểu nghĩa của truy vấn.
Sắp xếp sâu: Ứng dụng mô hình BERT để sắp xếp tài liệu một cách tinh vi.
Kiến trúc này đã trở nên lỗi thời trong thời đại AI và dữ liệu lớn, nhu cầu tương tác của người dùng với trình duyệt đang thay đổi.
Lý do AI tái cấu trúc trình duyệt
Trình duyệt vẫn sẽ tồn tại vì nó là nền tảng phổ biến, không chỉ dùng để đọc dữ liệu mà còn là cổng thông tin chung để nhập dữ liệu. Thế giới cần phải tạo ra dữ liệu và tương tác với các trang web, trình duyệt tích hợp thông tin người dùng cá nhân hóa sẽ vẫn tồn tại rộng rãi.
Trình duyệt là nơi lưu trữ nội dung cá nhân hóa:
Hầu hết các mô hình lớn được lưu trữ trên đám mây, khó có thể gọi trực tiếp dữ liệu nhạy cảm trên máy.
Tất cả dữ liệu gửi đến mô hình bên thứ ba cần phải được lấy lại sự cho phép của người dùng.
Việc tự động điền mã xác nhận, gọi camera, v.v. phải được thực hiện trong sandbox của trình duyệt.
Ngữ cảnh dữ liệu phụ thuộc cao vào trình duyệt, bao gồm tab, Cookie, bộ nhớ đệm, v.v.
Cuộc cách mạng sâu sắc về hình thức tương tác
Hành vi sử dụng trình duyệt có thể được chia thành đọc dữ liệu, nhập dữ liệu và tương tác dữ liệu. LLM đã thay đổi hiệu quả và cách thức đọc dữ liệu, việc tìm kiếm dựa trên từ khóa trong quá khứ trở nên lỗi thời và kém hiệu quả.
Nghiên cứu cho thấy, gần 63% các truy vấn trên Google thuộc hành vi "không nhấp". Người dùng thường quen lấy thông tin trực tiếp từ trang kết quả tìm kiếm. Tuy nhiên, 44% người tham gia khảo sát cho rằng kết quả tự nhiên thông thường đáng tin cậy hơn so với tóm tắt chọn lọc.
Trình duyệt AI cần khám phá hình thức tương tác phù hợp, đặc biệt trong việc đọc dữ liệu, vì vấn đề "ảo giác" của các mô hình lớn hiện nay vẫn chưa được khắc phục.
Điều thực sự kích thích sự thay đổi trong trình duyệt là lớp tương tác dữ liệu. Người dùng ngày càng có khuynh hướng sử dụng ngôn ngữ tự nhiên để mô tả các nhiệm vụ phức tạp, những Nhiệm vụ Agentic này đang được các AI Agent tiếp quản.
Trình duyệt trong tương lai phải được thiết kế hoàn toàn tự động, cần xem xét:
Làm thế nào để cân bằng trải nghiệm đọc của con người và khả năng phân tích của AI Agent
Làm thế nào để phục vụ người dùng và mô hình đại lý trên cùng một trang
Sử Dụng Trình Duyệt
Browser Use đã xây dựng một lớp ngữ nghĩa thực sự, xây dựng kiến trúc nhận diện ngữ nghĩa cho thế hệ trình duyệt tiếp theo. Nó đã giải mã lại DOM truyền thống thành "DOM ngữ nghĩa", cho phép đại lý có thể thao tác chính xác mà không cần "điểm tọa độ xem phim".
Các đặc điểm chính:
Trừu tượng hóa các phần tử tương tác thành các đoạn JSON, kèm theo siêu dữ liệu
Chuyển toàn bộ trang thành "danh sách nút ngữ nghĩa phẳng"
Nhận lệnh cấp cao từ đầu ra LLM và phát lại vào trình duyệt thật
Một khi bộ tiêu chuẩn này được giới thiệu đến W3C, sẽ giải quyết đáng kể các vấn đề nhập liệu trên trình duyệt.
ARC
Công ty Browser cho biết trình duyệt ARC sẽ bước vào giai đoạn bảo trì thường xuyên, đội ngũ sẽ chuyển trọng tâm sang trình duyệt dựa trên AI có tên DIA. Họ dự đoán rằng các trang web sẽ không còn là giao diện tương tác chính, nhưng đánh giá này đã đánh giá thấp vai trò của trình duyệt.
Mô hình lớn rất xuất sắc trong việc nắm bắt ý định, nhưng khả năng chứa đựng mật độ thông tin còn hạn chế. Trang web chuyên dụng vẫn có ưu thế trong các tình huống tương tác phức tạp. Nhóm ARC đã không phân biệt được các chiều đầu vào và đầu ra của tương tác, và đã bỏ qua vai trò cốt lõi của trình duyệt trong việc trình bày thông tin và trải nghiệm cá nhân hóa.
Để thực sự có thể làm rung chuyển Chrome, cần phải tái cấu trúc cơ bản chế độ render của trình duyệt, thích ứng với nhu cầu tương tác dưới sự dẫn dắt của AI Agent, đặc biệt là thiết kế cấu trúc đầu vào.
Sự Bối Rối
Perplexity là một công cụ tìm kiếm AI, với định giá mới nhất là 14 tỷ USD. Số lượng truy vấn tìm kiếm hàng tháng vượt quá 400 triệu, với hơn 30 triệu người dùng hoạt động hàng tháng.
Họ đang xây dựng trình duyệt gốc Comet, dự định tích hợp sâu vào động cơ trả lời của Perplexity. Nhưng vẫn cần giải quyết vấn đề chi phí tìm kiếm cao và tỷ suất lợi nhuận thấp.
Google cũng đang tiến hành tái cấu trúc AI, ra mắt trải nghiệm thẻ trình duyệt mới "Project Mariner". Chỉ dựa vào việc mô phỏng tính năng thì khó có thể tạo ra mối đe dọa cho Google, bước đột phá thực sự cần phải tái cấu trúc kiến trúc trình duyệt từ cơ sở.
Dũng cảm
Brave là trình duyệt Crypto thành công tương đối, dựa trên kiến trúc Chromium. Số người dùng hoạt động hàng tháng đạt 82,7 triệu, thị phần khoảng 1%-1,5%.
Brave dự định nâng cấp thành trình duyệt AI ưu tiên quyền riêng tư, nhưng bị hạn chế bởi việc thu thập dữ liệu người dùng, mức độ tùy chỉnh của mô hình lớn khá thấp. Trợ lý AI Leo của nó giống như một plugin bổ sung, vẫn chưa có chiến lược rõ ràng để chuyển sang AI Agent.
Donut
Donut là một dự án khởi nghiệp Agentic Browser trong ngành Crypto, đã huy động được 7 triệu USD. Mục tiêu là đạt được khả năng tích hợp "khám phá - quyết định - thực hiện bản địa hóa mã hóa".
Cốt lõi là kết hợp các con đường thực thi tự động nguyên bản của tiền điện tử. Trong tương lai, Agent có thể thay thế các công cụ tìm kiếm để trở thành cổng vào lưu lượng chính, và các doanh nhân sẽ cạnh tranh để giành lấy lưu lượng truy cập và chuyển đổi mà Agent mang lại.
Lời khuyên dành cho các doanh nhân
Trình duyệt vẫn là "cổng tổng" lớn nhất chưa được tái cấu trúc trong thế giới internet. Điểm đột phá thực sự nằm ở "bên nhập" - làm thế nào để AI Agent chủ động gọi sản phẩm hoàn thành nhiệm vụ.
Các doanh nhân nên xem xét thiết kế sản phẩm từ ba chiều:
Tiêu chuẩn hóa cấu trúc giao diện: Sản phẩm có "có thể gọi" không? Có hỗ trợ cấu trúc DOM ngữ nghĩa hoặc ánh xạ JSON không?
Danh tính và thông hành: Liệu có thể giúp Agent "vượt qua rào cản lòng tin"? Đặc biệt trong bối cảnh Web3, cần có khả năng danh tính và ký kết thống nhất.
Hiểu lại cơ chế lưu lượng: Từ SEO đến AEO/ATF, sản phẩm cần có độ phân giải nhiệm vụ rõ ràng, phù hợp với cú pháp gọi của các khung LLM khác nhau.
Các dự án khởi nghiệp trong tương lai nên cho phép trình duyệt hiện tại phục vụ cho Agent, xây dựng cầu nối cho thế hệ "dòng lệnh" mới. Cần xây dựng "cú pháp giao diện" cho Agent gọi thế giới, trở thành một mắt xích trong chuỗi niềm tin của các tác nhân, xây dựng "tòa lâu đài API" cho mô hình tìm kiếm tiếp theo.
Thời đại Web3 + AI Agent, chìa khóa là nắm bắt ý định thực thi của Agent thông qua việc gọi chuỗi, chứ không chỉ dựa vào UI để thu hút sự chú ý của người dùng.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Trình duyệt AI: Chiến trường và cơ hội mới trong cuộc chiến trình duyệt lần thứ ba
Trình duyệt AI: Chiến trường của cuộc chiến trình duyệt lần thứ ba
Cuộc chiến trình duyệt lần thứ ba đang âm thầm diễn ra. Từ Netscape đến IE, rồi đến Firefox và Chrome, cuộc chiến trình duyệt luôn là biểu hiện tập trung của quyền kiểm soát nền tảng và sự chuyển biến của các mô hình công nghệ. Chrome đã chiếm ưu thế với tốc độ cập nhật nhanh chóng và sự kết nối sinh thái, Google thông qua cấu trúc "đôi độc quyền" giữa tìm kiếm và trình duyệt đã tạo thành vòng khép kín cho cửa ngõ thông tin.
Tuy nhiên, cấu trúc này đang bị lung lay. Sự trỗi dậy của các mô hình ngôn ngữ lớn (LLM) khiến ngày càng nhiều người dùng hoàn thành nhiệm vụ trên trang kết quả tìm kiếm mà không cần nhấp chuột, hành vi nhấp chuột vào các trang web truyền thống đang giảm. Đồng thời, tin đồn Apple có ý định thay thế công cụ tìm kiếm mặc định trong Safari càng đe dọa đến nền tảng lợi nhuận của Alphabet, thị trường trở nên bất an về "chính thống tìm kiếm".
Trình duyệt đang đối mặt với việc tái định hình vai trò. Nó không chỉ là công cụ hiển thị trang web, mà còn là một tập hợp các khả năng như nhập dữ liệu, hành vi người dùng, danh tính riêng tư, v.v. AI Agent tuy mạnh mẽ, nhưng để thực hiện các tương tác trang phức tạp, gọi dữ liệu danh tính cục bộ, kiểm soát các phần tử trang web, vẫn cần nhờ vào ranh giới tin cậy và hộp cát chức năng của trình duyệt. Trình duyệt đang chuyển từ giao diện con người thành nền tảng gọi hệ thống của Agent.
Điều có khả năng thực sự phá vỡ cấu trúc thị trường trình duyệt hiện tại không phải là một "Chrome tốt hơn", mà là một cấu trúc tương tác mới: không phải là trình bày thông tin, mà là gọi nhiệm vụ. Trình duyệt trong tương lai cần được thiết kế cho AI Agent - không chỉ có thể đọc, mà còn có thể viết và thực hiện. Các dự án như Browser Use đang cố gắng làm cho cấu trúc trang trở nên có ngữ nghĩa, biến giao diện trực quan thành văn bản có cấu trúc có thể gọi bởi LLM, tạo ra ánh xạ từ trang đến lệnh, giảm thiểu chi phí tương tác một cách đáng kể.
Các dự án chính đã bắt đầu thử nghiệm: Perplexity xây dựng trình duyệt gốc Comet, sử dụng AI để thay thế kết quả tìm kiếm truyền thống; Brave kết hợp bảo vệ quyền riêng tư với suy diễn cục bộ, sử dụng LLM để tăng cường chức năng tìm kiếm và chặn; trong khi các dự án gốc Crypto như Donut nhắm đến một lối vào mới cho sự tương tác giữa AI và tài sản trên chuỗi. Những dự án này có đặc điểm chung là: cố gắng tái cấu trúc đầu vào của trình duyệt, thay vì làm đẹp lớp đầu ra.
Đối với những người khởi nghiệp, cơ hội nằm trong mối quan hệ tam giác giữa đầu vào, cấu trúc và đại lý. Trình duyệt như một giao diện gọi thế giới của tương lai, có nghĩa là ai có thể cung cấp các "khối khả năng" có cấu trúc, có thể gọi và đáng tin cậy, người đó sẽ trở thành một phần của nền tảng thế hệ mới. Từ SEO đến AEO (Tối ưu hóa động cơ đại lý), từ lưu lượng trang đến gọi chuỗi nhiệm vụ, hình thức sản phẩm và tư duy thiết kế đang được tái cấu trúc. Cuộc chiến trình duyệt lần thứ ba xảy ra ở "đầu vào" chứ không phải "trình bày"; người quyết định thắng thua không còn là ai thu hút được sự chú ý của người dùng, mà là ai giành được sự tin tưởng của đại lý, nhận được cổng gọi.
Lịch sử phát triển của trình duyệt
Vào đầu những năm 90, Netscape Navigator ra mắt, mở ra cánh cửa dẫn đến thế giới kỹ thuật số cho hàng triệu người dùng. Sau đó, Microsoft đã tích hợp Internet Explorer vào hệ điều hành Windows, làm suy yếu vị thế thị trường của Netscape.
Kỹ sư Netscape công khai mã nguồn trình duyệt, đặt nền tảng cho dự án Mozilla. Firefox đã đạt được những bước đột phá trong trải nghiệm người dùng, hệ sinh thái plugin, và tính bảo mật, đánh dấu chiến thắng của tinh thần mã nguồn mở.
Năm 2008, Google đã ra mắt trình duyệt Chrome, được xây dựng dựa trên dự án mã nguồn mở Chromium và động cơ WebKit. Chrome đã nhanh chóng nổi lên nhờ việc cập nhật thường xuyên và trải nghiệm đồng nhất trên toàn nền tảng, vượt qua Firefox vào năm 2011, và sau nửa năm lại vượt qua IE, hoàn thành cuộc chuyển mình từ kẻ thách thức thành người thống trị.
Trong những năm 2020, thị phần toàn cầu của Chrome ổn định ở khoảng 65%. Công cụ tìm kiếm Google và trình duyệt Chrome tạo thành một hệ thống độc quyền kép, kiểm soát lối vào tìm kiếm và "cửa sổ đầu tiên" mà người dùng vào mạng.
Với sự trỗi dậy của các mô hình ngôn ngữ lớn (LLM), tìm kiếm truyền thống đã bị ảnh hưởng. Năm 2024, thị phần tìm kiếm của Google giảm từ 93% xuống 89%. Tin đồn rằng Apple có thể ra mắt công cụ tìm kiếm AI riêng càng khiến cho cột trụ lợi nhuận của Alphabet bị rung chuyển, gây ra sự bất an trên thị trường về tương lai của thời đại tìm kiếm.
Từ Navigator đến Chrome, từ lý tưởng mã nguồn mở đến thương mại hóa quảng cáo, từ trình duyệt nhẹ đến trợ lý tìm kiếm AI, cuộc chiến trình duyệt luôn là cuộc chiến về công nghệ, nền tảng, nội dung và quyền kiểm soát. Ai nắm giữ cổng vào, người đó sẽ định nghĩa tương lai.
Kiến trúc cũ của trình duyệt hiện đại
Kiến trúc trình duyệt truyền thống bao gồm:
Cổng vào phía trước của khách hàng: hoàn thành giải mã TLS, lấy mẫu QoS và định tuyến địa lý.
Hiểu biết về truy vấn: thực hiện kiểm tra chính tả, mở rộng từ đồng nghĩa và phân tích ý định.
Gọi lại ứng viên: Sử dụng chỉ mục đảo ngược và chỉ mục vector để sàng lọc ban đầu.
Sắp xếp đa cấp: Sử dụng các đặc điểm nhẹ để lọc các trang ứng viên xuống còn khoảng 1000 bài.
Sắp xếp chính sâu: Sử dụng các công nghệ như RankBrain và Neural Matching để hiểu nghĩa của truy vấn.
Sắp xếp sâu: Ứng dụng mô hình BERT để sắp xếp tài liệu một cách tinh vi.
Kiến trúc này đã trở nên lỗi thời trong thời đại AI và dữ liệu lớn, nhu cầu tương tác của người dùng với trình duyệt đang thay đổi.
Lý do AI tái cấu trúc trình duyệt
Trình duyệt vẫn sẽ tồn tại vì nó là nền tảng phổ biến, không chỉ dùng để đọc dữ liệu mà còn là cổng thông tin chung để nhập dữ liệu. Thế giới cần phải tạo ra dữ liệu và tương tác với các trang web, trình duyệt tích hợp thông tin người dùng cá nhân hóa sẽ vẫn tồn tại rộng rãi.
Trình duyệt là nơi lưu trữ nội dung cá nhân hóa:
Cuộc cách mạng sâu sắc về hình thức tương tác
Hành vi sử dụng trình duyệt có thể được chia thành đọc dữ liệu, nhập dữ liệu và tương tác dữ liệu. LLM đã thay đổi hiệu quả và cách thức đọc dữ liệu, việc tìm kiếm dựa trên từ khóa trong quá khứ trở nên lỗi thời và kém hiệu quả.
Nghiên cứu cho thấy, gần 63% các truy vấn trên Google thuộc hành vi "không nhấp". Người dùng thường quen lấy thông tin trực tiếp từ trang kết quả tìm kiếm. Tuy nhiên, 44% người tham gia khảo sát cho rằng kết quả tự nhiên thông thường đáng tin cậy hơn so với tóm tắt chọn lọc.
Trình duyệt AI cần khám phá hình thức tương tác phù hợp, đặc biệt trong việc đọc dữ liệu, vì vấn đề "ảo giác" của các mô hình lớn hiện nay vẫn chưa được khắc phục.
Điều thực sự kích thích sự thay đổi trong trình duyệt là lớp tương tác dữ liệu. Người dùng ngày càng có khuynh hướng sử dụng ngôn ngữ tự nhiên để mô tả các nhiệm vụ phức tạp, những Nhiệm vụ Agentic này đang được các AI Agent tiếp quản.
Trình duyệt trong tương lai phải được thiết kế hoàn toàn tự động, cần xem xét:
Sử Dụng Trình Duyệt
Browser Use đã xây dựng một lớp ngữ nghĩa thực sự, xây dựng kiến trúc nhận diện ngữ nghĩa cho thế hệ trình duyệt tiếp theo. Nó đã giải mã lại DOM truyền thống thành "DOM ngữ nghĩa", cho phép đại lý có thể thao tác chính xác mà không cần "điểm tọa độ xem phim".
Các đặc điểm chính:
Một khi bộ tiêu chuẩn này được giới thiệu đến W3C, sẽ giải quyết đáng kể các vấn đề nhập liệu trên trình duyệt.
ARC
Công ty Browser cho biết trình duyệt ARC sẽ bước vào giai đoạn bảo trì thường xuyên, đội ngũ sẽ chuyển trọng tâm sang trình duyệt dựa trên AI có tên DIA. Họ dự đoán rằng các trang web sẽ không còn là giao diện tương tác chính, nhưng đánh giá này đã đánh giá thấp vai trò của trình duyệt.
Mô hình lớn rất xuất sắc trong việc nắm bắt ý định, nhưng khả năng chứa đựng mật độ thông tin còn hạn chế. Trang web chuyên dụng vẫn có ưu thế trong các tình huống tương tác phức tạp. Nhóm ARC đã không phân biệt được các chiều đầu vào và đầu ra của tương tác, và đã bỏ qua vai trò cốt lõi của trình duyệt trong việc trình bày thông tin và trải nghiệm cá nhân hóa.
Để thực sự có thể làm rung chuyển Chrome, cần phải tái cấu trúc cơ bản chế độ render của trình duyệt, thích ứng với nhu cầu tương tác dưới sự dẫn dắt của AI Agent, đặc biệt là thiết kế cấu trúc đầu vào.
Sự Bối Rối
Perplexity là một công cụ tìm kiếm AI, với định giá mới nhất là 14 tỷ USD. Số lượng truy vấn tìm kiếm hàng tháng vượt quá 400 triệu, với hơn 30 triệu người dùng hoạt động hàng tháng.
Họ đang xây dựng trình duyệt gốc Comet, dự định tích hợp sâu vào động cơ trả lời của Perplexity. Nhưng vẫn cần giải quyết vấn đề chi phí tìm kiếm cao và tỷ suất lợi nhuận thấp.
Google cũng đang tiến hành tái cấu trúc AI, ra mắt trải nghiệm thẻ trình duyệt mới "Project Mariner". Chỉ dựa vào việc mô phỏng tính năng thì khó có thể tạo ra mối đe dọa cho Google, bước đột phá thực sự cần phải tái cấu trúc kiến trúc trình duyệt từ cơ sở.
Dũng cảm
Brave là trình duyệt Crypto thành công tương đối, dựa trên kiến trúc Chromium. Số người dùng hoạt động hàng tháng đạt 82,7 triệu, thị phần khoảng 1%-1,5%.
Brave dự định nâng cấp thành trình duyệt AI ưu tiên quyền riêng tư, nhưng bị hạn chế bởi việc thu thập dữ liệu người dùng, mức độ tùy chỉnh của mô hình lớn khá thấp. Trợ lý AI Leo của nó giống như một plugin bổ sung, vẫn chưa có chiến lược rõ ràng để chuyển sang AI Agent.
Donut
Donut là một dự án khởi nghiệp Agentic Browser trong ngành Crypto, đã huy động được 7 triệu USD. Mục tiêu là đạt được khả năng tích hợp "khám phá - quyết định - thực hiện bản địa hóa mã hóa".
Cốt lõi là kết hợp các con đường thực thi tự động nguyên bản của tiền điện tử. Trong tương lai, Agent có thể thay thế các công cụ tìm kiếm để trở thành cổng vào lưu lượng chính, và các doanh nhân sẽ cạnh tranh để giành lấy lưu lượng truy cập và chuyển đổi mà Agent mang lại.
Lời khuyên dành cho các doanh nhân
Trình duyệt vẫn là "cổng tổng" lớn nhất chưa được tái cấu trúc trong thế giới internet. Điểm đột phá thực sự nằm ở "bên nhập" - làm thế nào để AI Agent chủ động gọi sản phẩm hoàn thành nhiệm vụ.
Các doanh nhân nên xem xét thiết kế sản phẩm từ ba chiều:
Tiêu chuẩn hóa cấu trúc giao diện: Sản phẩm có "có thể gọi" không? Có hỗ trợ cấu trúc DOM ngữ nghĩa hoặc ánh xạ JSON không?
Danh tính và thông hành: Liệu có thể giúp Agent "vượt qua rào cản lòng tin"? Đặc biệt trong bối cảnh Web3, cần có khả năng danh tính và ký kết thống nhất.
Hiểu lại cơ chế lưu lượng: Từ SEO đến AEO/ATF, sản phẩm cần có độ phân giải nhiệm vụ rõ ràng, phù hợp với cú pháp gọi của các khung LLM khác nhau.
Các dự án khởi nghiệp trong tương lai nên cho phép trình duyệt hiện tại phục vụ cho Agent, xây dựng cầu nối cho thế hệ "dòng lệnh" mới. Cần xây dựng "cú pháp giao diện" cho Agent gọi thế giới, trở thành một mắt xích trong chuỗi niềm tin của các tác nhân, xây dựng "tòa lâu đài API" cho mô hình tìm kiếm tiếp theo.
Thời đại Web3 + AI Agent, chìa khóa là nắm bắt ý định thực thi của Agent thông qua việc gọi chuỗi, chứ không chỉ dựa vào UI để thu hút sự chú ý của người dùng.