Cryptography cho Delegation trong Tìm kiếm
Những suy ngẫm đầu tiên về sự khác biệt khi "thuê" AI để phát triển các ý tưởng tốt hơn
Hai bài viết trước đã giới thiệu ý tưởng về xã hội của chúng ta như một distributed system và đúc kết một khía cạnh tâm lý của chúng ta như một tối ưu hóa để tăng tốc evolutionary search, bằng cách định kỳ tạo ra bằng chứng khó làm giả về việc một số cá thể nhất định có năng lực như thế nào trong các kỹ năng quan trọng, ngay cả khi các kỹ năng đó chỉ thực sự cần thiết sau này. Từ đó evolutionary search có thể tập trung sự chú ý vào các cá thể đã thể hiện những dấu hiệu hứa hẹn.
Bây giờ chúng ta hãy hình dung các quy trình tìm kiếm nơi phần lớn công việc được thực hiện bởi AI. Việc lấy cảm hứng từ các hệ thống tự nhiên là rất hữu ích, nhưng quy mô sẽ đủ khác biệt để chúng ta phải lường trước các thách thức và cơ hội mới. Ví dụ, có thể có nhiều "tư duy" tổng thể diễn ra cùng một lúc hơn, và các quyết định cá nhân có thể được đưa ra nhanh hơn.
Để cụ thể hơn một chút, hãy để tôi tập trung vào việc tìm kiếm sự tiến bộ công nghệ (search for technological advancement). Tôi sẽ coi là nằm trong phạm vi (in-scope) những ví dụ như cả sự tiến bộ khoa học trong việc hiểu thế giới tự nhiên và việc phát triển một sản phẩm phần mềm cho một công ty. Những ví dụ như tạo ra tác phẩm nghệ thuật hấp dẫn hơn sẽ nằm ngoài phạm vi (out-of-scope). Ý tưởng là lĩnh vực rộng lớn này hướng tới các giải pháp hữu ích, nơi tương đối rõ ràng để đánh giá khách quan các giải pháp ứng dụng cuối cùng.
Chúng ta đã quen thuộc với một hệ thống phức tạp của con người thực hiện việc tìm kiếm trong không gian này. Nó liên quan đến các thủ thuật tương thích với động lực kích thích (incentive-compatible) như tenure (quy chế bổ nhiệm trọn đời) và patent (bằng sáng chế). Một giải pháp thay thế phần lớn tự động có lẽ sẽ hoạt động rất khác. Bài viết này và bài viết tiếp theo sẽ giới thiệu các thành phần từ khoa học máy tính có thể đóng vai trò lớn, mặc dù ngày nay chúng không được sử dụng tương tự trong các hệ sinh thái đổi mới. Sau đó, hai bài viết tiếp theo sẽ phác thảo cách áp dụng các công cụ này vào các mục tiêu cụ thể từ AI safety và khoa học viễn tưởng.
Một trong những câu hỏi mà chúng ta sẽ dần trả lời là: có những khả năng khác biệt căn bản nào khi chúng ta "thuê" các AI agent thay vì con người để giúp tìm ra các giải pháp kỹ thuật mới, đặc biệt là khi chúng ta rất quan tâm đến độ chính xác của các kết luận của chúng?
Các khái niệm cơ bản về Cryptography
Cryptography là một lĩnh vực rộng lớn mà đáng ngạc nhiên là rất khó để mô tả hoàn chỉnh trong một cụm từ ngắn gọn. Tôi tạm thời mô tả nó là việc hỗ trợ sử dụng an toàn các bên trung gian không đáng tin cậy. Biến thể truyền thống nhất là encryption (mã hóa), hỗ trợ một bên gửi một thông điệp bí mật cho bên khác. Bên trung gian có thể là một mạng máy tính hoặc một người đưa thư mang theo một chiếc phong bì mà nếu mở ra, trông sẽ giống như những ký tự vô nghĩa đối với một người đọc không biết secret key.
Tuy nhiên, digital signature (chữ ký số) là một nhóm hoạt động cryptographic quan trọng khác. Chúng giúp việc xác nhận ai đã viết một thông điệp trở nên khả thi, vì bên đó ký (signs) thông điệp theo cách rất khó giả mạo. Với public-key cryptography, private key của người ký (không chia sẻ với bất kỳ ai khác) có một public key tương ứng có thể được công bố rộng rãi, và khi đó bất kỳ ai có public key đều có thể kiểm tra một cách hiệu quả rằng thông điệp đã được ký bằng private key.
Hãy cùng xem xét một trường hợp được triển khai rộng rãi của các công cụ này, điều này sẽ rất bổ ích trong việc khơi nguồn cảm hứng cho distributed AI search tìm kiếm các đổi mới công nghệ. Ví dụ tôi chọn là trusted execution environments (TEEs), vốn được phát triển để giải quyết các mối lo ngại rằng hệ thống máy tính ngày nay chứa quá nhiều bộ phận khác nhau, được viết bởi các kỹ sư khác nhau, và chúng ta nên lo ngại rằng một lỗi ở bất kỳ bộ phận quan trọng nào cũng có thể khiến hệ thống nói chung có các hành vi không an toàn hoặc mất bảo mật.
Chúng ta hãy lấy ví dụ về điện thoại di động triển khai hệ thống thanh toán điện tử, chẳng hạn như nơi bạn chạm màn hình điện thoại vào máy đọc tại quầy thanh toán của cửa hàng trong thế giới vật lý. Chúng ta không muốn các trò chơi được cài đặt trên điện thoại của bạn có thể phá hỏng quy trình thanh toán, nhưng đừng dừng sự cảnh giác của chúng ta lại ở đó. Còn về lỗi trong operating system (hệ điều hành) thì sao? Còn về lỗi trong CPU chạy operating system, các trò chơi và phần mềm thanh toán thì sao? Chúng ta có thể tìm cách để tin tưởng ít phần cứng và phần mềm nhất có thể không?
Mỗi TEE bao gồm một lõi tin cậy được tối thiểu hóa (minimized trusted core), có khả năng phòng thủ trước các hành vi xấu khá tùy tiện từ phần còn lại của hệ thống. Có thể hình dung TEE như một phòng an toàn kiên cố (fortified safe room) bên trong một máy tính lớn hơn. Một secure enclave như vậy (nghe giống như một thứ gì đó từ phim khoa học viễn tưởng hậu tận thế, phải không?) sẽ bao gồm một số thành phần kinh điển.
Private storage dành cho các bí mật như cryptographic key
Private compute, như một CPU nằm bên trong enclave và là công cụ tính toán duy nhất được ủy quyền truy cập vào private storage
Các kênh giao tiếp được kiểm soát cẩn thận với phần còn lại của hệ thống, lý tưởng nhất là trông giống như một network protocol hơn là sự tích hợp chặt chẽ truyền thống giữa các CPU khác nhau
Một attestation engine mà tôi sẽ mô tả ngay sau đây
Vậy workflow diễn ra như thế nào để thực hiện một thanh toán chạm đơn giản bằng điện thoại? Dưới đây là một sơ đồ.
Người dùng chạm điện thoại vào thiết bị thanh toán, thiết bị này bằng cách nào đó truyền đi một tín hiệu cho một số tiền thanh toán cụ thể, thậm chí có thể kèm theo một mô tả điện tử về những gì người dùng đang mua.
Một ứng dụng di động thông thường phân tích yêu cầu đó và chuyển tiếp nó tới secure enclave, nằm bên trong điện thoại.
Phần mềm trong enclave xác nhận rằng yêu cầu được định dạng đúng (well-formed) và hợp lệ.
Phần mềm enclave tương tự sau đó lấy một secret key từ private storage và sử dụng nó để ký yêu cầu thanh toán, thể hiện sự đồng ý của người dùng, lý tưởng nhất là sau khi sử dụng một số đường dẫn bảo mật (secured path) tới màn hình hiển thị và cảm biến để kiểm tra xem người dùng thực sự muốn thanh toán, mà không có cơ hội cho các lỗi operating-system chấp nhận sự đồng ý đó một cách giả mạo.
Enclave chuyển yêu cầu đã ký trở lại điện thoại chính, điện thoại này tiếp tục gửi nó trở lại thiết bị thanh toán.
Lợi ích tuyệt vời của cryptography là TEE có thể bàn giao yêu cầu thanh toán đã ký cho phần còn lại không đáng tin cậy của điện thoại, vốn có thể hành xử sai trái theo những cách như xóa yêu cầu hoặc gửi nó đến sai nơi. Tuy nhiên, phần còn lại của điện thoại không có quyền truy cập vào secret key, vì vậy hậu quả từ hành vi sai trái của nó bị giới hạn. Chỉ TEE mới có thể tạo ra các signature thuyết phục, sau đó có thể được sử dụng theo những cách tùy ý.
Vẫn có một vấn đề với workflow này: làm sao chúng ta biết phần mềm chính xác được tải vào TEE? Thông thường chúng ta tin tưởng operating system để quản lý phần mềm nào được tải, nhưng ở đây chúng ta đang cố gắng tránh niềm tin đó. Giải pháp kinh điển là attestation (xác thực). TEE bao gồm một thành phần phụ có nhiệm vụ kiểm soát phần mềm nào đã được tải và cam đoan với phần còn lại của thế giới về thực tế đó.
Trong mô hình phác họa của chúng ta, các ứng dụng có thể yêu cầu attestation engine thực hiện công việc của nó: kiểm tra trạng thái của các phần tử bảo mật, tóm tắt chúng (một cách kinh điển bằng cách hashing tất cả mã nguồn) thành một certificate (chứng chỉ), và ký mã hóa (cryptographically signing) certificate đó. Thông qua phép thuật của chữ ký số (digital signature), một certificate có thể xác định chính xác phần mềm nào được tải, ngay cả khi certificate đó ngắn hơn nhiều so với mã nguồn phần mềm. Bộ phận kém tin cậy hơn của điện thoại, chẳng hạn, có thể chuyển certificate đó cho một người dùng từ xa đang lo lắng về hành vi đúng đắn của TEE.
Đáng chú ý là câu chuyện niềm tin sẽ dừng lại ở đâu đối với các TEE thực hiện attestation. Vẫn có thể xảy ra trường hợp bản thân attestation engine hoặc bộ xử lý bảo mật (secure processor) chứa lỗi. Tuy nhiên, cách tiếp cận thông thường chấp nhận rủi ro đó nhưng gắn nó vào danh tiếng của các nhà sản xuất phần cứng. Chúng ta tin tưởng rằng nhà sản xuất đủ năng lực để triển khai và chế tạo những hộp đó một cách đúng đắn, bảo vệ các secret key. Bằng cách đó, khi bất kỳ ai trên thế giới nhận được một certificate được ký bằng các key đó, sẽ có một chuỗi tin cậy (chain of trust) dẫn về nhà sản xuất, và chúng ta có thể tin rằng việc kiểm tra thích hợp trạng thái TEE đã được thực hiện để tạo ra certificate – bất kể bên trung gian nào giúp chuyển certificate đến những người muốn kiểm tra chúng.
Cái nhìn tổng quan nhanh chóng này về TEE cung cấp cho chúng ta những thành phần thiết yếu để thấy cách cryptography có thể hợp lý hóa các hệ thống tương lai nơi AI và con người hợp tác tìm kiếm trong không gian của các ý tưởng kỹ thuật. Ý tưởng mạnh mẽ của TEE mà chúng ta sẽ kế thừa là các bước kiểm tra tốn kém được thực hiện hiếm hoi, nhưng kết quả của chúng có thể được xác minh một cách rẻ tiền ở mọi nơi.
Chứng nhận các ý tưởng và nguồn gốc của chúng
Chúng ta hãy dừng lại để xem xét một số cơ chế chúng ta sử dụng ngày nay để cộng tác toàn cầu trong việc phát triển và đánh giá các ý tưởng kỹ thuật tốt hơn, tìm kiếm mối liên kết với loại luồng tin cậy (trust flow) mà chúng ta vừa phân tích với TEE. Từ nền tảng đó, chúng ta có thể hình dung cách chúng ta có thể tiến xa hơn trong các hệ thống tương lai phụ thuộc nhiều vào AI.
Một phương pháp lâu đời là peer review (báo cáo phản biện) của các bài báo khoa học, nơi các chuyên gia trong lĩnh vực được tuyển chọn để đánh giá các bài báo và chứng thực mức độ thuyết phục của chúng. Khi đó, những người ngoại đạo có thể tin tưởng vào các phản biện mà bản thân họ không cần phải là chuyên gia khoa học. Thông qua lớp gián tiếp (layer of indirection) này, ngay cả các chuyên gia như kỹ sư cũng có thể áp dụng các kết quả khoa học mà không cần có nền tảng để xác nhận rằng chúng chính xác. Cryptography đã có thể được sử dụng khá dễ dàng để những người tương đối không chuyên xác nhận xem phản biện nào đã cung cấp những đánh giá nào. Các phản biện có thể lưu hành các đánh giá của họ với cryptographic signature.
Chúng ta vẫn gặp phải một vấn đề, tương tự như vấn đề chúng ta gặp phải với TEE và phần mềm chạy trong chúng. "Phần mềm" của quy trình peer-review là về năng lực của các phản biện. Một nhà xuất bản hoặc một hiệp hội chuyên môn có thể đóng vai trò là một nút tin cậy tập trung (relatively centralized node of trust) và ký các tuyên bố về năng lực của các phản biện. Thay vào đó, một tổ chức như vậy có thể vận hành quy trình đánh giá ngay từ đầu, đảm bảo chỉ tuyển chọn các phản biện đủ năng lực, sau đó phân phối các đánh giá được ký bằng key của tổ chức. Mô hình tin cậy này gợi nhớ đến việc một TEE thực hiện attestation bằng key của nhà sản xuất, nơi một tổ chức lừa đảo có thể gây ra tác hại lớn bằng cách không tuân theo các tiêu chuẩn mà công chúng mong đợi.
Chúng ta cũng hãy xem xét một workflow quan trọng mà chúng ta phụ thuộc vào ngày nay trong đổi mới kỹ thuật. Một con đường quan trọng để nhận được nguồn lực tài chính nhằm thực hiện một dự án nghiên cứu là có được một công việc tại một nơi như trường đại học, nơi muốn xác nhận rằng nhân viên mới thực sự có bằng Tiến sĩ từ các trường đại học mà họ khai nhận. Việc xác minh này có thể hoạt động bằng cách các trường đại học phân phối các chứng chỉ liệt kê mọi người, các bằng cấp họ đã hoàn thành, và có thể cả học bạ của họ – được ký số (digitally signed) bằng các secret key của trường đại học. Một hiệp hội các trường đại học có thể duy trì một cơ sở dữ liệu về các public key đã được hiệu chuẩn (vetted public keys), cho phép bất kỳ ai kiểm tra chữ ký.
Được rồi, tất cả các luồng công việc trên với cryptography có thể dễ dàng được sử dụng để hợp lý hóa các phần trong hệ sinh thái ngày nay, và một số trong đó thậm chí đã được sử dụng (ví dụ, hãy xem tiêu chuẩn mở cho Verifiable Credentials). Bây giờ chúng ta hãy nghĩ về những gì có thể hoạt động khác đi khi các AI agent tiếp quản phần lớn quy trình tìm kiếm các giải pháp kỹ thuật tốt hơn. Các giải pháp đề xuất của chúng có thể được đánh giá bởi con người hoặc các AI agent khác, và chúng ta có thể sử dụng cryptography theo cách tương tự để cho phép người tiêu dùng tin tưởng vào các đánh giá mà họ sử dụng để đưa ra quyết định chọn giải pháp nào sẽ áp dụng, miễn là họ tin tưởng những người đánh giá hoặc các tổ chức cấp chứng nhận cho họ. Hãy gọi quy trình này là first-order evaluation (đánh giá bậc một), vì đối tượng đánh giá là các giải pháp kỹ thuật đề xuất, vốn khác biệt với những người đánh giá.
Một khía cạnh khác cũng quan trọng là second-order evaluation (đánh giá bậc hai), nơi chúng ta đánh giá các agent, chứ không chỉ các quyết định của chúng. Luồng xác nhận bằng cấp ở trên là một ví dụ về second-order evaluation, nhưng có những khả năng thú vị hơn với các AI agent.
Chúng ta chỉ có thể đánh giá con người "từ bên ngoài". Một chương trình giáo dục đại học, chẳng hạn, đưa họ vào các bài kiểm tra năng lực nhất định, và kết quả được ghi lại để tạo ra bằng cấp. Khi các bài kiểm tra năng lực không đủ để đo lường một số kỹ năng nhất định, chúng ta không biết nên mong đợi điều gì ở cá nhân đó đối với kỹ năng ấy. Tình huống này tương tự như việc software testing có thể bỏ sót các lỗi không xuất hiện trong các test case đã được chọn. Ngay cả khi chúng ta sequenced the human’s genome (giải trình tự bộ gene người), chúng ta vẫn không thể dự đoán chính xác hoàn toàn các kỹ năng, do ảnh hưởng từ quỹ đạo cuộc sống từ epigenetics (di truyền học biểu sinh) đến tác động từ gia đình và bạn học.
Ngược lại, với các AI agent, toàn bộ source code của chúng đều sẵn có. Ngay cả khi AI agent (hoặc nhà sản xuất của nó, vốn có thể độc lập) không muốn tiết lộ source code đó, nó vẫn có thể được chia sẻ với một bên đánh giá đáng tin cậy, đóng vai trò như một attestation engine của TEE. Certificate được tạo ra có thể liên kết toàn bộ source code đó một cách cực kỳ chi tiết, hoặc nó có thể liên kết với machine code mà source code đã được chuyển đổi thành. Dù bằng cách nào, người sử dụng certificate cũng có thể chắc chắn đang chạy chính xác chương trình đã được đánh giá. Và, rất khác biệt so với tình huống của con người, chi phí có thể thực sự bằng không để clone bao nhiêu bản sao của agent đã chọn tùy thích và bắt đầu công việc hiệu quả ngay lập tức. (Điểm cuối cùng này trả lời cho câu hỏi ban đầu của chúng ta về những khả năng mới trong việc "thuê" các AI agent.)
Kết luận
Ủy thác niềm tin (delegation of trust) là một công cụ rất hữu ích cho các hệ thống con người cộng tác để tạo ra các ý tưởng mới tốt đẹp, và nó có lẽ còn quan trọng hơn đối với các hệ thống do các AI agent chiếm ưu thế. Cryptography là một công cụ tuyệt vời để hỗ trợ việc ủy thác trong khi vẫn tiết kiệm được những gì chúng ta tin tưởng. Nhân tiện, một ứng dụng nổi bật của cryptography là blockchain, xứng đáng có một cuộc thảo luận riêng đủ sâu sắc mà tôi sẽ phải dành cho một bài viết sau.
Trước đây chúng ta đã xem xét mức độ hệ thống con người thúc đẩy đổi mới phụ thuộc vào việc signaling thường gây lãng phí, nơi các cá thể thực hiện những màn thể hiện tốn kém để chứng minh khả năng tiềm ẩn của họ. Tương lai của các agent sở hữu phần mềm có triển khai chính xác có thể được phân tích có thể sẽ rất khác, nơi mà về mặt nguyên tắc, có thể phân tích fitness của một agent ngay từ đầu (up-front), ngay cả theo một cách tương đối tốn kém, rồi sau đó sử dụng cryptography để bảo toàn phán quyết đó nhằm xác minh lại một cách rẻ tiền, khi mỗi bản sao (clone) của agent trực tuyến hoặc đang được xem xét cho một mục đích sử dụng mới. Kết quả sẽ là tăng tốc mạnh mẽ evolutionary search thông qua không gian của các agent khả thi. Thật vậy, việc phân tích hiệu quả một chương trình thực tế thường vô cùng phức tạp, một mặt điều này thúc đẩy cryptography như một thủ thuật để hỗ trợ chạy một phân tích tốn kém một lần rồi để nhiều bên tin tưởng kết quả. Tuy nhiên, chúng ta vẫn đối mặt với thách thức làm thế nào để thực hiện phân tích đó. Bài viết tiếp theo giải thích một cách tiếp cận thông qua formal verification, nơi mathematical proof về các chương trình cho phép chúng ta thay đổi cấu trúc tin cậy (trust architecture) một cách đáng kể.







