Các Abstraction Boundaries và Bong bóng Khả đọc

Đóng gói trí thông minh tránh xa sự phức tạp có thể phòng tránh

Jun 02, 2026

AI alignment xem xét vấn đề nan giải về cách đưa ra hướng dẫn rõ ràng cho những thứ mà chúng ta coi là tâm trí xa lạ. Khi các hệ thống thông minh này phát triển về độ phức tạp, chúng ta có thể lo lắng rằng việc đưa ra các hướng dẫn đủ rõ ràng để tránh kết quả xấu cũng trở nên phức tạp tương ứng. Ngược lại, bài đăng trước đã điểm lại một kỹ thuật chưa được đánh giá đúng mức từ formal verification: end-to-end proof của các hệ thống máy tính phân lớp, xác thực nhiều bộ phận khác nhau như một thể thống nhất, theo cách giúp phát hiện mọi hiểu lầm giữa các bộ phận về cách chúng tương tác. Một hệ thống phân lớp như vậy có thể được coi là xuất ra một số top-level interface và phụ thuộc vào một số bottom-level foundation interface – và lợi ích to lớn của end-to-end verification là (với các lưu ý; xem bài đăng trước đó) nó loại bỏ các sai sót trong việc nêu chi tiết các yêu cầu cho tất cả các lớp bên trong, chỉ để lại các giao diện trên cùng và dưới cùng làm cơ hội cho faulty specification. Khả năng này mở ra cơ hội mở rộng độ phức tạp của các hệ thống tự động mà không phải trả giá bằng sự khó khăn trong việc tránh lỗi, đôi khi thậm chí nhận thấy việc tránh lỗi trở nên dễ dàng hơn khi chúng ta thêm các lớp.

Các kỹ sư nhanh chóng nhận ra một vấn đề: sự chắc chắn thực sự về hành vi của hệ thống là không thể. Ví dụ của chúng ta lần trước về bộ điều khiển bóng đèn kết nối mạng giả định hoạt động chính xác của một bộ truyền động vật lý cho bóng đèn. Nếu bộ truyền động đó thay vào đó lại gây ra hỏa hoạn khi được kích hoạt, chúng ta sẽ gặp rắc rối. Nếu một kẻ phá hoại dùng máy sấy tóc tác động vào CPU và làm đảo ngược các bit quan trọng, mọi tính toán đều vô giá trị. Giả định rằng một mạch phần cứng thực thi một cách trật tự có thể bị chứng minh là sai lệch, làm mất hiệu lực của tất cả các định lý mà chúng ta đã đầu tư chứng minh.

Tuy nhiên, việc thực hiện formal verification đối với các hệ thống kỹ thuật số phức tạp vẫn có giá trị vô cùng to lớn. Tại sao? Chúng ta sẽ xem xét tính hiệu quả của các abstractions trình bày các giao diện rõ ràng trên nền thực tế vật lý hỗn độn. Sau đó, chúng ta sẽ khái quát hóa thành các nguyên tắc để đưa artificial intelligence vào nhiều khía cạnh của xã hội một cách có trách nhiệm. Thật tự nhiên khi nghĩ đến việc đưa AI vào thế giới một cách dần dần, thay thế các đơn vị chức năng trước đây do con người đảm nhận. Tuy nhiên, thế giới tiến hóa của chúng ta chứa đầy những phức tạp mà AI phải tốn rất nhiều chi phí để giải quyết. Con đường tiệm tiến bỏ lỡ cơ hội để tạo ra các vùng đặc quyền kinh tế được bảo vệ một cách cố ý khỏi những phức tạp tiến hóa đó, cho phép lập luận vừa rẻ hơn vừa hiệu quả hơn.

Digital Abstraction

Tôi phải thú nhận ở đây rằng, mặc dù làm việc tại một khoa học thuật có tên bắt đầu bằng “electrical engineering” (kỹ thuật điện), tôi chưa bao giờ học một lớp kỹ thuật điện nào. Tôi không thể giải thích cách các luồng electron cung cấp các hành vi chúng ta quen thuộc trong các mạch điện tử. Thế nhưng bằng cách nào đó, tôi vẫn có thể phát triển các thành phần phần cứng và phần mềm hoạt động tốt. Bí quyết là gì? Tất cả chúng ta đều phụ thuộc rất nhiều vào the digital abstraction.

Một thành phần điện tử thô sơ có thể liên quan đến một dải rộng các voltages (điện áp) trong một dây dẫn cụ thể. Một dây dẫn chưa được thuần hóa như vậy có thể được sử dụng làm bộ lưu trữ tương tự (analog), có nghĩa là nó đại diện cho một số thực, nhưng việc tính toán với số thực, được thể hiện bằng các mức điện áp, là một công việc phức tạp. Chúng ta có thể tưởng tượng rằng một hiện tượng điện tương đối “tự nhiên” sẽ có xu hướng trải rộng các điện áp của nó trên một dải rộng.

Vậy làm thế nào mà chúng ta lại tin cậy vào những chiếc máy tính đưa ra các quyết định rời rạc? Các phù thủy của ngành kỹ thuật điện đã tìm ra cách định hướng các thành phần điện tử để các mức điện áp của chúng tụ lại ở hai thái cực. Sau đó chúng ta có thể vẽ một đường thẳng chia đôi phổ đó và nói rằng mọi mức ở trên đường thẳng là một số one (một) và mọi mức ở dưới là một số zero (không). Giờ đây chúng ta có thể xây dựng các khối cấu tạo cơ bản của điện toán kỹ thuật số, các logic gates như “AND” xuất ra một chính xác khi mỗi đầu vào trong hai đầu vào của nó là một.

Crucially, this digital abstraction lets us forget about continuous voltage and think of the “AND” gate as working solely with zeros and ones. Yes, such components do still glitch occasionally, revealing their analog reality. For instance, a cosmic ray may fly by and disturb the wiring. The point is that extensive engineering has pushed the risk of such disturbances low-enough that we can get far while ignoring them.

Với abstraction này được thiết lập, chúng ta có thể xây dựng các abstractions khác. Chúng ta có thể kết hợp nhiều logic gates nguyên thủy thành các mạch phức tạp hơn. Ví dụ, chúng ta có thể xây dựng một mạch cộng từ các cổng cho “AND” và các chức năng đơn giản khác. Giờ đây, mạch cộng này, đến lượt nó, có thể được coi là một khối cấu tạo cho chức năng cấp cao hơn, không chỉ bỏ qua cách nó được xây dựng từ các cổng đơn giản hơn mà còn bỏ qua các động lực analog của điện áp bên trong chúng.

Ví dụ về stack được xác thực end-to-end của chúng ta giả định digital abstraction ở cấp độ thấp nhất của nó. Cụ thể hơn, nó dừng lại ở formal semantics của một hardware-description language (một mô tả toán học về kết quả mà bất kỳ mạch điện nào cũng có thể tạo ra), và chúng ta giả định một cách chính xác nào đó để thực thi các mạch được mã hóa bằng ngôn ngữ đó. Digital abstraction cung cấp cho chúng ta cách đó. Một chuỗi cung ứng semiconductor-manufacturing supply chain vô cùng phức tạp có thể biến các mô tả mạch thành các chip vật lý, đủ tốt để chúng ta có thể (thông thường) quên đi các chi tiết của nó khi thiết kế các hệ thống kỹ thuật số.

Những Abstraction Vĩ đại Khác

Tầm quan trọng của abstraction trong việc lập kế hoạch cho tương lai của artificial intelligence đã được nhấn mạnh trong các nguồn khác, bao gồm cả tác phẩm The Singularity is Near. Hãy để tôi đưa ra một vài ví dụ tiêu chuẩn hơn, trước khi chuyển sang đề xuất một loại abstraction mới.

Các quá trình tiến hóa tự nhiên đã mang lại cho chúng ta nhiều abstractions. Bằng cách nào đó, vật lý cấp thấp hơn cho phép các hạt dưới nguyên tử kết hợp lại thành các nguyên tử, vốn trở thành các khối cấu tạo phần lớn đáng tin cậy cho hóa học. Sau đó, những phân tử cấp cao hơn đó trở thành khối cấu tạo cho các tế bào trong sinh học. Các tế bào có thể được tổng hợp thành các mô và sinh vật, với cancer (ung thư) là hậu quả của hành vi sai trái khi các tế bào hoạt động mang tính cá nhân hơn. Chúng ta phải lập kế hoạch cho (ngăn ngừa và điều trị) ung thư, nhưng giống như tia vũ trụ làm nhiễu loạn một phần của chip silicon, nó xảy ra không đủ thường xuyên để các abstractions như mô và sinh vật vẫn hữu ích.

Cũng có những abstractions cấp cao hơn mà chúng ta tự thiết kế. Một trong những điều cơ bản nhất là để chính phủ duy trì thế độc quyền về bạo lực (hợp pháp), để cạnh tranh chuyển sang hoạt động kinh tế, trên nền tảng vững chắc của quyền sở hữu. Trên nền tảng đó, một corporation (tập đoàn) có thể có tư cách pháp nhân và giao kết hợp đồng với các cá nhân hoặc tập đoàn khác. Một vài tập đoàn sau đó có thể thành lập một liên minh vận động hành lang cho lợi ích tập thể của họ. Or individuals as citizens can aggregate into a nation, and then those nations can form coalitions. Geopolitical strategists can get pretty far thinking of coalitions or nations as atomic agents, even as we know it is often necessary to, say, understand a nation by understanding the will of blocs of its voters.

Có lẽ không có gì tranh cãi khi cho rằng việc tận dụng tối đa artificial intelligence sẽ phụ thuộc vào việc phát triển các abstractions mới, nhưng tôi sẽ đề xuất một chiến lược can thiệp vào các phần khác nhau của thế giới chúng ta hơn là những gì hầu hết mọi người tập trung vào.

Bong bóng Khả đọc và các Interface của chúng

Một điểm chính mà tôi đã xây dựng trong các phần trước là lợi ích từ việc tái cấu trúc thế giới để có khả năng đọc hiểu cao hơn đối với các công nghệ trí tuệ có đặc tính tốt. That is, some hard problems of AI come from assuming that the basic structure of the world stays the same, and we plug an AI into a spot traditionally occupied by a human worker. If humans communicate with the rest of the world in natural language, we fall into assuming that AIs must communicate in natural language, too. Yet switching to other modes of communication dramatically simplifies processing.

Một mục tiêu của bài đăng này là cụ thể hóa hơn chiến lược tái cấu trúc thế giới. Tôi cũng muốn định khung quy trình đó như việc giới thiệu một loại abstraction mới quan trọng.

Dưới đây là công thức ba bước để xây dựng một region of legibility (vùng khả đọc).

Xác định bộ phận của nền kinh tế nơi tất cả việc ra quyết định có thể là nhân tạo, giảm thiểu vai trò của trí thông minh tiến hóa thay vì được thiết kế một cách cố ý.
Codesign vùng đó với các tác nhân chiếm giữ nó, tối ưu hóa để có chi phí hiểu biết thấp nhất cho các tác nhân đó.
Tạo một cách cẩn thận một interface với phần còn lại của thế giới, một lời hứa của region of legibility về dịch vụ mà nó cung cấp.

Một loại region of legibility quan trọng là nằm dưới một quyền sở hữu duy nhất. As a canonical example, consider an autonomous factory (nhà máy tự trị).

Để đơn giản, giả sử nhà máy là một khối không gian ba chiều được bao bọc trong các bức tường. Sứ mệnh của nó, điều dẫn chúng ta tạo ra nó, là sản xuất các hàng hóa vật lý cụ thể. Bản chất của những hàng hóa đó có thể được chính thức hóa bằng toán học, về mặt lý thuyết cho phép chứng minh end-to-end rằng nhà máy thực hiện đúng sứ mệnh của mình. Sẽ không dễ để viết đúng specification, vì chúng ta phải mô tả vật lý đủ tốt. Hơn nữa, việc nắm bắt bản chất của sản phẩm mong muốn là chưa đủ, vì chúng ta cũng phải nắm bắt các thuộc tính an toàn, ví dụ: tránh các khí thải độc hại rò rỉ qua tường nhà máy. Tuy nhiên, theo cách tiếp cận xác thực end-to-end, chúng ta tránh việc cần hiểu cách công việc được phân chia và thực hiện như thế nào bên trong nhà máy. Các thách thức AI phổ biến sau đây có thể được né tránh hoàn toàn.

Vì nhà máy hoàn toàn tự trị, natural language bị loại bỏ và không cần phải xử lý.
Cũng không cần phải lo lắng về việc hợp tác an toàn với con người trên dây chuyền lắp ráp.
Sau khi nhà máy được xây dựng, có thể không còn nhu cầu tương tác với vision (thị giác) hoặc các giác quan thông thường khác. Nhà máy được bố trí sao cho chuyển động diễn ra giữa các đường đi được xác định rõ ràng với các mốc vị trí dễ dàng phát hiện.
Phần mềm chạy nhà máy có thể được viết bằng các ngôn ngữ mà con người không thể hiểu được, dựa trên các phương pháp chính quy để đảm bảo các specifications tiếp tục được tuân thủ, ngay cả khi có sự hiện diện của recursive self-improvement.

Nhìn chung, môi trường được bảo vệ của nhà máy đã được tạo ra để tối đa hóa khả năng đọc hiểu đối với các AI agents cư ngụ trong đó, giảm thiểu chi phí của chúng để đưa ra các quyết định tốt.

Việc nắm bắt các quy tắc chúng ta muốn nhà máy tuân theo vẫn là một vấn đề khó khăn, giống như việc xây dựng chuỗi cung ứng silicon ngày nay rất phức tạp. Tuy nhiên, lợi ích thu được trong việc giảm chi phí sẽ là khổng lồ. Hơn nữa, chúng ta có sẵn các mánh khóe đã được thiết lập của end-to-end verification. Việc tin tưởng vào formal verification của nhiều nhà máy tự trị có thể dễ dàng hơn là một nhà máy. Nếu đầu ra của chúng được tích hợp vào các sản phẩm đơn lẻ mà specifications của chúng đơn giản hơn specifications của riêng các thành phần cấu thành, thì interface “ngoại vi” đáng tin cậy của siêu nhà máy trở nên đơn giản hơn, và có ít cơ hội xảy ra sai sót hơn trong việc chính thức hóa nó. Các quy tắc cơ bản về an toàn nhà máy cũng có thể phần lớn giữ nguyên trên các nhà máy cấu thành. Trong một thiết lập như vậy, siêu nhà máy thậm chí có thể có quyền tự trị để xây dựng các nhà máy mới tuân theo các quy tắc chung. Nó có thể phát minh ra sự phân rã mới các sản phẩm bàn giao cấp cao nhất thành các thành phần, thiết kế và xây dựng các nhà máy mới để cung cấp các thành phần đó, và vẫn duy trì khả năng tương thích với exterior interface của nó.

The exterior interface là nơi con người mang đến các yêu cầu và nhận các sản phẩm bàn giao. Chúng ta nỗ lực để chính thức hóa nó một cách đúng đắn, theo cách giữ lại sự linh hoạt cho trí thông minh bên trong. Nói chung có thể có nhiều interior interfaces, vốn không còn cần phải trực tiếp đối mặt với những phức tạp của sự tương tác với con người. Thay vào thế, hệ quả của các yêu cầu của con người được chuyển giao xuống các lớp khác và các giao diện chính thức của chúng, và nỗ lực đơn giản hóa lớp human-interface có thể mang lại kết quả trong việc đơn giản hóa các lớp khác.

Chúng ta sẽ không bao giờ nắm bắt được tất cả các khía cạnh tồn tại trong thế giới thực dưới dạng các yêu cầu chính thức, nhưng nguyên lý tôi đang đề xuất là đóng gói càng nhiều phần của hệ thống càng tốt để tránh xa những phức tạp đó, cho dù chúng đến từ hành vi của con người hay từ các hiện tượng tự nhiên chưa được thấu hiểu đầy đủ.

Cạnh tranh và Quy tắc Cơ bản

Thế còn các hệ thống lớn hơn nhà máy, nơi một trong những phức tạp chính là sự tương tác giữa các bên không hoàn toàn hợp tác với nhau? Chúng ta có thể xem xét các thiết lập cho các AI agents để vừa cạnh tranh vừa hợp tác với nhau, trên một nền tảng đơn giản hóa hoạt động cho tất cả bọn chúng, giống như digital abstraction cho các hệ thống máy tính hoặc nền pháp trị cho nền văn minh nhân loại.

Tôi đã viết trước đây về cách các AI agents có thể tin tưởng vào code do các tác nhân khác cung cấp. Giá trị của việc lập luận chặt chẽ về code phụ thuộc vào việc có một cơ sở tính toán đáng tin cậy, như digital abstraction cho phép. Tuy nhiên, việc có các quy tắc quản lý tài nguyên tính toán nào được kiểm soát bởi tác nhân nào cũng rất quan trọng. Hơn nữa, khi một tác nhân suy luận về các hệ quả của một đoạn code, công việc của nó được đơn giản hóa rất nhiều bằng cách sử dụng các ngôn ngữ nhân tạo hợp lý hóa thay vì các ngôn ngữ tự nhiên (natural ones), và cũng ưa chuộng các programming languages được thiết kế tốt. Việc lập chiến lược cạnh tranh và hợp tác được đơn giản hóa nhờ áp dụng một sensory environment được tinh giản. Biểu hiện vật lý có thể là một cái gì đó giống như một special economic zone nơi chỉ cho phép trí tuệ nhân tạo hoạt động.

Có một lợi ích đáng kể từ việc tránh nhu cầu suy luận về việc ra quyết định của con người bên trong nội bộ của economic zone. Bộ não của chúng ta phát triển thông qua tiến hóa, với khả năng hạn chế trong việc thoát khỏi các cực trị cục bộ trong không gian độ thích nghi. Chúng ta đặc biệt không chịu áp lực chọn lọc cho khả năng dễ hiểu hiệu quả đối với các thuật toán. Một số áp lực thậm chí còn hướng tới việc làm cho khả năng dễ hiểu trở nên tồi tệ hơn, chẳng hạn như với signaling.

Tuy nhiên, cần nhấn mạnh rằng sự tương thích với mong muốn của con người vẫn là trọng tâm của thiết kế phù hợp cho một autonomous economic zone. Chỉ là những mong muốn đó được trừu tượng hóa một cách đúng đắn thành interface của vùng, giữ tách biệt với nội bộ của nó. Các yêu cầu truyền từ con người đến các tác nhân của họ, và sau đó các tác nhân thực hiện các yêu cầu đó hiệu quả nhất có thể, lý tưởng nhất là theo một cách có thể chứng minh là tuân thủ (provably compliant), ngay cả khi chúng có thể recursively improve themselves theo thời gian.

Việc thừa nhận một loại cạnh tranh khác cũng rất quan trọng, điều này có thể dẫn đến việc các tác nhân hoặc liên minh của chúng cố gắng phá hoại lẫn nhau. Những hành vi gây hấn này dường như không thể ngăn chặn hoàn toàn, nhưng tôi vẫn lập luận rằng việc duy trì các economic zones có trật tự nhất có thể là hoàn toàn hợp lý. Một sự so sánh là với nền kinh tế ngày càng toàn cầu hóa hiện nay, với các chuẩn mực chung về quyền sở hữu và bảo vệ khỏi bạo lực. Các cuộc xung đột khác nhau đôi khi can thiệp vào các quyền và sự bảo vệ đó, tuy nhiên sự tiến bộ vẫn phụ thuộc vào việc tin cậy vào chúng trong phần lớn thời gian. Nếu không, chúng ta sẽ không thấy đầu tư vào các công ty vì lợi nhuận vốn là nguồn gốc của rất nhiều đột phá quan trọng. Trong bối cảnh của các autonomous economic zones, một cuộc tấn công có thể buộc phải đối đầu trực tiếp với các định luật vật lý thay vì các abstractions tốt đẹp hơn được tuân thủ bởi vật chất được tái cấu trúc, trong trường hợp đó các phương pháp kém minh bạch hơn như deep learning lại trở nên thống trị, nhưng chúng ta vẫn có thể cố gắng hết sức để tránh các tình huống đó.

Kết luận

Nguyên lý chúng ta đã đề cập mang một nét tương đồng thú vị theo kiểu ảnh phản chiếu với ý tưởng keeping an AI in a box (giữ AI trong hộp). Động lực cho ý tưởng đó là giới hạn khả năng của một trí tuệ nổi loạn gây ra thiệt hại ngoài thế giới, và người ta đã lập luận rộng rãi rằng ngay cả chỉ một kết nối văn bản với người dùng con người cũng đủ để một AI sử dụng các thủ đoạn để “trốn thoát”. Ngược lại, các abstraction barriers mà tôi đang lập luận bảo vệ các AIs chống lại thế giới loài người để chúng có thể hoạt động hiệu quả (efficient) và đáng tin cậy (reliable) hơn. Ý tưởng là những phức tạp mà chúng ta bảo vệ các mô-đun AI này khỏi là những phức tạp buộc phải sử dụng các heuristics học được kém minh bạch thay vì các quy trình lập luận có thể truy vết từ các nguyên lý cơ bản. Khi đó, các cơ chế như formal verification có thể được sử dụng để dự đoán trước mọi hệ quả của các lựa chọn thiết kế ứng viên.

Ngay cả khi các mối quan tâm của con người chúng ta được đẩy vào các giao diện bên ngoài của các vùng tự trị, chúng ta vẫn cần đặc tả các mối quan tâm đó một cách đúng đắn. Ba bài đăng tiếp theo sẽ trình bày ba lý do khiến các top-level specifications tương đối khả thi để viết trong kịch bản tương lai này, bắt đầu từ một quan sát về bảo mật máy tính vốn đã được áp dụng ngay cả đối với các hệ thống máy tính ngày nay.

Structure and Guarantees

Discussion about this post

Ready for more?