文章来源于互联网:「压缩即智能」得到实验验证,无需预训练和大量数据就能解决ARC-AGI问题


-
博客地址:https://iliao2345.github.io/blog_posts/arc_agi_without_pretraining/arc_agi_without_pretraining.html -
项目地址:https://github.com/iliao2345/CompressARC
-
无需预训练;模型在推理期间随机初始化和训练。 -
无需数据集;模型仅在目标 ARC-AGI 谜题上进行训练并输出一个答案。 -
无需搜索 —— 只需梯度下降。

-
Objectness(事物性):事物会持续存在,不会无缘无故地出现或消失。物体能否交互取决于具体情况。 -
目标导向性:事物可以是动态的或静止的。有些物体是「智能体」—— 它们有意图并会追求目标。 -
数字和计数:可以使用加法、减法和比较等基本数学运算,根据物体的形状、外观或运动对它们进行计数或分类。 -
基本几何和拓扑:物体可以是矩形、三角形和圆形等形状,可以执行镜像、旋转、平移、变形、组合、重复等操作。可以检测到距离差异。

-
从推理时间开始,给出一个要解决的 ARC-AGI 谜题。(比如下图) -
构建一个神经网络 f(参见架构),该网络是针对该谜题的具体情况(例如,示例数量、观察到的颜色)设计的。该网络采用了随机正态输入 z∼N (μ,Σ),并在所有网格(包括答案网格(3 个输入输出示例,总共 6 个网格))输出每像素颜色的 logit 预测。重要的是,f_θ 等价于与常见的增强手段 —— 例如重新排序输入输出对(包括答案对)、颜色排列和空间旋转 / 反射。 -
初始化网络权重 θ 并为 z 分布设置参数 μ 和 Σ。 -
联合优化 θ、μ 和 Σ,以最小化已知网格(其中 5 个)的交叉熵总和,同时忽略答案网格。使用一个 KL 散度惩罚使 N (μ,Σ) 接近 N (0,1),就像在 VAE 中一样。 -
由于 z 中的随机性,生成的答案网格是随机的,因此需要在整个训练过程中保存答案网格,并选择最常出现的网格作为最终预测。


-
重新排序输入/输出对 -
改变颜色 -
翻转、旋转和网格反射



-
一开始是 z 分布的参数 -
解码层 -
4 组:多张量通信层(向上)、Softmax 层、方向 Cummax 层、方向移位层、方向通信层、非线性层、多张量通信层(向下)、归一化层 -
线性头






-
为各个程序分配单独的颜色 -
填充 -
裁剪 -
用线连接点,包括 45 度对角线 -
相同颜色检测 -
识别像素邻接情况 -
为各个示例分配单独的颜色 -
识别形状的各个部分 -
短距离平移
-
将两种颜色相互分配给对方 -
多次重复一系列操作 -
计数 / 数字 -
平移、旋转、反射、缩放、图像复制 -
检测拓扑属性,例如连接性 -
规划、模拟智能体的行为 -
图案的长距离扩展



