以DeepSeek‑R1为例,仅靠强化学习训练,模型在AIME数学推理基准上的pass@1从15.6%提升至 77.9%,充分展示了RL在低数据量条件下即可实现大幅能力跃升,迅速成为后训练赛道的新范式。
雷・库兹韦尔在《奇点临近》中提出过「加速回报定律」,认为技术进步呈指数增长,并预测奇点将在 2045 年左右到来,人类可实现与技术的融合。