非线性期望是山东大学彭实戈院士开辟的原创性研究方向之一, 对各个领域的科学研究越来越重要, 而大数据和人工智能的兴起, 为非线性期望创新理论与应用研究提供了更强劲的动力。最近, 山东大学“非线性期望”团队基于多臂老虎机的策略博弈过程开创了“策略极限理论”, 是非线性概率理论与强化学习交叉的重大突破性科研成果, 变革了传统统计方法研究范式。本文结合徐宗本院士提出的人工智能的10个重大数理基础问题, 国家自然科学基金委员会发布的2022年度重大研究计划项目中关于可解释、可通用的人工智能方法的申报指南, 以及科技部发布的数学和应用研究重点专项2021、2022年度项目中“数据科学与人工智能的数学基础”理论研究的申报指南, 采用“策略”这一概念探寻和揭示人工智能本质和规律, 尝试启发、促动人工智能技术变革的激发源和理论依据。不同于传统的大数定律和中心极限定理在独立同分布假设下开展统计学习的研究, 策略极限理论打破了数据可交换这一局限, 在更大的概率空间中探求最优分布, 并提出获得最优分布的最优策略路径, 与之对应的统计学习过程被命名为策略统计学习, 为复杂机器学习的可解释和可信赖的统计方法研究提供理论支撑。本文介绍策略极限理论的应用包括但不限于: (1)大规模数据的策略抽样; (2)数据流的在线学习; (3)强化学习的中心极限定理; (4)数据的差分隐私保护; (5)联邦学习的策略融合; (6)迁移学习和元学习的信息重构; (7)知识推理与数据驱动的融合。