探索智能体推理奖励模型

arXiv: 2601.22154v1

混合线性注意力机制的正确实现:面向超长上下文的高效蒸馏与有效架构设计

arXiv: 2601.22156v1

模型仓库中隐藏瑰宝的发现

arXiv: 2601.22157v1

RedSage:网络安全通用型大语言模型

arXiv: 2601.22159v1

膨胀FRW宇宙中的量子隐形传态

arXiv: 2601.20860v1

进化策略导致大型语言模型灾难性遗忘

arXiv: 2601.20861v1

自蒸馏实现持续学习

arXiv: 2601.19897v1

动力学平均场理论的实时迭代方案:面向近期量子模拟的框架

arXiv: 2601.19896v1

复用浮点运算:通过基于高度离策略前缀的条件化实现强化学习在难题上的规模化扩展

arXiv: 2601.18795v1

ctELM:基于嵌入语言模型的临床试验嵌入解码与操作

arXiv: 2601.18796v1

一种用于分析大型语言模型训练动态的可扩展损失景观曲率度量方法

arXiv: 2601.16979v1

AnyView:动态场景中任意新视角的合成

arXiv: 2601.16982v1

多时间窗多隔间车辆路径问题的滚动空间分支定价算法

arXiv: 2601.16194v1

多模态大语言模型通过特征空间平滑实现可证明鲁棒性

arXiv: 2601.16200v1

反事实训练:为模型提供合理且可操作的解释教学

arXiv: 2601.16205v1

沙盒中的大语言模型激发通用智能体智能

arXiv: 2601.16206v1

PyraTok:面向视频理解与生成的语言对齐金字塔分词器

arXiv: 2601.16210v1

为何我打不开抽屉?缓解零样本组合动作识别中的对象驱动捷径问题

arXiv: 2601.16211v1

重新思考具身世界中的视频生成模型

arXiv: 2601.15282v1

迭代优化提升组合式图像生成质量

arXiv: 2601.15286v1

Jet-RL:通过统一训练与部署精度流程实现基于策略的FP8强化学习

arXiv: 2601.14243v1

VideoMaMa:基于生成先验的掩码引导视频抠图

arXiv: 2601.14255v1

MetaboNet:最大公开可用的一型糖尿病管理整合数据集

arXiv: 2601.11505v1

ShapeR:基于随意捕捉的鲁棒条件三维形状生成

arXiv: 2601.11514v1