ICLR 是机器学习领域公认的顶级学术会议(CCF-A 类),本届大会共收到来自全球约19000篇有效投稿,录取5340篇。在近日公布的 ICLR 2026(国际学习表征会议)论文接收结果中,腾讯共有150余篇论文入选,中稿论文数约占总录取数的2.8%。
入选论文来自腾讯混元、优图实验室、微信、腾讯游戏、天衍实验室、ARC Lab、腾讯视频、PCG 技术线等多个业务与研究团队,覆盖大语言模型、多模态学习、视觉生成、强化学习等核心 AI 研究方向。多个技术团队将携最新技术成果亮相巴西ICLR现场,期待4月23日-27日会场相见,碰撞技术火花!
深耕技术原点,共探AI边界。以下为腾讯入选本届 ICLR 的 Oral 论文精选,诚邀各位与腾讯开启一场关于通用人工智能的深度对话。
1
WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM
Oral摘要
1.首个全模态 Embedding 模型,支持图片、视频、音频、文本模态的任意跨模态检索,在 MMEB-v2-Video 任务上取得 SOTA 结果。
2. 可以根据文本 Prompt生成相关的 Embedding,在 Embedding-based 的QA 任务上展现强大能力。
3.有效的架构设计,集成 LLM 各层特征,引入了语音-音频的双 encoder 结构。
4. 模型与相关代码已开源。
Oral时间:Fri, Apr 24 | 16:15-16:25 BRT
Oral地点:ICLR会场Oral Session 4C
团队介绍
微信
技术架构团队
作为微信后台的奠基团队,我们深耕底层架构与前沿技术,是集基础研究与落地应用于一体的核心部门。
核心业务:负责微信消息系统、音视频通话、朋友圈等超大规模基础服务的稳定运行,支撑全球14亿+用户的社交连接。
技术中台:打造微信核心ABC(AI、BigData、Cloud)平台。其中AI应用平台日均处理百亿级调用;BigData平台每日处理百万级任务;Cloud平台支撑千万级核心调度与每秒百亿级事务处理。
算法研究:专注于文本和多模态大模型领域、推荐算法和风控算法的深度预研,推动算法在真实业务场景的高效落地,并持续向开源社区与学术界输出成果。
2
FlashWorld: High-quality 3D Scene Generation within Seconds
Oral摘要
1.提出了FlashWorld,这是一种能够在几秒钟内从单张图像或文本提示生成 3D 场景生成模型,比以往的研究快十倍到百倍,同时具有更出色的渲染质量。
2.方法从传统的多视图导向范式转变为 3D 导向方法,前者生成多视图图像用于后续的 3D 重建,而后者中模型在多视图生成过程中直接生成 3D 高斯表示。尽管 3D 导向方法能确保 3D 一致性,但它通常存在视觉质量不佳的问题。
3.FlashWorld 包含一个双模式预训练阶段和随后的跨模式后训练阶段,有效地融合了两种范式的优势。具体而言,利用视频扩散模型的先验知识,首先预训练一个双模式多视图扩散模型,该模型同时支持多视图导向和 3D 导向的生成模式。为了弥合 3D 导向生成中的质量差距,进一步提出了一种跨模式后训练蒸馏方法,通过将一致性 3D 导向模式的分布与高质量多视图导向模式的分布进行匹配来实现。这不仅在保持 3D 一致性的同时提升了视觉质量,还减少了推理所需的去噪步骤。
4.本文提出了一种策略,在这一过程中利用大量单视图图像和文本提示,以增强模型对分布外输入的泛化能力。大量实验证明了本文方法的优越性和高效性。本文全部代码已开源。
Oral时间:Sat, Apr 25 | 10:54-11:04 BRT
Oral地点:ICLR会场 Oral Session 5B
团队介绍
腾讯混元
多模态模型部
多模态模型部负责探索图像、视频、3D、数字人、语音、世界模型等多模态大模型的技术前沿方向,设计、开发、迭代基础模型架构,推动技术的持续创新,并赋能公司业务。团队深度参与研发的AI技术目前广泛应用于腾讯游戏、社交生态、广告推荐、内容创作、智能办公等各大业务场景。
3
WebDevJudge: Evaluating (M)LLMs as Critiques for Web Development Quality
Oral摘要
1.构建用于评测LLM-as-a-judge在网页开发方面对于人类偏好的拟合程度的Benchmark, 支持基于代码和网页渲染截图作为观察的静态评测和基于GUI agent在实际网页中交互的动态评测。
2.对单一评分和成对比较的评测方式,以及直接比较,多维度量表打分和二元rubrics的多种评测依据进行评测,发现现有LLM-as-a-judge/Agent-as-a-judge的优势和局限性。
3. 构建评测LLM/Agent-as-a-judge对网页功能完成性检测能力的原子Benchmark用于细粒度分析,同样支持基于代码的静态评测和基于交互的动态评测。
Oral时间:Sat, Apr 25 | 16:15-16:25 BRT
Oral地点:ICLR会场 Oral Session 6E
团队介绍
腾讯混元
大语言模型部
大语言模型部作为混元大模型基础模型研发与前沿方向探索的核心部门,聚焦于大语言模型的模型结构、数据和训练策略、强化学习算法和Agent能力提升,面向AGI 愿景持续探索智能上限,并通过构建基于大模型的 Al PaaS 中台能力服务公司内外部的产品创新与业务应用。
高招云直播