open-r1-multimodal https://github.com/EvolvingLMMs-Lab/open-r1-multimodal/blob/main/src/open_r1/grpo.py Accuracy Reward(准确性奖励) 检查模型的回答是否正确,采用 符号验证(Symbolic Verification) 和 字符串匹配(String Matching) 两种方
MagicNaming: Consistent Identity Generation by Finding a “Name Space” in T2I Diffusion Models 贡献 提出“Name Space”(N空间)的概念 扩散模型的文本嵌入空间中存在一个与身份信息解耦的“Name Space”,其中每个点对应一个特定身份。通过在该空间中定位或插值,可以实现对普通或虚构人物的一致性
IP-FaceDiff: Identity-Preserving Facial Video Editing with Diffusion 贡献 提出了基于 T2I 扩散模型的面部视频编辑新框架: 相比现有方法计算开销降低80%,可大幅减少推理时间 提出了新的推理阶段身份保持策略: 通过身份保持损失(Identity Preservation Loss) 确保面部特征一致性,即在所有视频帧中保持
mutabnet tabnet 在表格比赛中,树模型常常比神经网络受欢迎,有如下原因: 带有超平面的决策流形 (Decision Manifolds) 适用于表格数据; 可解释性强; 训练快; 历史提出DNN没有针对表格数据去设计,传统的DNN依赖于堆叠网络层,导致过多参数,缺乏归纳偏差 (Inductive Bias),即缺乏学习符合某个规则模型的假设,使得DNN难以在表格决策流形上找到最优解
这项工作表明:针对特定任务开发专用模型,是构建媲美人类专家水平AI系统的可行路径。 贡献与创新点 Step-wise Pipeline的提出 Extractor:从上下文(表格和文本)中提取与问题相关的信息或证据。 Reasoner:基于提取的信息生成数学方程或逻辑规则。 Executor:执行方程或逻辑规则以得出最终答案。 这一流水线通过生成中间结果,使模型能够逐步推理,从而提升最终答案
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey 引言 思维链(CoT)推理机制使模型能够将问题分解为一系列中间步骤,从而增强决策的透明性以及在复杂推理任务中的表现 。 语言模型的范式转变 语言模型的应用范式从传统的“预训练 - 然后 - 微调”方法转变为更具适应性的“预训练 - 然后 - 提示”框架。在这个不断发展的领域中
TabPedia 精准识别表格位置并直接生成无重叠的检测框。 构建复杂TQA数据集ComTQA,与现有的基准WTQ和TabFact相比,ComTQA具有更具挑战性的问题,例如多个答案、数学计算和逻辑推理。 提到Visual Table Understanding (VTU)的子任务: Table Detection (TD), which locates tables within docu
VLM - R1 联汇科技将 DeepSeek R1 迁移到视觉语言领域 https://mp.weixin.qq.com/s/PnFP7BXu4U3w7JnirwGw-Q https://github.com/om-ai-lab/VLM-R1 https://om-ai-lab.github.io/2025_03_20.html 成功把 DeepSeek R1 从纯文本领域迁移到视觉语言领域
大型多模态模型(LMM)[5, 6]领域由于其处理不同类型数据的强大能力而正在迅速发展。 然而,它们在处理文本相关任务时仍然存在局限性。 如图1(a)所示,几种方法,包括LLaVAR [7]、UniDoc [8]、TGDoc [ 9] 和 mPLUG-DocOwl [10] 严重依赖预训练的 CLIP [11] 进行视觉编码。 然而,这些编码器的输入分辨率为224或336,不足以满足包含大量小文
部分参考:《细致扒一下DeepSeek-R1论文到底讲了些什么》 Process Reward Model 过程奖励模型 Process Reward Model(PRM,过程奖励模型)是强化学习(Reinforcement Learning, RL)中的一种奖励机制设计方法,其核心思想是通过为智能体在任务执行过程中的每一步或关键子任务提供即时反馈(奖励),而不仅仅依赖最终结果的成败来指导学习
[1] Barboule C, Piwowarski B, Chabot Y. Survey on Question Answering over Visually Rich Documents: Methods, Challenges, and Trends[A]. arXiv, 2025. [2] Fu P, Guan T, Wang Z, et al. Multimodal Large
Ding Y, Wu X, Meng Y, et al. Delving into Differentially Private Transformer[A]. arXiv, 2024. 贡献点 1. 模块化地方法来研究DP Transformer训练 将训练DP Transformer 归约为训练 DP 基础神经网络的问题,以便使用已有的无模型(model-agnostic)方法来改进训练。
Tao W, Ling H, Shi Z, et al. Deep Learning with Data Privacy via Residual Perturbation[A]. arXiv, 2024. 贡献 文章提出了一种基于随机微分方程(SDE)的残差扰动方法,用于保护深度学习中的数据隐私。该方法通过在ResNet的每个残差映射中注入高斯噪声来实现隐私保护。 超参数少且计算高效: 与
Birrell J, Ebrahimi R, Behnia R, et al. Differentially Private Stochastic Gradient Descent with Fixed-Size Minibatches: Tighter RDP Guarantees with or without Replacement[A]. arXiv, 2024. 贡献和创新点 本文
Zhang X, Bu Z, Hong M, et al. DOPPLER: Differentially Private Optimizers with Low-pass Filter for Privacy Noise Reduction[A]. arXiv, 2024. 背景 传统的DP优化器(如DP-SGD)通过梯度剪裁和噪声注入来保护隐私,但在训练大型模型时,由于噪声的累积,模型性
Liu B, Wang P, Ge S. Learning Differentially Private Diffusion Models via Stochastic Adversarial Distillation[A]. arXiv, 2024. Contributions 结合扩散模型(Diffusion Models)和对抗蒸馏(Adversarial Distillation),
Huang T, Huang Q, Shi X, et al. Enhancing DP-SGD through Non-monotonous Adaptive Scaling Gradient Weight[A]. arXiv, 2024. Contributions: 引入非单调自适应梯度缩放权重: 一种新的梯度缩放技术,针对小梯度赋予适当的权重,以提高差分隐私(DP)下的学习能力。
[0] He J, Li X, Yu D, et al. Exploring the Limits of Differentially Private Deep Learning with Group-wise Clipping[A]. arXiv, 2022. Adaptive per-layer clipping ffor DP-SGD 估计每一层梯度的分位数来动态调整剪裁阈值。克服了固
在教育领域,基于LLM的智能体面临的主要挑战是输出无害且更可信的内容以提高教育质量。另一个挑战是多样性和个性化:教育面向多样化的学生群体,在基于LLM的智能体系统中为每个学生实施个性化教学和自适应学习仍然是一个重大挑战。此外,尽管LLM具有强大的自然语言交互能力,但在理解学生的问题、表达和情感方面仍有改进空间,以更好地满足他们的学习需求。 基于LLM的智能体在多个领域展示了显著的能力,包括特定
自然科学应用前景 数学 目前,基于LLM的数学智能体研究主要集中在增强推理能力和支持理论推导方面。 基于LLM的智能体在未来的数学研究中展现出巨大潜力,包括: 辅助理论推导: 基于LLM的智能体理解数学和物理等基础领域的现有理论,并协助人类进一步推导和验证,最终推动科学探索。 符号与数值计算: 基于LLM的智能体可用于符号和数值计算,帮助研究人员解决各种数学问题。智能体可以执行多种数学程序,包括
::: hljs-right 参考文献: [1] Cheng Y, Zhang C, Zhang Z, et al. Exploring Large Language Model based Intelligent Agents: Definitions, Methods, and Prospects[A]. arXiv, 2024. ::: 智能体系统的四个组成部分 目标->行动->
::: hljs-right DATE: October 17, 2024 ::: 基于多模态大模型的多智能体教育游戏场景融合应用研究 AI+游戏结合具体方向 全局AI语音助手(AI Agent) npc接入大预言模型 + 提示词或者微调指定人格 多模态大模型:视频图片生成 npc动作部分交由LLM决策(具身智能)(可选) 拟定游戏 全局应用技术 语音转文本+文本转语音(直接调用api)
工具: vimium: https://vimium.github.io/ win-vind: https://github.com/pit-ray/win-vind mac用户可以使用Vimari和Vimac <br> 参考(由衷感谢二位,解放双手yyds): https://www.bilibili.com/video/BV1SP411y7XG/?spm_id_from=33
练习英语听力:“高我”法 关上门 拉上窗帘 只开桌上台灯 保持周围环境世界安静 想象自己此刻是一名特工 在晚间定时监听敌台 上峰要求在一个月内破译敌军全部电台密语 转译为中文 然后开始播放“截获的敌军密电码”(语料视频) 拿一张白纸 一支笔 边听边记 在小黑屋的台灯下 开始破译 直到听懂全部内容,发现截获的情报破译后是: “衬衫的价格是九磅十五便士”…..(啊不 这样练英语听力真的好带感! 我愿
LLM与AI Agent LLM LLM主要用于生成文本内容,如文章、对话、故事等。它可以处理和生成大量的文本数据,提供丰富的语言信息。 内容生成: LLM擅长于生成连贯、有逻辑的文本内容。 信息检索: LLM可以用于信息检索任务,但它通常不维护一个持续的状态或上下文。 交互性: LLM的交互性有限,它通常不设计为与用户进行持续、动态的对话。 AI Agent AI Agent是一个更高级别的
STEM教学 一种跨学科的教育模式,科学(Science)、技术(Technology)、工程(Engineering)和数学(Mathematics)的整合应用 项目式学习(Project-Based Learning, PBL) 项目式学习是一种以学生为中心的教学方法,学生通过参与和完成一个具体的项目或任务来学习知识和技能。这种方法强调动手实践、问题解决和团队合作,使学生在实际操作中理解和应用
参考:https://zhuanlan.zhihu.com/p/663234588 CLIP 模型训练的目标就是最大化对角线上的分数,并最小化对角线外的分数 。 因为 CLIP 在两个 encoder 后只进行了简单的内积作为模态的交互,对于复杂点的任务就不那么 work 了,一个顺其自然的发展就是去增强不同模态的交互/融合,也就是可以用一个神经网络来替换内积。 https://zhuanla
游戏人工智能 "Game AI"(游戏人工智能)通常指的是在电子游戏中使用的各种人工智能技术和算法,用于控制游戏中的非玩家角色(NPC)、敌人、队友等,以及为玩家提供有挑战性的对手或有趣的互动体验。Game AI 的核心目的是增强游戏的可玩性和沉浸感,使游戏世界更加生动和富有挑战性。 包括 AI bot、NPC 逻辑及剧情生成和数字资产生成。 游戏AI主要关注实体根据
CLIP(Contrastive Language-Image Pretraining) 旨在通过对比学习同时理解图像和文本。其核心思想是将图像和文本编码到同一个向量空间中,从而能够进行文本与图像的跨模态检索。具体来说,CLIP模型由两个子模块组成:一个文本编码器和一个图像编码器。这两个编码器通过对比学习将图像和文本的特征对齐,使得模型能够在没有明确标注的情况下理解和关联不同模态的数据。 无监督
什么是多模态? 多模态大模型就是一种能够理解和处理多种类型的机器学习模型——而类型也被叫做模态,包括文本,图片,音频,视频等。 这种模型可以融合多种不同模态的信息,执行更复杂和智能的任务;如视觉问答(AI面试官),图文生成,语音识别与合成等。 ://blog../weixin_58753619/article/details/141142913 应用场
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号