
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://app.aibase.com/zh
1、爱诗科技发布全球首个通用实时世界模型 PixVerse R1,最高1080P 画质
爱诗科技发布全球首个通用实时世界模型 PixVerse R1,通过三大核心技术实现虚拟世界的实时交互体验,并在游戏、影视、直播等领域拓展出“人人可共创”的新可能。
【AiBase提要:】
🧠 Omni 原生多模态模型作为现实世界的 “计算基座”,统一多模态内容为连续 Token 流,生成物理逻辑一致的数字世界。
🔄 自回归流式生成机制解决长时序内容一致性问题,实现叙事的 “流式交互”。
⚡ 瞬时响应引擎 IRE提升计算效率,支撑 “即时响应” 的核心体验。
2、Vidu 发布 AI 一键生成 MV 功能,打造分钟级“虚拟制片厂”
Vidu 发布 AI 一键生成 MV 功能,标志着视频创作进入全自动端到端生成时代,用户只需提供背景音乐、参考图像和文本指令,即可在分钟级别内输出高质量 MV。该功能通过多智能体系统实现全流程自动化,极大降低了专业视频创作门槛,为创作者提供了集成化的虚拟制片厂体验。
【AiBase提要:】
🎬 全自动多智能体协同:系统内置导演、分镜、视觉生成及剪辑四大智能体,实现从解析音乐到成片输出的全流程自动化。
🖼️ 工业级风格一致性:支持最多7张参考图定位,确保在长达5分钟的视频中,角色与场景风格不发生漂移。
🎵 音画同步精准卡点:AI 能自动识别背景音乐节奏并完成转场,同时生成逐帧同步的动态字幕,分钟级即可交片。
3、编程智能体的新标准!MiniMax 发布 OctoCodingBench 基准测试
文章介绍了MiniMax公司推出的OctoCodingBench开源基准测试,旨在评估编程智能体在代码仓库环境中对指令的遵循能力。该基准测试通过测试智能体对七种不同指令来源的遵循程度,提供了一个多维度的评估框架,并采用二元检查清单的评分机制,使得评估结果更为准确。此外,OctoCodingBench还支持多个脚手架环境,如Claude Code、Kilo和Droid,这些都是实际生产环境中使用的工具。
【AiBase提要:】
🧠 评估编程智能体对指令的遵循能力
📊 提供多维度的评估框架
🔧 支持多个脚手架环境
详情链接:https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench
4、快手宣布可灵AI ARR达2.4亿美元,12月收入超过2000万美元
快手科技宣布可灵AI在2025年12月实现单月营收超过2000万美元,年化收入运行率(ARR)达到2.4亿美元,展现了其在生成式AI市场的强劲增长势头。
【AiBase提要:】
🚀 可灵AI月收入突破2000万美元,年化收入运行率(ARR)达2.4亿美元。
🛠️ 技术密集迭代,发布多款模型提升专业创作效率。
🌍 服务全球超6000万用户,商业化落地覆盖多个领域。
5、国产算力+自主创新架构!智谱联合华为开源GLM-Image,首个多模态SOTA模型全链路跑通昇腾芯片
智谱AI与华为联合开源GLM-Image,该模型在性能上达到国际领先水平,并创下全球首个全流程基于国产AI芯片的多模态大模型纪录。其采用自回归+扩散解码器混合架构,实现图文语义深度对齐与联合推理,推动AIGC从“像素堆砌”迈向“语义驱动”。
【AiBase提要:】
🧠 自回归+扩散解码器混合架构,实现图文语义深度对齐与联合推理
🚀 全流程基于国产AI芯片完成,摆脱国外GPU依赖
🌐 推动AIGC从“像素堆砌”迈向“语义驱动”
详情链接:https://github.com/zai-org/GLM-Image
6、全球首款医疗大模型 Baichuan-M3 亮相:超越 GPT-5.2,实力不容小觑!
国产医疗大模型Baichuan-M3正式发布,成为全球最强的医疗AI系统。该模型由百川智能推出,专注于医疗场景的应用,融合了大量医学文献、临床指南、真实病历以及药品知识库,展现了惊人的智能医疗能力。
【AiBase提要:】
🧠 Baichuan-M3医疗大模型参数高达2350亿,具备超低幻觉率,确保医疗问诊和用药建议的准确性。
🏥 在问诊能力和医疗准确性方面,Baichuan-M3超越GPT-5.2,并优于人类医生。
🌐 百川智能开源策略鼓励开发者参与医疗AI创新,推动医疗AI生态共建。
7、谷歌重构电商未来:推出Agentic AI购物系统,Gemini CX+UCP协议实现“搜索即购买”
谷歌推出Agentic AI购物系统,结合Gemini CX与UCP协议,实现从搜索到购买的无缝体验,重构电商未来。
【AiBase提要:】
✅ 推出Agentic电商解决方案,涵盖UCP协议与Gemini CX系统,实现一站式购物闭环。
💡 用户可通过谷歌搜索直接完成购物任务,无需跳转页面。
🌐 UCP协议为AI Agent、商家与电商平台建立标准化通信桥梁,兼容现有行业标准。
8、谷歌加码医疗AI开源生态:MedGemma 1.5强化医学影像能力,同步推出语音转写模型MedASR
谷歌发布新一代开源医疗大模型MedGemma 1.5和语音识别模型MedASR,进一步完善其在医疗垂直领域的技术栈。MedGemma 1.5增强了对医学影像的理解与分析能力,从纯文本问答工具迈向多模态临床决策支持系统。MedASR则专注于医疗语音场景,提高电子病历录入效率。两个模型均基于去标识化的临床数据训练,并以开源形式发布,供全球研究者与开发者使用。
【AiBase提要:】
🧠 MedGemma 1.5强化医学影像理解与分析能力,支持多模态临床决策支持系统。
🗣️ MedASR优化医疗语音识别,提升电子病历录入效率。
🔒 谷歌开源模型遵循隐私保护规范,推动AI在基层医疗和科研中的应用。
嘉创配资提示:文章来自网络,不代表本站观点。