科技巨头苹果公司近日宣布推出其最新的多模态人工智能(AI)大模型,命名为“MM1.5”。该模型拥有300亿个参数,是苹果公司在人工智能领域最新突破的标志。
MM1.5构建在MM1架构的基础上,重点关注混合不同类型数据的训练周期对模型性能的影响。该模型提供一系列参数规模,从10亿到300亿不等,并具有图像识别和自然语言推理能力。
与前代相比,苹果公司改进了MM1.5的数据混合策略,从而增强了模型对图像理解、视觉推理和多图像推理任务的能力。此外,苹果公司还引入了高质量的OCR数据和合成图像描述,显着提高了模型对包含大量文本的图像的理解。
除了通用模型之外,苹果公司还推出了专门用于视频理解和移动设备用户界面(UI)理解的MM1.5变体。MM1.5-UI模型未来有望成为iOS背后的苹果“AI”,能够处理各种视觉任务,包括总结屏幕功能和通过对话与用户交互。
虽然MM1.5在基准测试中表现出色,但苹果团队仍在继续优化该模型,以增强其对移动设备UI的理解能力。通过融合更多数据和开发更复杂架构,苹果公司旨在打造一个更高效、更强大的苹果“AI”。