4月2日,智谱公司正式推出新一代多模态编程基础模型GLM-5V-Turbo。该模型旨在突破传统纯文本编程的限制,能够直接理解视觉信息并生成相应的可执行代码。
GLM-5V-Turbo模型可实现根据视觉素材生成代码
据悉,GLM-5V-Turbo在研发阶段即深度融合了视觉与文本处理能力。它能够识别设计图纸、软件界面截图、网页布局等多种图像内容,并据此自动编写出功能代码,实现了“所见即可编程”的效果。
该模型主要具备以下三项技术特点:
- 原生多模态理解: 可直接处理图片、视频、设计稿等非文本输入,支持多种视觉交互工具,其上下文处理能力得到大幅扩展。
- 能力均衡发展: 在视觉编程与图形界面自动化测试等多个核心评估中表现优异,同时确保了在纯文本编程和逻辑推理任务上的性能不受影响。
- 广泛场景适配: 深度优化了与主流开发环境及智能体场景的兼容性,能够完成从环境理解到任务执行的完整流程,并提供了丰富的官方功能模块供开发者直接调用。
模型在多类测试中均展现出领先性能
根据官方测试结果,GLM-5V-Turbo在设计稿还原、视觉代码生成等任务上处于领先地位。在多个图形用户界面自动化操控测试中,其表现突出,纯文本编程能力也保持稳定。
此外,在应用于智能体系统时,该模型为其增添了强大的视觉处理功能,在多项复杂任务评测中取得了优秀成绩,验证了其执行实际复杂项目的可行性。
目前,该技术已应用于多个实际场景,例如根据图像自动生成前端代码、实现图形界面的自主探索与复现,并能辅助完成金融图表分析、图文报告自动生成等任务。
开发者现可通过官方指定平台及应用程序接口体验或集成该功能,相关官方功能模块也已在其开发者社区正式上线。