复旦大学自然语言处理实验室为视障人士打造了"听见世界"应用程序,成为他们的生活助手和智能管家。
该应用程序基于复旦大学开发的多模态大模型"眸思",与文本驱动的对话式大语言模型"MOSS"不同,"眸思"能够理解和识别图像内容,成为视障人士的"眼睛"。
"听见世界"应用程序提供街道行走模式、自由问答模式和寻物模式,满足视障人士日常需求。
街道行走模式下,"眸思"通过扫描道路状况,识别红绿灯、十字路口和障碍物,为视障人士提供安全指导。
自由问答模式中,"眸思"通过捕捉周围环境细节,用声音构建丰富的场景,传递视觉信息。
寻物模式里,"眸思"帮助视障人士轻松找到错放的手杖或其他物品。
为了满足视障人士的特定需求,研究团队使用超过 10,000 张图片对"眸思"进行特殊训练,使其能够适应更多场景。
未来,应用程序将升级定位精度并加入视频判断功能。其他模式,如阅读和解说,也在开发中。
据悉,"听见世界"应用程序将于今年 3 月完成第一轮测试,并在中国一二线城市展开试点。推广计划将根据计算资源的部署情况进行。