司马阅1.5版本更新后,司马阅对文档的识别、提取、回答的准确度都更上一个台阶,「司马阅」在更复杂的文档「分析准确度」方面优势,表现更明显,更适合专业人士使用。
01、【第 一轮】研报测试
本轮测试,我们选择了申万宏源《2024年AI算力行业投资策略》,这份报告专业性极强,且包含多个表格以及大量数据。
对于金融分析师、AI算力等领域的从业人员来说,相关专业研报的分析和解读,一直是重要但是也重复而繁琐的工作。
——“我需要其中的一部分数据,能快速提取出来吗?还是要我自己慢慢找,挨着复制粘贴?”
——“我有一个重要的问题,难道真的要看完100页的报告才能知道答案吗?”
——“我想看某某企业的最 新技术或者产品,它们在这份文档的哪几页,能快速定位吗?”
——“原文只提供了同比的数据,没有计算增长率,AI能快速帮我计算一下吗?”
……这些需求的背后,都包含着对AI文档技术一个最核心的要求:
准确
数据源定位准确;
信息提取准确;
分析回答准确;
而这,是司马阅坚持打磨以及升级核心技术的底层逻辑。
现在来看看评测的过程——
我们向司马阅提了一个问题:2023到2025年,推理卡的需求量是多少?增长率是怎样的?我们来看看数据的出处:
可以看到,2023到2025年的推理卡需求量,准确到个位的数据,其实是隐藏在表格中的,原文只是模糊地给出了“11、117、450万张”这样的概括性数据,而如果仅仅只是识别了概括性数据,根本无法计算增长率。所以,这个问题的难点在于
同时包含了1需求量、2增长率两个问题。
AI需要知道我在问什么
AI需要理解“推理卡需求量”是什么
AI需要知道信息在原文的什么地方
AI需要提取具体的数字
AI进行计算并回答
我们来看看司马阅的回答。
司马阅准确回答了2023-2025年,具体到个位数的推理卡需求量,并且计算出了正确的增长率。
02、【第二轮】财报测试
财报相较于研报,表格和数据更多,并且对数据的准确度要求更高,我们为了提高难度,选择了《东方甄选2024年中期财报》,报告中包含了大量专业性词汇,大量的数据和表格,并且,这是一份繁体报告。
我们向司马阅提了一个问题:主要财务摘要是什么?用表格回答我们来看看数据的出处:
财报本身就是用数据的形式表达的,所以提出这样的问题,主要考验的是AI对信息提取的准确度和完整性,以及,是否能按照正确的格式进行输出。我们来看看司马阅的回答。
司马阅不仅准确地识别了数据源的位置,提取出了准确的数据,并且回答也是按照要求,用表格进行的输出。
03、【第三轮】财报测试
最后,我们在财报中找了一组数据,提了一个对数据定位能力要求很高的问题:相较于2022年,线上教育服务学生的收入有什么变化?
我们先来看原始数据:
可以看到:目标数据“线上教育服务的学生”隐藏在表格中,并且在数据的下方有相似文字的干扰项——“线上教育服务的机构客户”,所以AI需要准确地排除掉干扰项,将正确的数据定位,然后才能提取出对应正确的数字“365,742”、“295,103”。
我们来看看司马阅的回答:司马阅准确回答出了数据,并按要求,回答出了变化的幅度,计算出了2023年与2022年之间的差值70,639
通过这次测试,我们可以明显看到司马阅在对复杂文档的分析、提取及回答的准确度上,相较于其他国内AI文档类产品有明显的优势。目前我们在不断地迭代核心技术,司马阅力求就在对事实信息提取分析的准确性,助力企业在各种场景解决真实问题。