发布公测后的 60 天,ChatGPT吸引了 10 亿用户。
2022 年,全球医疗行业市场达 5000 亿美元。
乍看之下,这两个数字的关系有点远。然而正如最近A16Z发布的文章里指出的:医疗是目前仅存的,还未被技术大规模改变的重要领域。而更易落地、有着超过 10 倍效率提升的AI技术,就是这个突破口。
可以说,对ChatGPT背后的生成式模型来说,积累了海量优质数据、迫切需要降本增效的医疗行业很可能成为其最集中、来得也最快的爆发点。
硅星闻对话了硅谷投资人张璐,聊了聊生成式模型在医疗领域的巨大可能性及挑战。
关于张璐:
张璐是硅谷新一代领军基金的代表人物, 2022 年被福布斯评选为全球华人精英Top 100 行业翘楚, 2023 年入选Business Insider美国最 佳 25 名女性早期投资人及100 Women in Finance榜单,也是达沃斯世界经济论坛“全球青年领 袖”。
2015 年,张璐创立 Fusion Fund,现管理近 4 亿美元资本,专注医疗和深科技领域投资。张璐带领的投资团队以斯坦福背景为主,汇聚了硅谷杰出企业家、投资人以及美国工程院院士等,已投资公司有多家上市和收购退出。
医疗也许是生成式AI最合适的应用窗口
对于大模型来说,优质、庞大的数据量是它能够得以存在、不断进化的最重要基础之一。
而在这一点上,医疗领域一骑绝尘。
“在医疗行业中,数据基础、数据质量、数据专业度都非常高。而生成式人工智能的出现,也会帮助我们更快更好地将人工智能应用在医疗领域推广。”张璐表示。医疗领域是她创立的Fusion Fund的一个重要投资方向。
另一方面,医疗是关乎全人类健康、生存的重要行业,从其庞大的市场规模、以及全球为医疗进步投入的大量人力、物力,不难看出,未来这个行业也会不断有着精进技术、降本增效的需求。仅看美国市场,医疗行业的规模就达到了 4000 亿美元。
两相结合,医疗行业很可能成为生成式模型最重要的落地窗口。
从去年底开始吸引了全球关注的ChatGPT,将率先改变医疗领域中“非临床”的部分:在《纽约时报》六月发布的报道中,详细介绍了一位田纳西的全科医生如何在类似ChatGPT的AI助手的帮助下,将每天两小时以上的医疗资料整理工作,缩减到 20 分钟。
在张璐看来,目前生成式模型在医疗领域的各个垂直方向都有重大影响,包括数字化诊断、数字化治疗、数字化生物学,将带来巨大产业创新及效能提升的机会,最终帮助解决医疗领域的“三A问题”,也就是accessibility(可得性)、affordable(低成本)、accuracy(高精度、个性化)。在此之外,值得关注的领域还包括药物创新、临床试验等。
硅谷投资人、Fusion Fund创始人张璐
对张璐而言,这些领域中最令她兴奋的是生成式人工智能在数字生物学的应用,尤其是它与AlphaFold结合后,未来对于数字生物学及它包含的合成生物学的推动。合成生物学不仅在制药领域有巨大的创新价值,同时在化工领域、食品领域也有非常广泛的应用。“通过生成人工智能和数字生物学的结合,可以帮助我们更快发掘定义新型蛋白质的设计,提高准确率和效率,从而对于药物创新研发产生巨大的贡献。”张璐表示。
今年早些时候,生物技术公司Insilico Medicine(Insilico)宣布已完成INS018_ 055 阶段II临床试验首 次剂量投放,这是世界上首 个使用生成式人工智能发现和设计的抗纤维化小分子抑制剂,现已开始第二阶段临床试验。
其次,临床实验(clinical trial design)也有机会,包括如何设计不同的临床实验——也就是通过生成合成的数据,去帮助挑选最合适的、最 低成本的临床实验、挑选患者等;在这个过程中,生成式模型也可以用于进行模型模拟、测试用户数据、合成多样化临床数据等。
过去人工智能已经开始应用于药物发掘,然而一直没有爆发。这是因为发掘层面其实并非成本最 高的地方,最 高的地方是临床。
“毕竟临床需要大量样本,价格又非常高昂,导致很多药厂在研发药物上受到限制——如果疾病的病人数量不够,可能就很难覆盖临床成本,药厂也没有动力进行开发。
“当这两个阶段可以应用生成式人工智能后,就会对药物发掘带来重要的改变:真正从根本上大规模降低药物研发成本,推动新药研发。”
除了这些新型的方向,生成式人工智能在人工智能驱动的个性化诊断、医疗影像层面等领域也有非常广泛的应用。比如张璐于数年前投资的Subtle Medical正是一个生成式AI应用于医疗影像的典型范例,最近刚被CB Insights选入头个生成式AI全球 50 强榜单。通过深度学习技术,深透医疗能够完成包括MRI、PET等医学图像的增强,是医疗影像领域的头家生成式人工智能平台,也开发了最早获FDA、CE、NMPA等同时批准的AI医学影像产品。
医疗垂直行业的数据壁垒保护创新
不难看出,生成式人工智能正成为未来医疗领域的主要推动技术之一。在这样的背景下,什么样的竞争壁垒能够让企业高筑护城河?
“对大模型来说,数据是重中之重。而数据与数据之间,也有着不少差距,很可能对大模型的训练与应用造成重大影响。” 张璐介绍道,“在目前阶段,想要进一步优化模型,数据的质量比数据量更重要。”
比如Chat GPT的飞速进化,离不开全球用户的大量数据训练;而对于医疗等垂直领域来说用专业的、行业专注的、特定的数据重新训练模型,才能让模型更加准确、有效、可靠。
正因此,对于在大模型领域的初创的公司或者说所有参与者来说,数据的质量很可能会成为一个重要壁垒。
“尤其是人工智能在医疗领域应用的公司,有没有能力接触最 高质量的数据、高质量的数据库,这非常关键。” 张璐表示。
“在医疗领域,创业团队有自己独特的data library,也就是各大行业数据、独特的行业知识,才能修改和重新训练这个模型,进行优化和调整,同时通过这个行业的特定的专业数据去保证模型的准确性。在这个基础之上,也就形成了一个比较强的技术和数据的壁垒。”
不难看出,在Fusion Fund的投资策略中,垂直领域应用及独特的海量高质量数据都是重要的标准。
以她投资的Subtle Medical为例,他们具有很强的技术领先性,将技术应用到整个加州的医疗系统里面,优质的数据进行初始模型的训练。后续在大规模应用过程中,找到了多个医学影像模态的应用场景、体现了AI技术的优越性,并在美国、欧洲、亚洲大规模应用,不断提升模型质量。
比如她早在五年前投资的Proscia, 这家公司专注于“AI读片”,也就是通过AI来提升病理诊断的比较准确度,业务主要覆盖治疗疾病切片的影像学分析、数据整合和云共享。从 2015 年起, Proscia就创建了一个数字病理云平台,使用计算机视觉来分析治疗疾病的活检切片和医学影像,并为医学专家提供每张切片中的病理数据。并在 2017 年将这项云技术跨界应用于治疗疾病病理分析,建立了治疗疾病病理切片云数据库。
再比如她此前投资的Huma.ai,有着众多药厂合作,给药厂数据化人工智能工具,所以拥有大量药厂内部数据。如今,它不仅是生命科学和制药行业第 一个生成式人工智能平台,两年前就开始和Open AI合作,还与行业顶 尖的数家药厂建立合作关系,直接帮助药厂挖掘内部价值。通过Huma.ai的工具,药厂的科学家可以直接通过人工智能设计临床实验的方案去挖掘新药特性。
近期,Huma.ai发布了生命科学及制药行业的第 一个生成式人工智能平台。可以看到,这个生成式人工智能平台已经有着优 秀服务质量:可以直接询问药物临床实验的设计方案,它有能力给出非常准确的答案。
数据隐私成挑战,然而仍旧蕴藏机遇
在机遇、壁垒之外,生成式人工智能在医疗领域面临着隐私挑战,或者说所有的领域都是如此,只是医疗领域对此更加敏感。
“很多医疗机构非常担心有liability(连带责任),可能不太愿意分享数据,这也会限制生成式人工智能在行业的应用,这个时候就需要另外一个工具——Federated learning,联邦学习。”张璐解释道。
Federated learning(联邦学习)是一种算法,已经开发出来很多年,特点是无需移动数据,对方可以直接把模型放到这一数据上进行训练。训练完毕后再拿走模型,所以不需要牺牲数据的私,又能获取数据价值,进行商业变现和数据分享。
“目前,联邦学习正在快速应用到医疗领域。比如医院想把数据提供给第三方的公司,培训人工智能模型,但是传输数据可能会承担风险或者是隐私泄露的责任,如果使用了联邦学习,就意味着并未分享数据,但实际上这些模型可以使用这些数据。” 张璐说道。
今年早些时候,NVIDIA发布了FLARE平台,为企业提供了联邦学习解决方案:一个强大、可扩展的联邦学习基础设施,使企业能够更轻松地管理复杂的AI工作流程,往往包括大规模的机器学习(ML)模型的训练和部署。
“未来我们可以看到一个很好的前景,联邦学习加生成式人工智能,帮助医疗领域的很多的大规模应用快速推进。”张璐表示。“其中重点是解决医疗系统的数据孤岛问题——医疗系统有很多高质量的数据,但是却都是相对孤立、独立的。通过联邦学习,数据孤岛问题得以解决,也能让这些数据可以更好的被人工智能以及大语言模型所应用。”
除此之外,她还指出,生成式人工智能目前面临着高昂的算力及数据成本,未来很可能会出现很多新的技术在infrastructure(基础设施)层面上来降低算力成本、数据成本。
“包括各大研究机构也出了一些新的模式,这些用海量数据算培训出来的模型,再用少量的核心数据去优化它。”比如Meta-AI template,希望这些不能够自己建立针对影像的大型语言模型的这些公司,可以用他们的技术直接去做应用。
不难看出,生成式模型作为工作提升的效率工具,仍旧有巨大的潜力。
“目前的生成式模型带来的是非常有效好用的工具,然而它也必须要被人去使用。未来医疗领域,医生护士都应该要使用这种新型的工具——因为这是人类的本质,和其他生物比,人类最 大的优势就在于会使用工具,可以说替代不是说技术替代人,而是说会使用新技术、会使用新工具的人,会替代那些不会使用人工智能工具的人。”张璐如此评论“AI代替人”的观点。
她认为,AI将不断帮助整个医疗系统完成效能提升,这一点也在她所投资的该领域企业中得到验证。
比如说Fusion Fund旗下被投公司Synaptec,通过人工智能进行医疗代码的自动化,节约医生大量时间。
再比如说由成功连续创业者创立的Vectara,专注于通过大语言模型去做企业级的搜索,可以帮助大的公司直接在公司内部的数据上运行大语言模型进行智能搜索。以及上文提到的Proscia,能通过AI读片帮助医生大大提升读片分析效率,而非取代医生。
“如今人工智能的发展真真正正验证了它作为一个非常强大的工具去帮助医疗工作者提升效率效能的能力,未来持续帮助他们把时间花在最关键的步骤上。”
而这影响力还将继续扩展,各个产业都可以通过它来进行工作效能提升。
“未来生成式人工智能会是一个基础设施一样的技术、一个非常有效的工具,可以预测到在这个基础上会出现各类应用,并探索各类模型优化。在这个过程中,它的准确性、应用的效率性、成本的降低,都是创新关注的方向。”
随着生成式人工智能带来的一个非常大的突破和飞跃,这类“零代码”的AI平台会广泛出现在人们的工作生活中。未来,许多拥有优 秀数据基础的行业可能都会面临人工智能的全面转型:包括保险、物流、金融行业。
“生成式模型带来了一个非常巨大的生态,让我们能够看到全产业的人工智能的如何数字化转型。而且我也相信,未来每个公司都多少要植入人工智能,它就像电力一样,用电多与少取决于你需要多少,但是所有公司都会使用这样的‘超 级电力’,加速生产效率和生产力。”张璐表示。
ChatGPT源码推荐:小狐狸ChatGPT付费创作系统完全开源源码