站长之家 - 业界 2021-11-10 09:51

分析称用于建立检测皮肤病的算法的数据集并不包括足够的肤色信息

据The Verge报道，根据一项新分析，用于训练检测皮肤问题的算法的公共皮肤图像数据集并不包括足够的肤色信息。而在有肤色信息的数据集中，只有很少的图像是深色皮肤的--因此使用这些数据集建立的算法对非白人来说可能不那么准确。

周二发表在《柳叶刀-数字医疗》上的这项研究检查了21个可自由访问的皮肤状况图像数据集。这些数据集共包含10万多张图片。这些图像中只有1400多张附有关于患者种族的信息，只有2236张有关于肤色的信息。这种数据的缺乏限制了研究人员在图像上训练的算法中发现偏差的能力。而这种算法很可能是有偏见的。在有肤色信息的图像中，只有11张是来自菲茨帕特里克皮肤量表中最深的两个类别的病人，该量表对肤色进行分类。没有来自非洲、非洲-加勒比或南亚背景的病人的图像。

这些结论与9月份发表的一项研究相似，该研究还发现，用于训练皮肤学算法的大多数数据集都没有关于种族或肤色的信息。该研究检查了70项开发或测试算法的研究背后的数据，发现只有7项描述了所用图像中的皮肤类型。

斯坦福大学皮肤病学临床学者、9月份发表的一篇论文的作者Roxana Daneshjou说：“我们从少数报告出肤色分布的论文中看到的是，那些论文确实显示出深肤色的代表不足。”她的论文分析了许多与《柳叶刀》新研究相同的数据集，得出了类似的结论。

当数据集中的图像是公开的，研究人员可以去查看哪些肤色似乎是存在的。但这可能很困难，因为照片可能与现实生活中的肤色不完全一致。“最理想的情况是，在临床就诊时注意到肤色，”Daneshjou说。然后，该患者的皮肤问题的图像可以在进入数据库之前被贴上标签。

如果图像上没有标签，研究人员就不能检查算法，看看它们是否使用了有足够多不同皮肤类型的人的例子的数据集。

仔细检查这些图像集很重要，因为它们经常被用来建立算法，帮助医生诊断病人的皮肤状况，其中一些--如皮肤癌--如果不及早发现就会更危险。如果算法只在浅色皮肤上进行了训练或测试，它们对其他人来说就不会那么准确。"研究表明，只对浅色皮肤类型的人的图像进行训练的程序对深色皮肤的人来说可能不那么准确，反之亦然，"新论文的共同作者、牛津大学的一名研究员David Wen说。

新的图像总是可以被添加到公共数据集中，研究人员希望看到更多关于深色皮肤状况的例子。而提高数据集的透明度和清晰度，将有助于研究人员跟踪更多样化的图像集的进展，这可能导致更公平的AI工具。Daneshjou说：“我希望看到更多的开放数据和更多精心标记的数据。”

24小时热搜

热
4.53万次阅读
1 沙特申博宣传片真是中国拍的网友：这风格意境是中国的手笔
70991次阅读
2 南方人东北购物被店主语气“凶哭”：文化差异导致误解
58002次阅读
3 女子下班回家发现家门口被贴U盘：新型诈骗手段？
39073次阅读
4 爸爸送娃撂下就走结果学校没开门：交警协助联系安全返家
37434次阅读
热
3.23万次阅读
5 宗庆后在黄金地段为员工建廉租房：从不裁45岁以上员工我算有钱
30095次阅读
荐 2020年高通骁龙CPU排名高通骁龙888排名领先
35420次阅读

查看更多内容

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

分析称用于建立检测皮肤病的算法的数据集并不包括足够的肤色信息

推荐关键词

24小时热搜

大家正在看

巅峰时刻，「第6届天池全球数据库大赛」圆满收官

北电数智与中日友好医院共建“医疗可信数据空间”，助力产业转型

钟南山院士见证！理想L6、理想MEGA荣获“五星健康车”

李想首谈理想的AI战略，不是畅想是交卷

亚太唯一！阿里云5年蝉联Gartner®云数据库管理系统报告「领导者」

理想车主领福利了：即日起理想旗下600座高速超充站服务费全免

美林湖春晚，回归节日友好的理想生活

华为提出全新压缩算法：节省70%内存占用

VLM—VLA!理想、元戎启行等率先发力智能化

今日头条宣布将推进算法透明化破除信息茧房

被骗好久！美国网友辟谣：美国没有免费医疗和教育

晨曦医疗朱春艳：从客户真实需求出发，专注解决美丽问题

OpenAI科学家盛赞中国大模型：算法非常强，算力用到极致！

推进企业本土化发展碧迪医疗宜兴工厂开业

造谣理想车内摄像头拍色情图者道歉：获刑7个月

理想L9的劲敌现身！问界M8完成工信部申报

雷军祝贺理想汽车年交付突破50万辆：很了不起值得我们学习

抖音电商推出商家扶持计划：加大算法研发投入升级流量机制

2025年首匹黑马！小鹏逆势登顶首超理想问鼎开年冠军

竞逐千亿数据要素赛道数秦可信数据空间能给出多少想象？

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

分析称用于建立检测皮肤病的算法的数据集并不包括足够的肤色信息

推荐关键词

24小时热搜

大家正在看

巅峰时刻，「第6届天池全球数据库大赛」圆满收官

北电数智与中日友好医院共建“医疗可信数据空间”，助力产业转型

钟南山院士见证！理想L6、理想MEGA荣获“五星健康车”

李想首谈理想的AI战略，不是畅想是交卷

亚太唯一！阿里云5年蝉联Gartner®云数据库管理系统报告「领导者」

理想车主领福利了：即日起 理想旗下600座高速超充站服务费全免

美林湖春晚，回归节日友好的理想生活

华为提出全新压缩算法：节省70%内存占用

VLM—VLA!理想、元戎启行等率先发力智能化

今日头条宣布将推进算法透明化 破除信息茧房

被骗好久！美国网友辟谣：美国没有免费医疗和教育

晨曦医疗朱春艳：从客户真实需求出发，专注解决美丽问题

OpenAI科学家盛赞中国大模型：算法非常强，算力用到极致！

推进企业本土化发展 碧迪医疗宜兴工厂开业

造谣理想车内摄像头拍色情图者道歉：获刑7个月

理想L9的劲敌现身！问界M8完成工信部申报

雷军祝贺理想汽车年交付突破50万辆：很了不起 值得我们学习

抖音电商推出商家扶持计划：加大算法研发投入 升级流量机制

2025年首匹黑马！小鹏逆势登顶首超理想 问鼎开年冠军

竞逐千亿数据要素赛道 数秦可信数据空间能给出多少想象？

理想车主领福利了：即日起理想旗下600座高速超充站服务费全免

今日头条宣布将推进算法透明化破除信息茧房

推进企业本土化发展碧迪医疗宜兴工厂开业

雷军祝贺理想汽车年交付突破50万辆：很了不起值得我们学习

抖音电商推出商家扶持计划：加大算法研发投入升级流量机制

2025年首匹黑马！小鹏逆势登顶首超理想问鼎开年冠军

竞逐千亿数据要素赛道数秦可信数据空间能给出多少想象？