当前位置：首页

估值飙至 138 亿美元，27 岁天才少年再获融资：数据标注会是下一个风口？

爱AI工具库 2024-05-25

163

【新智元导读】Alexandr Wang 创办的 Scale AI 是一个为 AI 模型提供训练数据的数据标注平台，近期完成新一轮 10 亿美元融资，估值飙升至 138 亿美元。该公司表示将利用新资金生产丰富的前沿数据，为通向 AGI 铺平道路。Scale AI 为想要训练机器学习模型的公司提供数据标注服务，已从亚马逊和 Meta 等众多知名机构和企业投资者那里筹集了 10 亿美元的 F 轮融资。本轮融资由 Accel 领投，它之前还领投了 Scale AI 的 A 轮融资，并参与了后续的风险投资。这轮融资让 Scale AI 的身价飙升。尽管去年年初裁员 20%，但公司目前估值已经达到了 138 亿美元。Scale AI 联合创始人兼首席执行官 Alexandr Wang除了亚马逊和 Meta 之外，Scale AI 还吸引了各种各样的新投资者：思科、英特尔、AMD 等风险投资部门参与其中，而且很多注资过的公司也回归了，包括英伟达、Coatue、Y Combinator 等等。天才少年辍学创办独角兽Scale AI 由 Alexandr Wang 和 Lucy Guo 于 2016 年创立，由著名创业孵化器 Y Combinator 投资。该公司使用机器学习来标记和分类大量数据，以便客户用于训练模型。Scale AI 的客户包括 Meta、微软、英伟达、OpenAI、丰田和哈佛医学院。在创始人基金领投的 1 亿美元 C 轮融资之后，Scale AI 在 2019 年获得了独角兽的地位，总共从 Index Ventures、Coatue、Tiger Global 等知名投资者处筹集了 6.026 亿美元。2022 年，持有 15% 股份的 Alexandr Wang 成为全球最年轻的白手起家的亿万富翁。创业之前，Wang 从小到大的履历也让人印象深刻。1997 年出生于新墨西哥州，父母都是在新墨西哥州洛斯阿拉莫斯国家实验室的物理学家。高中阶段开始通过网络自学编程，并报名参加了一些世界级的编程大赛，比如美国计算机奥林匹克竞赛（USACO）。17 岁，成为美国知名问答网站 Quora 的全职码农；18 岁，考入麻省理工学院攻读机器学习；在 MIT 大一刚结束后的暑假，他就和 Guo 一起创办了 Scale，并且拿到了 Y Combinator 的投资。Wang 跟爸妈说，「这就是我夏天随便玩玩的事。」Scale AI 刚起步时，有些人确实觉得这就是一个笑话，毕竟公司当时只有三名员工。不过，在不断地融资和发展之下，Scale AI 发展飞速，到 2021 年已经成长为价值 73 亿美元的独角兽企业，2023 年初公司规模也扩展到了 700 人。Wang 在接受《财富》杂志独家采访时透露，随着企业客户竞相训练生成式 AI 模型，Scale AI 的这方面业务快速增长。2023 年，公司年度经常性收入（企业长期为数据服务支付的费用）增加了两倍，预计 2024 年底将达到 14 亿美元。由于 Scale AI 的惊人成就，Alexandr Wang 在 2021 年入选福布斯企业技术领域「30 under 30」排行榜，他本人在硅谷也被称为「下一个扎克伯格」。AI 模型的「数据工厂」AI 领域公认的三个基本支柱 —— 数据、算法和算力。算法领域，前有谷歌、微软的大型研究院，后有推出过 Sora 和 GPT 系列模型的 OpenAI；算力领域有供货全球的英伟达，但在 Scale AI 还未诞生的 2016 年，数据领域仍处于空白。19 岁的 Alexandr Wang 在看到这一点后，做出了辍学创业的决定，「我创办 Scale 的原因是为了解决人工智能中的数据问题」。大部分数据都是非结构化的，AI 很难直接学习这些数据；而且大型数据集的标注一项资源密集型工作，因此，「数据」被很多人认为是科技领域最辛苦、最卑微的部分。但 Scale AI 却在短时间内就获得了巨大成功。他们可以为不同行业的企业客户量身定制数据服务。在自动驾驶领域，Cruise 和 Waymo 等公司通过摄像头和传感器收集了大量数据，Scale AI 将机器学习与「人机回路」（human-in-loop）监督相结合，管理和标注这些数据。他们曾经开发的「自治数据引擎」推动了 L4 级别自动驾驶技术的发展。2019 年，Scale AI 帮助 OpenAI 团队一同训练 GPT-2，进行了 RLHF 的首次实验，并将这些技术扩展到 InstructGPT 等其他 LLM 上。CEO Wang 在接受《财富》杂志采访时表示，Scale AI 将自己定位为整个 AI 生态的基础设施供应商，构建「数据铸造厂」，而不仅仅是在子公司 Remotasks 中雇佣大量的合同工进行人工标注。Scale AI 已经开始与不同领域的专家合作，比如博士级学者、律师、会计师、作家等。给聊天机器人的回复进行打分，这样的工作为什么能让博士级别的专家参与其中？Wang 的回应是，原因有很多：「如果你是一名博士，习惯于做一些非常小众、深奥的研究，也许世界上只有少数人能够理解。但这个工作中，你可以帮助改进和构建这些人工智能系统的前沿数据，有机会产生真正的社会影响。」同时，Wang 也认为，这些专家所能提供的高质量数据对 AI 的未来非常重要。他补充说，来自专家的、包含复杂推理的数据是未来人工智能的必备条件。「你不能随便把旧数据输入给算法中，然后期待着它会自我改进」。传统的数据来源，比如从 Reddit 等社区的评论中抓取数据存在局限性。Scale AI 构建了一些流程，模型先输出一些内容，例如撰写研究论文，在此基础上，人类专家可以改进这些内容，从而改进模型的输出。关于 AI 生成并注释的数据，有人持积极态度，认为可以消除对人类注释数据注释，但 Wang 的观点并没有这么单纯。他说，合成数据以及人类创建的数据，这两个方面 Scale AI 都有投入。「虽然人工智能生成的数据很重要，但想要获得有一定质量和准确性的数据，唯一方法是通过人类专家的验证。」数据日益重要数据是人工智能的命脉，因此数据管理和处理领域的公司正站在风口上。就在上周，印度的数据平台 Weka 表示，它以 16 亿美元的投后估值筹集了 1.4 亿美元，以帮助公司为其人工智能应用程序构建数据管道。人工智能数据的主要问题仍然存在。Scaling Law 的存在意味着，随着模型变大，对数据的需求也呈现指数级增长，越来越多的人担心大模型会耗尽可用数据。Alexandr Wang 在 Scale AI 的官网上这样写道，「数据丰富不是默认情况，而是一种选择，它需要汇集工程、运营和 AI 方面最优秀的人才」Scale AI 的愿景之一是「数据丰富」，从而将前沿 LLM 扩展到更大数量级，「为通向 AGI 铺平道路。在达到 GPT-10 的过程中，我们不应该受到数据的限制」。参考资料：https://techcrunch.com/2024/05/21/data-labeling-startup-scale-ai-raises-1b-as-valuation-doubles-to-13-8b/https://fortune.com/2024/05/21/scale-ai-funding-valuation-ceo-alexandr-wang-profitability/https://scale.com/blog/scale-ai-series-f本文来自微信公众号：新智元（ID：AI_era）

来源：

IT之家