DatologyAI获4600万美元融资,简化大模型训练数据流程

添加书签

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

DatologyAI宣布获得4600万美元A轮融资,本次由 Felicis Ventures 的 Viv Faga 和 Astasia Myers 领投,Radical Ventures 和 Amplify Partners 等现有投资者以及 Elad Gil、M12 和Amazon Alexa Fund 等新投资者参与。

距离DatologyAI获得1165 万美元的种子融资,仅有3个月的时间。

DatologyAI可以帮助大模型平台、企业、个人开发者等训练数据的流程。DatologyAI 的产品可以帮助自动化创建这些数据集所涉及的大部分工作。

其工作原理是根据人工智能模型的设计目的,识别数据集中的哪些信息最合适。还可以提出用附加信息扩充现有数据集的方法,找出批处理该信息的最佳方法,或者将其分割成更易于管理的块以简化模型训练过程。

例如,哪些数据对于训练来说信息量最大?这是一个动态问题,它不仅随着单个数据点的变化而变化,而且随着整个数据集的变化而变化。

每个概念需要多少冗余?不同的概念具有不同的复杂性,因此需要不同数量的冗余。解决这个问题需要自动识别这些概念、它们的复杂性以及实际需要多少冗余。

如何平衡数据集?大多数数据都是长尾的,需要重新平衡数据集,以便模型学习整个分布,而不仅仅是模式。

应该如何从这些数据中排序和构建批次?虽然看似简单,但排序和批处理数据的方式会对学习速度产生巨大影响。

DatologyAI所的产品可使得大模型训练数据实现自动化,可扩展至PB级数据,并支持任何数据模式,无论用户的数据是文本、图像、视频、音频、表格还是基因组或地理空间数据等。

Morcos创始人兼首席执行官Ari Morcos 表示,通过使用更高效的训练数据集,可以提高AI模型的质量和性能,同时又不会使模型变得过大且训练和运行成本过高。DatologyAI可以帮助客户实现这一目的。

本文素材来源DatologyAI官网,如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区