“自研+开源”降低AIGC门槛,商汤「秒画」大有可为
添加书签专注AIGC领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展和应用落地,以及国内LLM的发展和市场研究,欢迎关注!
从平台角度看,刘宇认为,秒画具有三大核心能力。首先是来自商汤本身的自研大模型,除了文生图能力之外,商汤更希望帮助用户能够基于商汤本身强大的平台算力及大模型能力,去微调用户自己的大模型,“从长期的商业价值上看,我们更想去给小B或者大B端客户提供更强的基模型,使得他们能够在自有领域基于商汤的基础模型产生更好的垂类大模型,去产生他们的商业价值。”
秒画的另一个优势则来自商汤自身强大的算力能力。刘宇介绍,基于商汤本身的算力能力,秒画作为一个平台,用户能够选择使用商汤的模型、自训练的模型,或开源模型,同时,秒画将为用户提供模型特异性加速服务,通过秒画平台的模型编译技术,自动分析用户上传的模型结构参数,把它和底层的GPU加速算子进行模型编译,缩短模型的生成速度。“这是我们平台的第二大优势,也是商汤的传统优势,我们在大模型到小模型的推力加速方面有非常深厚的技术积累。”刘宇表示。
另外,商汤希望基于开源功能打造模型社区。“开源界现在有很多的讨论,像AI作画的模型,很多都是基于之前的模型去微调出来的。”刘宇介绍,商汤想整合、健全目前相对复杂的AI作画社区,未来基于秒画平台,用户可以利用商汤的基模型或基于其他前置模型训练自有模型,平台内部都会保留模型的依赖链条,进而保障原始模型作者的权益。
大模型+大算力超前布局
各家对于AIGC的竞逐趋于白热化,商汤的壁垒来自哪里?
刘宇认为,大模型要足够好有三个核心要素,首先是模型参数量要够大能保证泛化上限足够高,二是在同等参数量下,网络结构设计要足够高效。“怎么保证在同等大的体量下,我们的模型能够比其他的大模型性能要强,这需要我们在大模型神经网络的结构设计上做很多的工作。”
第三,大模型的训练稳定性需要被保障,刘宇介绍,“特别大的模型在优化上有一个非常严重的问题,当这个模型特别大,训练一个任务所需要的GPU就会非常多(上千张的时候),训练的稳定性就会变差,具体体现在大模型的收敛性、模型+数据3D并行的系统效率和千卡通信的稳定性上。”而商汤已经在大模型方面有非常多的技术积累,使得包括秒画在内的AIGC大模型,能够在一个很长的周期内,保持平稳训练状态,进而保证模型训练的效率。
算法、算力、数据,如今已经成为人工智能领域的宝藏,而商汤的布局则更加前瞻。这也是商汤如今在大模型领域快速建立差异化优势的核心原因。
在算力层面,2018年开始,商汤在自建算力中心的基础上,打造了SenseCore商汤AI大装置的“原型机”,开始攻克算力难题。到2020年,商汤再度斥资56亿元,在上海临港建设AIDC人工智能计算中心。2022年1月,AIDC正式开始运营。
目前,商汤SenseCore AI大装置持续扩建,完成了2.7万块GPU的部署并实现了5.0 exaFLOPS的算力输出能力,以AI-as-a Service(AIaaS)的模式面向行业伙伴提供服务。目前最多可支持20个千亿参数量大模型(以千卡并行)同时训练,最高可支持万亿参数超大模型的训练。
基于商汤自研的AI大装置,在大模型站上风口之前,商汤对于大模型的推理部署、增量训练已经是其常规业务。目前,商汤大模型的推理部署可以将推理的效率提升100%以上;基于大装置,商汤将大模型微调的成本降低至原来的1/10。
未来,大装置有望成为人工智能大模型时代的重要基础设施。扎根“大模型+大装置”的技术路径,商汤在这一轮AIGC机遇来临时,也更加得心应手。
显著降低B端使用门槛
商汤正在加速向其“赋能百业”的愿景靠近,AIGC时代,包括秒画在内的系列平台,将成为其中的重要一环。
刘宇认为,秒画是一个更快且效果更好的基模型,同时商汤更进一步,为B端用户提供SaaS和API的推理服务。“基于秒画平台的推理、特异性加速模型编译技术和商汤大算力的基础设施,服务下游的客户,把我们的推理能力和模型能力用在它的垂类里面,这是我们的一个愿景。”刘宇表示。
从秒画目前建立的差异化优势来看,秒画对于B端用户而言,将是一个更加“友好”的AIGC平台,这也意味着商汤面临的商业化前景将更加明朗。
在企业数字化转型的过程中,中小企业面临的数字化门槛成为其转型的阻碍之一。刘宇认为,商汤提供的秒画等平台,核心目的就是为了降低AIGC和大模型的微调训练门槛,让技术能够在不具有这么多GPU或者甚至不具有这类专业知识的中小B端的厂商、用户里产生价值。
刘宇介绍,去年商汤在AIGC层面已经有非常多的B端用户,“当时更多的是他们给需求,我们给他定制化,用商汤的技术能力和集成训练模型交付给他们,这也是AI平台型行业的传统做法。”刘宇表示,“现在商汤希望能够通过秒画这样的平台,让用户自身可以以更低的门槛,不需要采购GPU、不需要技术的理解和能力,仅仅通过一个网站的UI就可以生产自己的模型做推理部署。”
成本层面,刘宇算了一笔账,用最小的训练大模型的硬件加上研究员的人力成本来计算,“基于生成质量相对较差的开源大模型,然后招一个研究员,买上几台服务器把它训练成企业自己的模型,至少应该百万以上的成本。但是如果利用商汤的平台,在数据一致的情况下,可能就只需要付出几千甚至几百元的成本,就可以得到一个相同甚至更好的模型。”
刘宇认为,商汤的产品从使用门槛和资金成本门槛上,都对B端用户有了一个非常大的体验上的飞跃。
浙商证券认为,以“秒画”为例,产品实现了2秒出图,不需要额外编程和调试,用户可自定义生成图片的数量、分辨率、长宽比等,生成效果优越,整体体验可对标Midjourney。“我们认为,商汤因其发展历史和业务特点,在CV领域拥有行业领先地位,是其跨模态模型三维化表现超预期的核心原因,可将其与文心一言等产品区别开来。”
在算力、算法等核心能力层面,商汤优势明显,对于商汤而言,通过“大模型+大算力”提供解决方案,能够吸引更多下游用户投入模型迭代,也有助于商汤进一步积累相关数据,提升产品迭代速率与产品体验,进而加速商业化布局,反哺公司业绩。
本文来源每日经济新闻,如有侵权请联系删除
END