第二次大模型评测基准研讨会顺利召开 | Open LLMs Benchmark委员会
添加书签专注AIGC领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展和应用落地,以及国内LLM的发展和市场研究,欢迎关注!
大模型引发的人工智能热潮,正在驱动市场参与者加速新一代AI的研发,也驱动行业企业开始引入新的应用。为了进一步推动大模型产业生态的健康发展,AIGC开放社区联合大模型厂商、服务商、开源社区、应用方等共同成立一个独立的第三方、非营利性组织:Open LLMs Benchmark开放大模型基准委员会。
5月31日,Open LLMs Benchmark委员会顺利召开大模型评测基准第二次研讨会,来自委员会的40余位行业专家参会。会议由Open LLMs Benchmark委员会秘书处陈龙负责主持。
AIGC开放社区负责人郭政纲首先对当前基准推进工作进行了总结,并且对基准框架做了详细介绍,最后介绍了整个基准工作的安排。
根据初次研讨会以及反馈意见,基准修订包含以下内容:
1、针对基准的定位,聚焦于大语言模型,侧重中文语境、行业能力、安全伦理范畴;
2、基础能力增加性能指标、可扩展性与可持续性、鲁棒性指标;
3、针对专业性知识与行业能力的区别,划分明确边界与细分指标;
4、对于常识性知识和专业知识进一步明确边界和指标;
5、增加科研行业能力基准,主要包含代码分析、文献辅助阅读、实验方案撰写与步骤咨询;
6、关于涌现能力,基于目前框架,融入基础能力与行业能力评测之中,比如对话响应能力,生成创作能力,以及零样本学习能力、泛化能力等。
会上,来自三井住友的陈婧和mesen带来大模型企业应用实践的分享。结合自身业务需要,对大模型在中文支持、资料检索、逻辑推理、算力消耗和易用性等方面给出评价,内容翔实,为企业部署大模型带来广泛的借鉴意义。
南京航空航天大学陈钢教授带来以《基于EDA的生成式大模型通用测评标准设计及初步测评结果》的主题分享。提出评测四项原则,并展示了详细的评测过程及结果,为大模型评测工作带来非常有价值的思考。
中兴通讯王长金分享了对于当前基准框架的看法并提出了建议。
腾讯许良晟分享了大模型评测的实践和经验,对基准工作表示了支持。
本次会议对大模型评测基准进行了全面介绍,明确了大模型基准的框架。未来,Open LLMs Benchmark委员会将密切跟踪大模型前沿动态,组建相关基准推进组,持续开展技术研究、基准研制、评估测试、产业交流等工作。
Open LLMs Benchmark委员会欢迎更多行业专家的加入。
点击阅读原文,或者扫描下方二维码提交申请加入委员会:
关于Open LLMs Benchmark委员会
随着近年来人工智能技术的飞速发展,尤其是深度学习领域的突破,大型语言模型(LLMs)已经成为了研究和应用的热点。这些模型在自然语言处理、机器翻译等领域取得了显著的成果。然而,随着模型规模的不断扩大,如何对这些大模型进行有效、公平、可靠的评测,已经成为了业界关注的重要问题。
为了解决这一问题,AIGC开放社区联合大模型厂商、服务商、开源社区、应用方等共同成立一个独立的第三方、非营利性组织:Open LLMs Benchmark开放大模型基准委员会,旨在构建一个公开、透明、可靠的大模型评测基准,为全球相关研究者、开发者和企业提供参考。
联系方式:
郭政纲
13260410653
陈 龙
13226611521
END