“创新案例 北京实践”系列分享(三):百川智能在RLHF技术上的落地实践
大语言模型的对齐技术在过去两年中迅速发展。除了InstructGPT所采用的Supervised Fine Tuning和Reinforcement Learning with Human Feedback等方式以外,Rejection Sampling、Direct Preference Optimization、Identity-Preference Optimization等方法纷纷涌现,为各种目标和条件下的行业落地提供了丰富的工具。运用好这些对齐工具,不仅需要了解各种方法的底层数学原理,而且需要辅以坚实的工程支持。本次分享从对齐技术的理论图景开始,深入讨论对齐技术的工程实践,并展望对齐技术的未来发展。通过对对齐技术全景式的回顾和讨论,帮助应对对齐技术的挑战并在业务场景落地。
一、活动时间
2024年5月22日14:00
二、活动形式
线上直播
三、主办单位
北京市中小企业公共服务平台
北京软件和信息服务业协会
四、分享内容
1. Theoretical Landscape of Alignment
2. Practical Data-Centric Process
3. Scaleable Oversight and Beyond
五、讲师信息
阎栋 百川智能强化学习负责人。博士毕业于清华大学计算机系。主要从事决策算法/系统和大语言模型对齐方面的研究。在算法方面,提出了通过奖励分配机制连接无模型和基于模型的强化学习算法的求解框架。在系统方面,作为架构师设计的强化学习编程框架“天授”,在Github获得超过7.4k星标/1.1k二次开发。在ICLR、ICML、IJCAI、AAAI、JMLR、Pattern Recognition等会议/期刊发表论文十余篇。带领团队基于RLHF增强的大语言模型Baichuan3,在4月份的Superclue评测中荣获国内第一。
六、报名方式
扫描上方二维码报名参会(同为直播地址)
联系人:闫文佳
联系方式:19801363840(微信同号)