OpenAI 在新产品活动发布 Day2 释出「强化学习微调」(Reinforcement Fine-Tuning,RFT) 功能,让用户能够在客制化模型在个别领域的推理能力,进而提高模型的准确率,并且这一功能可以沿用在许多领域上,包括科学研究、法律、金融、保险、工程等等。
(前情提要:OpenAI 发表满血版 o1 模型和新订阅方案 ChatGPT Pro,月费 200 美元值得吗? )
(背景补充:OpenAI 宣布将连续 12 天直播:推出许多新功能,AI 概念币可埋伏? )
ChatGPT 背後开发商 OpenAI 在 5 日预告,将於 6 日凌晨 2 点开始进行为期 12 天的新产品发布。首日登场的是完整版推理模型 o1,取代先前的预览版本,目前 ChatGPT Plus、Team 和 Pro 用户已可以使用,同时还推出可以无限制使用 o1 模型的订阅方案 ——「ChatGPT Pro」。
延伸阅读:OpenAI 发表满血版 o1 模型和新订阅方案 ChatGPT Pro,月费 200 美元值得吗?
而今(7)日是活动 Day2,OpenAI 准备了哪些惊喜给我们呢?
释出新功能「强化学习微调」
在第二天的产品发布中,OpenAI 释出新功能「强化学习微调」(Reinforcement Fine-Tuning,RFT),让用户能够使用自己的数据集,透过强化学习演算法对 o1 模型进行客制化训练。另外,活动主持人表示,强化学习微调仅需数十个高品质范例便可迅速提升模型在该特定领域的推理能力。
值得一提的是,这一功能可以沿用在许多领域上,包括科学研究、法律、金融、保险、工程等等。
另外,在发布影片中,柏克莱国家实验室计算生物学家 Justin Reese 也参与了模型的现场演示,分享「强化学习微调」是如何帮助诊断罕见疾病。
在 Reese 展示的图片中可以看到,o1 模型原先的识别准确率为 25 %;o1 mini 模型原先的识别准确率为 17%,而在强化学习微调後的 o1 mini 模型准确率提升至 31 %,准确率增幅达到 82% 。
虽然「强化学习微调」功能大幅提升模型在特定领域的准确度与专业性,不过主持人也表示,目前强化学习微调功能仍处於预览阶段,计划於明年向大众推出。另外, OpenaAI 目前已启动 RFT alpha 计画,号召大学、研究机构或企业等单位参与此项功能的测试。
📍相关报导📍
ChatGPT被爆「拒绝回复David Mayer」等人名,OpenAI遭疑刻意封锁资讯
OpenAI 宣布将连续 12 天直播:推出许多新功能,AI 概念币可埋伏?
OpenAI 发表满血版 o1 模型和新订阅方案 ChatGPT Pro,月费 200 美元值得吗?