claude 3再次登顶,化学专业一骑绝尘,一切碾压gpt
Claude 3在通用任务上是全球最强已经毋庸置疑。更令人惊叹的是,它在专业领域的表现,比如化学任务,也能远远领先GPT-4。
Claude 3的诞生又一次震惊了全世界。
Claude 3 Opus,Claude 3中最智能的模型,在大多数常见的人工智能系统评估基准测试中表现优异,包括本科水平教授知识(MMLU)、研究生水平教授推理(GPQA)、基础数学(GSM8K)等。
但在特定的专业领域,它的表现却是一个未知数。
比如化学,化学在药物发现和材料科学等领域发挥着至关重要的作用,但现有研究显示它们(They)在化学任务上的性能令人沮丧。
指令微调让LLM完成化学任务成为可能近日,一支来自OSU的团队构建了一个专门针对化学任务指令微调的数据集,命名为SMolInstruct。
论文地址:https://arxiv.org/pdf/2402.09391.pdf
该SMolInstruct测试集涵盖了14种任务,包括名称转换、属性预测、分子描述、分子生成、正向合成和逆向合成等,这些专业任务经过精心挑选,以建立坚实的化学基础。
它同时包含340万个不同的样本和160万个不同的分子,涵盖了各种大小、结构和性质的化合物,展示了广泛的化学知识覆盖范围。这些样本都经过严格的处理步骤,排除了有问题和低质量的样本。
然后,他们(They)在SMolInstruct数据集上对四个开源LLM(Galactica、Llama 2、Code Llama和Mistral)进行(Carry Out)微调,创建了一系列专门用于化学任务的LLM,称为LlaSMol。
论文中,主要将LlaSMol模型与两种类型的模型进行(Carry Out)比较:
未在SMolInstruct上进行(Carry Out)微调的LLMSOTA任务特定模型结果(Result)显示,LlaSMol在所有任务上都显著优于现有的LLM,包括GPT-4。
例如,将SMILES转换为分子式的准确率达到94.5%,而GPT-4仅为16.4%;对于逆合成任务,准确率达到32.9%,而GPT-4仅为0%,并接近最先进的任务特定模型SOTA。
这凸显了SMolInstruct数据集的有效性和微调的好处。
这个结果(Result)是合理的,虽然GPT-4很强大,但它毕竟是通用模型,很难直接和经过特定的任务及样本微调的LlaSMol去对抗。
但经过微调的LLM表现已经逼近非LLM的任务特定模型,还是展现了LLM的巨大潜力。
不仅如此,四个LlaSMol模型在性能上表现出显著差异,也强调出了基础模型对下游任务的重要影响。
Claude 3在专业化学领域仍旧领先Claude 3一经推出,该团队便在SMolInstruct 该基准测试上对于Claude 3 Opus同样进行(Carry Out)了实验。
虽然与LlaSMol还是有差距,但在大多数任务中,Claude 3的表现远远超过GPT-4。
虽然在其中的一个名称转换任务S2F中,也就是一个将用于表示分子结构的文本字符串转换为分子式去计算原子数量的任务,Claude 3要比GPT-4差得多,但大多数任务的大幅领先还是展现了Claude 3在专业领域学习能力上的优越性。
Anthropic在官网介绍Claude 3时,用了「smarter, faster, safer」去描述大模型智能的将来潜力。
而我们(We)在化学特定任务上,已经可以感受到了Opus作为通用模型,学习的速度之快,能力之强。
LLM超越任务特定模型,指日可待在SMolInstruct原论文的结尾,作者也表达了对在化学领域,LLM能够超越任务特定模型的期许和展望。
任务特定模型毕竟是基于固定的输入,它们(They)被优化以执行其特定任务,通常在大小和复杂性上都较小,而且在跨知识共享的任务中很难有好的表现。
而LLM有更多的参数和模型结构,可以在学习中进化,也能快速适应新的需求。
不可否认的是,经过微调的LLM更多的在专业领域上赶超任务特定模型,目前(Currently)非常依赖于微调指令的完整性、全面性、准确性。
但若以发展的眼光来比较两种模型,尤其是在我们(We)已经感受到Claude 3可怕的成长速度之后。
可以预想到, 作为通用模型来设计的LLM,会在专业领域逐渐爆发 。
参考资料https://twitter.com/hhsun1/status/1766656199083098134
https://www.anthropic.com/news/claude-3-family
https://arxiv.org/pdf/2402.09391.pdf
本文来自微信公众号“新智元”(ID:AI_era),作者:Mindy,36氪经授权发布。
该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。
+11好文章,需要你的鼓励
新智元特邀作者2收 藏+10评 论打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮微 博沉浸阅读返回顶部参与评论评论千万条,友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章苹果也入局,AI电话被吹爆,颠覆还是噱头?AI综艺导演大翻车,AI内容迎来反噬?比人类快0.9秒,AI让机器人Emo提前“复制”人类微笑,融入人类社交世界成为可能?微软高层变动之际不忘更新 Copilot ,老板们要笑开花:给我司员工都安排3个月砸1000万美元肝出“最强”大模型?黑马Databricks:我们(We)完虐Grok、Llama,还更开放英伟达GTC 2024: 绝对霸主的权力与遥远的野心亚马逊追投Anthropic 27.5亿刀,市值暴涨5000亿GPTs大翻车后,OpenAI再宣布给开发者送钱,米国码农狂欢全美第二大学(University)区普及AI学习工具:“个性化培育旅程将达到前所未有的水平”最新文章推荐人工智能的尽头还真是发电Claude 3再次登顶,化学专业一骑绝尘,全面碾压GPT-4亚马逊分仓,打响米国物流提速战抖音(Tik Tok)酒旅再传大消息:人事地震,放弃OTA模式?《周处除三害》锁定三月票冠,但它最大的价值不止于票房份额增盈利降,锂电老三都扛不住价格战了降价风暴中的平行进口车产业何去何从?就问一句:酒店品牌敢和加盟商共担风险吗?核心产品被仿制药企业盯上,百济神州诉外企侵犯专利营收连降,投行承压,券商“一哥”中信证券“有点愁”新智元特邀作者作者有点忙,还没写简介
发表文章2017篇最近内容Claude 3再次登顶,化学专业一骑绝尘,全面碾压GPT-411分钟前亚马逊追投Anthropic 27.5亿刀,市值暴涨5000亿1小时前GPTs大翻车后,OpenAI再宣布给开发者送钱,米国码农狂欢1小时前阅读更多内容,狠戳这里下一篇亚马逊分仓,打响米国物流提速战随着亚马逊通过分仓而提高商品配送速度,一场配送提速之战正悄然打响。
11分钟前
热门标签财付通仇富心理官僚资本网站春晚首都吉因加科技(Technology)有限公司小人国匿名举报东方卫视极限挑战收视率跑男收视率捷豹suv话语权后会无期珠海格力集团虚拟交易foxmail复活营销力电话客服陈勇伟大的博弈运动服瑜伽课程险峰长青盗墓笔记被遗忘权双引擎客运淘宝分销平台星图关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴36氪APP下载iOS Android本站由 阿里云 提供计算与安危服务 违法和不良信息、未成年人保护举报电话:010-89650707 举报邮箱:jubao@36kr.com 网上有害信息举报© 2011~2024 首都多氪信息科技(Technology)有限公司 | 京ICP备12031756号-6 | 京ICP证150143号 | 京公网安备11010502036099号意见反馈36氪APP让一部分人先看到将来36氪鲸准氪空间推送和解读前沿、有料的科技(Technology)创投资讯
一级市场金融信息和系统服务提供商
聚焦全球优秀创业者,项目融资率接近97%,领跑行业
- 赞(592) 踩(65) 阅读数(2669) 最新评论 查看所有评论
-
加载中......
- 发表评论
-