5月3日

102 0 0

5月3日·周五 AI工具和资源推荐

AI全网资源导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

研究揭示大型语言模型普遍存在过拟合问题，微软Phi-3、Mixtral 8x22B被点名

最新研究显示，当前流行的大型语言模型（LLM）中约三分之二存在过拟合问题。这一发现源于对包括微软Phi-3和Mistral 8x22B在内的多个小模型的深入调查。研究指出，由于训练数据集可能包含与基准测试高度相似的样本，导致模型的推理能力被高估。Scale AI的论文通过创建无数据污染的GSM1k数据集，对多个大型语言模型进行了基准测试，发现过拟合现象普遍存在。研究还表明，尽管模型过拟合，它们仍具备一定的推理能力。Scale AI计划开源评估代码，并在满足特定条件后发布GSM1k数据集，以促进更准确的模型评估和研究。来源：微信公众号【机器之心】

小模型性能饱和、表现不佳，根源是因为Softmax?

一项最新研究探讨了小语言模型在训练过程中出现的饱和现象，即模型性能在达到一定阶段后不再提升甚至下降。研究发现，这种现象可能与softmax函数导致的瓶颈效应有关，特别是当模型的隐藏维度较小，无法充分匹配目标上下文概率分布的高秩时。论文通过实验表明，小于1000个隐藏维度的模型在预训练后期容易采用退化的潜在表征，导致评估性能降低。此外，研究还观察到模型在最后一层的各向异性与性能饱和现象有明显相关性。这些发现为理解和改进小语言模型提供了新的视角。来源：微信公众号【机器之心】

辉瑞 AI 方法登 Science，揭示数以万计的配体-蛋白质相互作用

奥地利科学院分子医学研究中心CeMM与辉瑞公司合作，开发出一种AI方法，成功预测了数百种小分子与数千种人类蛋白质的结合活性。这项研究不仅揭示了数以万计的配体-蛋白质相互作用，而且通过机器学习支持，能够公正地预测小分子在活体人类细胞中的相互作用，为开发化学工具和治疗方法提供了新途径。研究成果已发表在《Science》杂志上，所有数据和模型均通过网络应用程序免费提供，以促进科学界的发展。来源：微信公众号【机器之心】

一次预测多个token，Meta新模型推理加速3倍，编程任务提高17%

Meta AI法国团队开发了一种新的多token预测架构，该模型通过并行预测多个未来token来提高性能，尤其在编程类任务上表现突出。在HumanEval和MBPP基准测试中，13B参数的模型分别多解决了12%和17%的问题。此外，该模型在小型算法推理任务上也展现出显著的分布外泛化能力。在保持较大batch size的同时，使用4-token预测训练的模型推理速度提高了3倍。研究人员认为，多token预测能够更好地捕捉编程语言的长距离依赖，并且由于编程语言词汇量较小，多token预测的难度并不大，有助于模型从全局角度进行优化。该研究成果已在预印本平台arXiv上发表。来源：微信公众号【量子位】

奥特曼斯坦福演讲引发热议，AI未来成焦点

奥特曼在斯坦福大学的演讲完整视频公开，引发广泛关注。在演讲中，奥特曼分享了对AI未来的深刻洞见，包括对AGI（人工通用智能）的看法、AI在教育中的应用、以及AI基础设施的重要性。他强调，尽管AI技术发展迅速，但社会适应这些变化的速度和方式更值得关注。奥特曼还提到，OpenAI团队在没有他的情况下展现出极强的韧性和运营能力。此外，他透露对于即将推出的ChatGPT-5，最令人兴奋的是其将比前代更聪明，预示着AI技术的持续进步。此次演讲不仅展示了奥特曼对AI的深刻理解，也为公众提供了关于AI未来发展的重要信息。来源：微信公众号【量子位】

AI“造人”新突破：Profluent开源AI基因编辑器OpenCRISPR-1

美国初创公司Profluent开发出一款名为OpenCRISPR-1的AI基因编辑器，并通过GitHub开源。该技术利用AI算法对CRISPR-Cas序列进行建模，设计出高功能的基因组编辑器，生成数百万种自然界中不存在的CRISPR样蛋白。OpenCRISPR-1的技术完全由AI驱动，通过分析CRISPR基因编辑器的行为并学习生成全新的编辑器。该技术将蛋白质多样性扩大4.8倍，为加速CRISPR基因疗法的开发提供了新工具。尽管尚未进行临床试验，OpenCRISPR-1已引起广泛关注，预示着AI在生物技术领域的应用潜力。Profluent已获得3500万美元的追加融资，以支持其技术发展。来源：微信公众号【AI前线】

【今日案例】

Kimi 哲学家视角下的人工智能(AI多角色扮演)

点击链接查看 Kimi 智能助手的对话