KK体育(中国)官方网站

KK体育2024中国会训练出甚至比GPT-4更好的大模型 AI周
栏目:室内知识 发布时间:2023-07-17 14:40:40

  KK体育通用人工智能的短期探索方向开始明朗。今年底,欧美科技巨头将纷纷拿出GPT-4水平的大模型,中国肯定也能在2024年赶上来。这也是未尽研究与启明创投在《生成式AI》报告中,技术创新与行业趋势的十大展望中的第一条。

  炼制大模型GPT-4的秘方已经泄露,得到业内几乎一致的认可。爆料过谷歌内部信《我们没有护城河,OpenAI也没有》的Dylan Patel认为,OpenAI之所以不开放,就是因为GPT-4的成功可以被轻易复制。

  记住这一点,花费是8192张H100训练55天,2150万美元。这里是它的秘方:

  GPT-4规模比GPT-3(1750亿参数)大10倍以上,约1.8万亿个参数,跨越120层。混合专家模型(MoE,16个专家,每个约1110亿参数)。不是像PaLM(或GPT-3)那样的密集型transformer。

  每次前向推理(生成1个token)只使用大约2800亿参数和约560TFLOP。这与纯粹的密集模型所需约1.8万亿参数和约3700TFLOP形成对比。

  视觉编码器与文本编码器是分开的,并有交叉注意力。这个架构类似于Google DeepMind的Flamingo。这在GPT-4的1.8万亿之上,添加了更多的参数。在仅文本预训练之后,它被使用另外约2万亿个token进行微调。

  在约13万亿token上进行训练(多个轮次epoch,不是unique tokens)。再加上来自ScaleAI和内部的数百万行指令微调数据。

  预训练阶段的上下文长度为8k。GPT-4的32k seqlen版本是基于预训练阶段后的8k进行微调的。

  OpenAI的GPT-4训练的FLOPS约为2.15e25,在约25,000个A100上训练了90到100天,算力利用率约为32%到36%。这种极低的利用率,部分是因为出现了大量需要从检查点重新开始的故障,部分则是因为大量GPU间并行计算通信(All-reduce)的代价。

  如果他们在云中的成本约为每A100每小时1美元,那么这次运行的训练成本将约为6300万美元。这还没算上失败尝试,以及数据收集、人类反馈等费用。

  如果采用H100来预训练,那么大概需要8,192个,约55天完成,总费用2150万美元,每个H100每小时2美元。Dylan预计到了今年年底,会有近10家公司,拥有更多的H100,他们很可能训练出能力齐平GPT-4的大模型来。

  同时使用了可变批次大小与连续批次技术(Continuous batching)。

  GPT-4已经是OpenAI的过去式。他们最新拿出来的Code Interpreter(代码解释器)模型,比GPT-4更强大,被视为尚未被官方正式命名的GPT-4.5。

  但谁也没有护城河KK体育。OpenAI内部出现了员工离职,对CEO奥特曼不务正业,公司下一步进展缓慢的抱怨四起。在外部,谷歌等巨头仍在起舞追赶,Anthropic等新物种也野心勃勃,马斯克的xAI更是吸引了大量顶尖人才。

  中国也在大炼模型。刚刚过去的世界人工智能大会上,就展示了数十个大模型。政府也在牵头为它们提供算力与数据。给它们一年的时间,摸着OpenAI过河,肯定有企业能做出比肩甚至超越GPT-4的大模型。

  开源领域,中国也有得争。本周,初创企业百川智能发布130亿参数的开源可商用的大语言模型Baichuan-13B,用到了1.4万亿token数据集,当前开源同等规模下训练数据量最大,也是目前所有330亿以下参数规模的开源模型中效果最好的可商用大语言模型。这距离其发布上一个模型才过去了1个月。此外,智源宣布Emu宣布开源,智谱宣布ChatGLM2-6B免费商用。

  生成式AI管理暂行办法于8月15日起施行。该暂行办法为面向公众的生成式人工智能的本土的创新创业,划定了更明确的边界,更柔和的治理,更积极的基调。它在征求意见稿的法律依据的基础上新增了《科学技术进步法》;明确了在“发展和安全并重、促进创新和依法治理”的原则下,采取“包容审慎和分类分级监管”;扩大了自主创新的鼓励范围,在算法与框架之外,明确纳入了芯片及其配套软件平台,以及算力、数据等基础设施平台;明确企业、教育、科研等机构的研发与应用,未向境内公众提供服务的,不适用本办法。

  FTC首次正式调查OpenAI。美国联邦贸易委员会(FTC)正在调查OpenAI是否违反消费者保护法,并要求OpenAI提供有关其处理个人数据、向用户提供不准确信息的可能性以及“对消费者造成损害(包括声誉损害)的风险”的大量记录。这是美国监管机构首次正式发起对人工智能聊天机器人带来的风险的审查。

  好莱坞六十年来首次全面罢工。尽管此次核心焦点在于演员、编剧与资方的薪资矛盾,但首次提到了人工智能的演职人员利益的影响。人工智能捕捉了大量演员数据,他们关注能否从人工智能生成的影像中获得收益。此前,编剧同样担心人工智能海量炮制剧本内容,侵犯其版权利益;他们还担心资方将AI生成的剧本以更低的费用交由其修改,自身则成为新的“零工经济”。

  马斯克宣布人工智能公司xAI成立。这是一家汇集DeepMind、OpenAI、谷歌研究院、微软研究院、特斯拉等诸多公司原开发人员的初创公司,总体目标是构建一个良好的AGI,以理解宇宙为愿景。xAI将利用推特上的公开数据来训练其AI模型,将会与特斯拉在芯片或AI软件方面合作。同时,xAI也将促进特斯拉加快自动驾驶能力。马斯克声称,xAI最终开发的AI语言模型,可能不会“政治正确”。

  OpenAI获得与Shutterstock数据合作。将其部分新闻报道档案授权给OpenAI,并获得OpenAI的技术和产品专业知识。图库网站Shutterstock则与其续约六年,允许OpenAI公司在此期间使用Shutterstock的图像、视频、音乐和元数据库来训练其模型。该网站与OpenAI的合作始于2021年,Shutterstock推出了一项“贡献者基金”,当艺术家的作品被用来训练OpenAI的模型时,会对他们进行补偿。

  Google 更新 BARD 功能。Bard已可以支持包括中文等40多种语言,场景拓展到全球更多地区,尤其是欧盟市场。Bard可以将回答用语音读出来,对想听听单词正确发音或诗歌朗诵的用户较大帮助;用户可以调整AI回复语气和风格;新增多项“增进用户生产力”功能,包括Python代码导出到开发软件,可分享的AI工具的聊天链接;它现在还能解读图像信息等。

  Anthropic宣布Claude 2正式上架。它使用了2023年初的新数据来训练模型,且非英语数据比例明显增加。它的编码能力提升很大;将长而复杂的自然语言文档转换为结构化数据格式;支持10万tokens的输入,并且可以一次性输出4000个tokens。此外,该公司还称它在众多的测试中有更好的表现。

  京东大模型“言犀”亮相。言犀大模型训练时,融合了70%的通用数据与30%数智供应链原生数据。官方称,已经在实体属性抽取准确率、生成式多轮对话等方面超过传统Transform模型。大模型及相关平台将在8月上线亿美元定制AI工具。

  reInvent AI专注于基础模型和通用人工智能,由联想创投投资。它不仅提供可直接使用的预训练行业基础模型,还支持企业客户根据自身需求进一步定制专属基础模型。团队核心人员来自OpenAI及欧洲科学院院士,拥有涵盖欧洲语言和行业的专业数据集。该公司德国柏林和中国上海双总部,德国公司名为nyonic。

  这次在中国发布的定制版Gaudi2,和国际版最大的区别是网口的数量,国际版集成以太网端口数量是24个,中国版减少到了21个,这会降低中国版的网络速度。该公司还发布了基于Gaudi2可以大规模部署训练以及推理大模型的整体解决方案。该公司计划推出将Gaudi和GPU整合的混合DSA(领域专用架构)产品。

  智谱AI与清华 KEG 实验室宣布,自 3 月 14 日发布 ChatGLM-6B 及 6 月 25 日发布 ChatGLM2-6B 以来,这两个模型在 Huggingface 上的下载量已经先后超过了 300 万和 120 万。为了更好地支持国产大模型开源生态的繁荣发展,即日起 ChatGLM-6B 和 ChatGLM2-6B 权重对学术研究完全开放,并且在完成企业登记获得授权后,允许免费商业使用。

  最近发布的 Falcon-40B 模型实现了很高的性能水平,甚至可以与付费模型的质量相媲美。窍门在此:1) 对大量数据应用简单/高效的过滤规则,创建一个海量(总共5万亿个token,但只使用了1万亿个token)的文本语料库,即命名为RefinedWeb的来自 CommonCrawl 的网络数据。2)RefinedWeb 的 1 万亿个token以及来自 Pile 的少量精选数据组合进行预训练的。3)使用经过修改的纯解码器架构,对快速推理进行了优化。

  在给定上下文的情况下, 由上下文学习驱动,大语言模型可以用作通用的序列建模器。这些零样本能力可以应用于机器人问题——从外推表示状态随时间变化的数字序列来完成简单运动,到最少提示得到带奖励的轨迹以发现并表示闭环策略(例如,用于平衡车的稳定控制器)。使用大语言模型进行低级控制的方法,可以期待单词模式之间的关联转移到动作上。

  微分方程的机器学习为数值求解器提供了计算高效的替代方案,这可能会对科学和工程产生广泛影响。尽管当前的算法通常需要为给定的设置而定制模拟训练数据,但我们可能更希望从异构的来源中学习有用的信息,或者从杂乱或不完整的真实动力系统观测中学习。在这项工作中,Meta团队(包括杨立昆)通过实施自监督学习的联合嵌入方法,从异构数据中学习微分方程的通用表示,这是一种用于无监督表示学习的框架,在计算机视觉方面取得了显著的成功。

  。论文Attention Is All You Need的合著者Llion Jones,将于本月晚些时候离开 Google Japan。他计划休假后创办一家公司。这意味着提出Transformer的全部8名作者,都离开了谷歌。其余7人,基本上不是在OpenAI做大模型,就是创业做大模型。Salesforce云产品七年来首次提价。

HTML地图 网站地图