168体育平台登录AI创投周报｜Transformer论文作者再次创

发布时间：2024-04-09 10:17:55 来源：168体育注册平台作者：168体育app官网入口

　　原标题：AI创投周报｜Transformer论文作者再次创业，特斯拉人形机器人Optimus二代亮相

　　AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社希望发现和投资非凡创业者（AlphaFounders），相信非凡创业者们在技术、商业和社会方面的巨大推动力，他们指引着创投生态的风向。

　　2.李飞飞联手谷歌，用Transformer生成逼真视频。这个模型叫W.A.L.T，Transformer的加入使得它在视频生成方面的连贯性和细节处理达到了极高水平。

　　3.特斯拉人形机器人Optimus二代发布，它具有与人类相似的行动能力，并能够自主对物体进行分类。

　　李飞飞与斯坦福团队联手谷歌，开发了一种名为W.A.L.T的模型，他们成功将Transformer架构整合到视频扩散模型中，创造出了具有照片级真实感的视频。它在视频生成方面的连贯性和细节处理达到了极高水平。

　　W.A.L.T模型的核心在于使用因果编码器在共享潜在空间中联合压缩图像和视频，以及采用基于窗口注意力的Transformer架构来提高记忆和训练效率，这种结构使得模型能够根据自然语言提示生成逼真且时间一致的视频。

　　在实验中，研究者们使用了多种任务来评估W.A.L.T的性能，包括以类别为条件的图像和视频生成、帧预测、基于文本的视频生成等。结果显示，W.A.L.T在多个基准测试中均表现优异，尤其是在UCF-101基准上，其零样本FVD分数达到了当前最佳。

　　谷歌DeepMind发布了其最新的视觉大模型—Imagen 2。它的核心特点在于能够根据用户的具体提示生成高质量、逼真且与用户提示高度一致的图像。

　　为了实现这一目标，谷歌DeepMind对Imagen 2的训练数据集进行了优化，增加了更详细的图像描述，进而更准确地响应用户的提示。这种增强的“图像-描述对”有助于Imagen 2更好地理解图像和文字之间的关系，提高对上下文和细微差别的理解。

　　Imagen 2在解决文本到图像工具常见问题方面也取得了显著进展，例如在渲染逼真的手和人脸方面，以及在保持图像没有干扰视觉的伪影方面。

　　除了生成高质量的图像，Imagen 2还支持修补（inpainting）和扩图（outpainting）等图像编辑功能，为用户提供了更多的创意空间。同时，为了降低文本到图像生成技术的潜在风险和挑战，谷歌团队在设计、开发和产品部署的各个阶段都设置了严格的防护措施，以避免生成有潜在问题的内容。

　　时隔一年多，特斯拉的人形机器人Optimus二代近日亮相。相比前代，它的亮点在于高度的灵活性和实用性。它能进行深蹲和舞蹈等复杂动作，表明行动能力已经非常接近人类。

　　2022年10月，Optimus首次亮相，当时，它的手运动自由度有27个，但还不能进行跳舞等复杂动作。到了2023年5月，Optimus已经具备了流畅行走和抓取物体的能力。9月，它进一步进化，能够自主对物体进行分类。

　　最新的Optimus二代在原有基础上做出了显著改进，它的身高约1.72米，能以大约8公里/小时的速度移动，行走速度提高了30%，重量减轻了10千克。其脚部设计模仿人类，具有铰接式脚趾和脚力/扭矩感应，使走路方式更加接近人类。此外，Optimus二代的手部设计也非常先进，拥有11个自由度，能够灵活操作并处理精细物体，如鸡蛋。

　　随着技术的不断进步，Optimus二代及其后续产品可能会在多个领域发挥重要作用，包括家庭服务、工业制造甚至是娱乐行业。

　　DeepMind最近在《Nature》杂志上发表他们的最新研究成果—FunSearch，这种新方法可用于为数学和计算机科学问题寻找解决方案。

　　FunSearch的工作原理是将LLM与自动评估器配对，以防止产生幻觉和错误思路。通过在这两个组件之间来回迭代，最初的解决方案演变成了新的知识。这项工作是首次利用LLM在科学或数学的挑战性开放问题方面取得新发现。

　　FunSearch证明，如果能防止LLM产生幻觉，那么这些模型的力量不仅可以用来产生新的数学发现，还可以用来揭示重要现实问题的潜在解决方案。DeepMind认为，对于科学和工业领域的许多问题，使用LLM驱动的方法生成有效和量身定制的算法将成为普遍做法。

　　Mistral AI的开源混合专家模型（MoE）Mixtral 8x7B在AI社区内广受关注，它在多个基准测试中表现优于Llama 2 70B和GPT-3.5。而因其MoE的特性，它处理每个token仅用12.9B参数，推理速度和成本与12.9B的密集模型相当。

　　Mixtral 8x7B采用了稀疏混合专家网络，是一个decoder-only模型。它的前馈块从8组不同的参数组中进行选择，使得其总参数量为46.7B，而非56B。

　　OpenAI最近发布了一项重要研究，展示了如何利用较小的AI模型（如GPT-2）来监督和指导更大、更复杂的模型（如GPT-4）。这项研究由OpenAI的首席科学家Ilya Sutskever领导，旨在解决超级人工智能可能带来的风险和挑战。

　　传统的对齐方法依赖于人类的监督，但随着AI系统变得越来越复杂和创造性，人类可能难以对其进行可靠的监督。例如，超人类模型可能会编写出数百万行新奇的、具有潜在危险的计算机代码，即使是人类专家也很难理解这些代码。

　　OpenAI的研究提出了一种新的方法，即利用较小的AI模型来监督更大的模型。这种方法被称为“弱到强泛化”（Weak-to-strong generalization），意味着较弱的模型可以激发更强大的模型的能力，使其达到接近更高级别的性能。研究表明，15亿参数的GPT-2模型可以被用来激发GPT-4的大部分能力，使其达到接近GPT-3.5级别的性能，甚至可以正确地泛化到小模型失败的难题上。

　　然而，研究同时指出，用弱监督训练的强模型和用真实标签训练的强模型之间仍然存在很大的差距。这表明在没有额外工作的情况下，诸如基于人类反馈的强化学习（RLHF）之类的技术可能无法很好地扩展到超人类模型。

　　UCLA等机构最近发布了Chameleon推理框架，它的核心功能是通过LLM规划器生成自然语言程序，找到最佳工具组合，并依次执行这些工具来得出结论。

　　在科学问答任务ScienceQA和表格数学推理任务TabMWP上，它分别获得了86.54%的准确率和98.78%准确率。

　　Chameleon能够根据不同的输入问题，组合和使用各种不同的工具来完成相应的复杂推理。例如，在解决ScienceQA的任务时，Chameleon模型会为不同的问题生成不同的程序，以灵活组合各种工具，并按照一定的顺序执行它们，从而最终得出答案。

　　斯坦福和MIT的研究人员最近的研究发现，Transformer模型在经过长时间训练后，能够获得结构性的泛化能力，这一现象被称为结构顿悟（Structural Grokking，SG）。这一发现颠覆了之前的认知，即Transformer模型难以有效捕捉句子的层级结构。

　　研究人员发现，SG现象在模型的深度上呈现倒U缩放，即中深度模型的泛化能力比非常深和非常浅的模型都要好。实验表明，通过对模型进行更多的扩展训练，普通的Transformer能够展现出层级结构。

　　研究人员训练了不同层数的Transformer语言模型，并对其进行了广泛的测试。结果显示，在所有数据集上，泛化性能在分布内准确率饱和之后的训练步骤中得到改善，有时甚至接近完美的准确率。此外，提前停止训练会导致泛化性能被严重低估。

　　Essential AI是一家专注基于大模型的全栈型智能产品的初创公司，主要服务于企业用户。它的产品能够迅速学习企业的资料，并通过自动化耗时且单调的工作流程来提高生产力。例如，它们的技术将使数据分析师的工作效率提高10倍，并为商业用户提供工具，使他们自己成为独立的数据驱动型决策者。

　　Replicate打造了一个开源的AI模型托管云平台，帮助中小企业实现模型的快速交付，用户可以在平台上部署，微调AI模型，还能根据业务量快速扩展自己的模型。它能提供自然语言处理的大模型，以及图片生成、图像修复、自动生成视频、自动生成音频、二次元生成等上千个AI模型。

　　Replicate更详细的信息，请参阅：连获硅谷VC两轮融资，Replicate指数级降低AI模型部署和使用成本｜AlphaFounders

　　本周二，马斯克的AI公司xAI在向SEC提交的文件中透露，公司正寻求10亿美元的股权融资，目前已售出1.347亿美元，并已就剩余的8.65亿美元资产“达成了一项具有约束力和可执行性的买卖协议”。

　　此前，xAI公布了他们对标ChatGPT的产品—Grok。它由Grok-1大模型来支撑，在推理，数学，编程等方面拥有不错的能力。

　　Grok提供专用的“趣味”模式、多任务处理、可分享的聊天和对话反馈。趣味模式赋予Grok独特的个性，使其能够以带有讽刺和幽默的方式进行更吸引人的对话。

　　它还通过独家访问X（原推特）及其实时的用户生成的帖子和信息来实现差异化，它能访问在X上发布的最新数据，并在用户询问实时问题时提供最新信息。

　　xAI由马斯克创立于今年 7 月，其背后的团队来自DeepMind 、OpenAI、谷歌研究院、微软研究院、特斯拉等人工智能研究公司。团队成员曾参与并领导了该领域一些重大突破的开发，包括AlphaStar、AlphaCode、Inception、Minerva、GPT-3.5和GPT-4。

　　xAI更详细的信息，请参阅：ChatGPT发布一年。

168体育平台登录

上一篇：从转型工业机器人「卡诺普」聚焦焊接机器人垂直领域下一篇：字节跳动出海生成式AI产品ChitChop上线含创

168体育平台登录/ PRODUCT CENTER

168体育app官网入口/ CONTACT US

联系人：郑坤玉
手机：13861279983
电话：0519-88188199
地址：常州市新北区孟河镇建设路18号

168体育平台登录AI创投周报｜Transformer论文作者再次创

咨询在线客服