促记网 > 社会 > 正文

开源版《Her》来了，技术报告已公开，大神Karpathy：它很有个性

2024-09-20 01:08 来源：促记网点击：

开源版《Her》来了，技术报告已公开，大神Karpathy：它很有个性

端到端实时音频模型 Moshi

大神 Karpathy 鼎力推荐，开源版「Her」Moshi 再引关注！

（Moshi）的性格非常有趣，它会突然断断续续，有时会无缘无故沉默……

就这样，一位小哥在和 Moshi 聊天时，Moshi 化身打工人，精神状态十分美丽（doge）。

据了解，Moshi 是一款端到端实时音频模型，于今年 7 月初由一家法国创业团队 Kyutai 发布。

不仅发布后人人免费可玩，而且就在刚刚，Kyutai 将 Moshi 的代码、技术报告来了个大公开。

这波属实惊喜了，当初抢先试玩的谷歌 DeepMind 研究员、ViT 作者 Lucas Beyer 闻声赶来：

（刚好）我最近就想知道这个问题

开源工程师 Sebastian Rojo 原地启动好学模式。

是时候学起来了！

当然，一直慢腾腾的 OpenAI 再次被 " 当众处刑 "。（其高级语言模式 7 月底上线后，仍只面向小部分人开放）

惊人的！当我们仍在等待 OpenAI 的高级语音模式时，人们可以开始使用 Moshi 并进行构建。

Moshi 技术细节大公开

话不多说，先来开个箱，看看 Kyutai 这次放出了哪些东西。

一份长篇技术报告。揭露 Moshi 模型背后细节、权重、代码；

GitHub 官方仓库；

HuggingFace 模型库；

首先来看模型。Kyutai 这次发布了3 个模型，分别是 Moshiko、Moshika，以及 Mimi 流语音编解码器。

Moshi 的参数大约为7.69B，Moshiko/ka 是 Moshi 对合成数据进行微调后的变体，分为男女两个声音。

可以看出，它们都能在一台 MacBook 上运行，且据介绍，这些模型在 L4 GPU 上实现了约 200 毫秒的延迟。

至于变体的内存需求，bf16、8 位和 4 位精度，对应的内存分别为 16GB、8GB 和 4GB VRAM。

另外，Moshi 使用了一个名为 Mimi 的流式神经音频编解码器，能够处理24 kHz音频（以 1.1kbps 的速度将 24 kHz 音频压缩至 12.5Hz），并且支持多种预训练模型。

Mimi 受 SpeechTokenizer 启发，通过蒸馏技术联合建模语义和声学信息，并且通过对抗性训练提升了性能，专门用来和大语言模型协同工作。

其次，从官方公布的技术细节来看，Moshi 项目主要由三个组件构成：

Helium 语言模型（拥有 70 亿参数并在 2.1 万亿 tokens 上进行训练）

Mimi 神经音频编解码器（能够建模语义和声学信息）

一种新的多流架构（能够在单独的频道上分别对用户和 Moshi 的音频进行建模）

展开来说，Moshi 团队对 Helium 进行了增强，采用了 RQ-Transformer 变体架构，这使得 Helium 能够在不增加序列长度的情况下建模语义和声学标记的层次结构。

官方自称，他们对生成音频的主要贡献是多流建模技术（multi-stream modeling）。

能够在每个时间步中堆叠 Moshi 和用户的 tokens，以模拟全双工对话的动态，包括重叠、反向通道和中断等。

还包括内心独白技术（Inner Monologue），它进一步提高了生成语音的质量，通过预测时间对齐的文本来增强 Moshi 的智能性，同时保持与流媒体的兼容性。

此外，" 内心独白 " 的一个延伸是：通过调整音频和文本标记的延迟，Moshi 能够实现流式 TTS 和 ASR 功能。

在大规模音频预训练后，官方利用自己的模型创建了20k 小时的合成对话数据，用于评估 Moshi 在质量、音频语言建模和口语问答方面的表现，以及进行了安全和量化分析。

评估结果显示，Moshi 在性能上优于之前发布的模型。

OpenAI 版「Her」仍未开放

眼见 Moshi 这次来了个大公开，一众网友又纷纷想起了 OpenAI。

今年 7 月底，OpenAI高级语音模式面向部分 plus 用户上线，一些试玩例子也随之流出……

比如让 ChatGPT 开口讲中文，这浓浓的「歪果仁」口音是怎么回事。

再比如让它来段绕口令，围观网友笑 cry 了。

一番试玩下来，网友们期待值拉满。

然而，OpenAI 的动作实在有亿点慢了，当时曾计划秋季时让所有 plus 用户都能用上高级语音模式。

然而至今没有更多消息，相关话题的实时页面下，随处可见一片抱怨。

以至于 Moshi 发布后，再次有网友调侃：

开源总是胜利！

不过也有爆料称，OpenAI 可能会在9 月 24 日发布高级语音模式。

一周之后咱们见分晓！

技术报告：https://kyutai.org/Moshi.pdfGitHub 官方仓库：https://github.com/kyutai-labs/moshiHuggingFace 模型库：https://huggingface.co/collections/kyutai/moshi-v01-release-66eaeaf3302bef6bd9ad7acd

参考链接： [ 1 ] https://x.com/karpathy/status/1836476796738670918 [ 2 ] https://x.com/kyutai_labs/status/1836427396959932492

本文来自微信公众号 " 量子位 "，作者：一水。

相关标签：

上一篇：南海，传来一个好消息
下一篇：石头扫拖机器人 G20S Ultra 图赏：更薄、更强，新一代旗舰机典范

南海，传来一个好消息

2024-09-20 01:06:07
对话侯毅：告别盒马后再创业，逆势进军餐饮界

2024-09-20 01:03:51
方玉友退场，侯亚孟接棒，珀莱雅步入「二代」时刻

2024-09-20 01:01:35
从吃香到吃灰，小家电们凉了

2024-09-20 00:59:19
惊险！无锡59岁店主刷台风短视频时起身关门，屋顶瞬间坍塌躲过一劫

2024-09-18 03:55:41
常态化扫黑除恶斗争中央督导进行行前培训陈文清强调发现问题解决问题传导压

2024-09-18 03:53:26
三星印度工厂罢工事件升级超百名工人被捕！

2024-09-18 03:51:11
三只羊中秋节给员工发美诚月饼博主曾哭诉：退也不给退发也没脸发

2024-09-18 03:48:55
“贝碧嘉”未走，“普拉桑”又来

2024-09-18 03:46:39
张继科陷入“卷钱跑路”风波后现身：已恢复乒乓球教学

2024-09-18 03:44:24
4电机1000马力！路特斯Theory 1次时代超跑官宣：2.5秒破百

2024-09-18 03:42:08
两元面馆的故事，既感人，又痛心

2024-09-18 03:39:53
别再打扰全红婵了，岂能只图“流量”没了“边界”

2024-09-18 03:37:37
美国政府力挺！Intel获30亿美元资金：史上最先进18A工艺2025年投产

2024-09-18 03:35:22
国务院：职工按月领取基本养老金最低缴费年限由十五年逐步提高至二十年，每年

2024-09-15 19:38:08
首批中证A500ETF募集金额超60亿元

2024-09-15 19:35:53
看好“减肥神药”前景，花旗重新覆盖礼来予以“买入”评级

2024-09-15 19:33:37
央行：前八个月人民币存款增加12.88万亿元

2024-09-15 19:31:22
历史上首次，对冲基金净看空布伦特原油

2024-09-15 19:29:06
亚航菲律宾公司将于今年四季度停止马尼拉至中国航班

2024-09-15 19:26:51

热门图文

20以内退位减法-破十法与连减法

20以内退位减法-破十法与连减法

机票怎么改签不用手续费机票怎么改签到另一个城市

机票怎么改签不用手续费机票怎么改签到另一个城市

热门排行

相关文章