开源版《Her》来了,技术报告已公开,大神Karpathy:它很有个性
开源版《Her》来了,技术报告已公开,大神Karpathy:它很有个性
端到端实时音频模型 Moshi
大神 Karpathy 鼎力推荐,开源版「Her」Moshi 再引关注!
(Moshi)的性格非常有趣,它会突然断断续续,有时会无缘无故沉默……
就这样,一位小哥在和 Moshi 聊天时,Moshi 化身打工人,精神状态十分美丽(doge)。
据了解,Moshi 是一款端到端实时音频模型,于今年 7 月初由一家法国创业团队 Kyutai 发布。
不仅发布后人人免费可玩,而且就在刚刚,Kyutai 将 Moshi 的代码、技术报告来了个大公开。
这波属实惊喜了,当初抢先试玩的谷歌 DeepMind 研究员、ViT 作者 Lucas Beyer 闻声赶来:
(刚好)我最近就想知道这个问题
开源工程师 Sebastian Rojo 原地启动好学模式。
是时候学起来了!
当然,一直慢腾腾的 OpenAI 再次被 " 当众处刑 "。(其高级语言模式 7 月底上线后,仍只面向小部分人开放)
惊人的!当我们仍在等待 OpenAI 的高级语音模式时,人们可以开始使用 Moshi 并进行构建。
Moshi 技术细节大公开
话不多说,先来开个箱,看看 Kyutai 这次放出了哪些东西。
一份长篇技术报告。揭露 Moshi 模型背后细节、权重、代码;
GitHub 官方仓库;
HuggingFace 模型库;
首先来看模型。Kyutai 这次发布了3 个模型,分别是 Moshiko、Moshika,以及 Mimi 流语音编解码器。
Moshi 的参数大约为7.69B,Moshiko/ka 是 Moshi 对合成数据进行微调后的变体,分为男女两个声音。
可以看出,它们都能在一台 MacBook 上运行,且据介绍,这些模型在 L4 GPU 上实现了约 200 毫秒的延迟。
至于变体的内存需求,bf16、8 位和 4 位精度,对应的内存分别为 16GB、8GB 和 4GB VRAM。
另外,Moshi 使用了一个名为 Mimi 的流式神经音频编解码器,能够处理24 kHz音频(以 1.1kbps 的速度将 24 kHz 音频压缩至 12.5Hz),并且支持多种预训练模型。
Mimi 受 SpeechTokenizer 启发,通过蒸馏技术联合建模语义和声学信息,并且通过对抗性训练提升了性能,专门用来和大语言模型协同工作。
其次,从官方公布的技术细节来看,Moshi 项目主要由三个组件构成:
Helium 语言模型(拥有 70 亿参数并在 2.1 万亿 tokens 上进行训练)
Mimi 神经音频编解码器(能够建模语义和声学信息)
一种新的多流架构(能够在单独的频道上分别对用户和 Moshi 的音频进行建模)
展开来说,Moshi 团队对 Helium 进行了增强,采用了 RQ-Transformer 变体架构,这使得 Helium 能够在不增加序列长度的情况下建模语义和声学标记的层次结构。
官方自称,他们对生成音频的主要贡献是多流建模技术(multi-stream modeling)。
能够在每个时间步中堆叠 Moshi 和用户的 tokens,以模拟全双工对话的动态,包括重叠、反向通道和中断等。
还包括内心独白技术(Inner Monologue),它进一步提高了生成语音的质量,通过预测时间对齐的文本来增强 Moshi 的智能性,同时保持与流媒体的兼容性。
此外," 内心独白 " 的一个延伸是:通过调整音频和文本标记的延迟,Moshi 能够实现流式 TTS 和 ASR 功能。
在大规模音频预训练后,官方利用自己的模型创建了20k 小时的合成对话数据,用于评估 Moshi 在质量、音频语言建模和口语问答方面的表现,以及进行了安全和量化分析。
评估结果显示,Moshi 在性能上优于之前发布的模型。
OpenAI 版「Her」仍未开放
眼见 Moshi 这次来了个大公开,一众网友又纷纷想起了 OpenAI。
今年 7 月底,OpenAI高级语音模式面向部分 plus 用户上线,一些试玩例子也随之流出……
比如让 ChatGPT 开口讲中文,这浓浓的「歪果仁」口音是怎么回事。
再比如让它来段绕口令,围观网友笑 cry 了。
一番试玩下来,网友们期待值拉满。
然而,OpenAI 的动作实在有亿点慢了,当时曾计划秋季时让所有 plus 用户都能用上高级语音模式。
然而至今没有更多消息,相关话题的实时页面下,随处可见一片抱怨。
以至于 Moshi 发布后,再次有网友调侃:
开源总是胜利!
不过也有爆料称,OpenAI 可能会在9 月 24 日发布高级语音模式。
一周之后咱们见分晓!
技术报告:https://kyutai.org/Moshi.pdfGitHub 官方仓库:https://github.com/kyutai-labs/moshiHuggingFace 模型库:https://huggingface.co/collections/kyutai/moshi-v01-release-66eaeaf3302bef6bd9ad7acd
参考链接: [ 1 ] https://x.com/karpathy/status/1836476796738670918 [ 2 ] https://x.com/kyutai_labs/status/1836427396959932492
本文来自微信公众号 " 量子位 ",作者:一水。
-
- 南海,传来一个好消息
-
2024-09-20 01:06:07
-
- 对话侯毅:告别盒马后再创业,逆势进军餐饮界
-
2024-09-20 01:03:51
-
- 方玉友退场,侯亚孟接棒,珀莱雅步入「二代」时刻
-
2024-09-20 01:01:35
-
- 从吃香到吃灰,小家电们凉了
-
2024-09-20 00:59:19
-
- 惊险!无锡59岁店主刷台风短视频时起身关门,屋顶瞬间坍塌躲过一劫
-
2024-09-18 03:55:41
-
- 常态化扫黑除恶斗争中央督导进行行前培训 陈文清强调 发现问题 解决问题 传导压
-
2024-09-18 03:53:26
-
- 三星印度工厂罢工事件升级 超百名工人被捕!
-
2024-09-18 03:51:11
-
- 三只羊中秋节给员工发美诚月饼 博主曾哭诉:退也不给退 发也没脸发
-
2024-09-18 03:48:55
-
- “贝碧嘉”未走,“普拉桑”又来
-
2024-09-18 03:46:39
-
- 张继科陷入“卷钱跑路”风波后现身:已恢复乒乓球教学
-
2024-09-18 03:44:24
-
- 4电机1000马力!路特斯Theory 1次时代超跑官宣:2.5秒破百
-
2024-09-18 03:42:08
-
- 两元面馆的故事,既感人,又痛心
-
2024-09-18 03:39:53
-
- 别再打扰全红婵了,岂能只图“流量”没了“边界”
-
2024-09-18 03:37:37
-
- 美国政府力挺!Intel获30亿美元资金:史上最先进18A工艺2025年投产
-
2024-09-18 03:35:22
-
- 国务院:职工按月领取基本养老金最低缴费年限由十五年逐步提高至二十年,每年
-
2024-09-15 19:38:08
-
- 首批中证A500ETF募集金额超60亿元
-
2024-09-15 19:35:53
-
- 看好“减肥神药”前景,花旗重新覆盖礼来予以“买入”评级
-
2024-09-15 19:33:37
-
- 央行:前八个月人民币存款增加12.88万亿元
-
2024-09-15 19:31:22
-
- 历史上首次,对冲基金净看空布伦特原油
-
2024-09-15 19:29:06
-
- 亚航菲律宾公司将于今年四季度停止马尼拉至中国航班
-
2024-09-15 19:26:51