你的位置:开云(中国)kaiyun网页版登录入口 > 新闻 >


体育游戏app平台它中枢冷落了一个语音合成的肤浅框架 Llasa-开云(中国)kaiyun网页版登录入口

发布日期:2026-04-23 03:32    点击次数:80


体育游戏app平台它中枢冷落了一个语音合成的肤浅框架 Llasa-开云(中国)kaiyun网页版登录入口

活久见体育游戏app平台,太乙真东说念主给讲论文了噻!

咳咳,诸君说念友且听我一番罗唆。

老说念我闭关数日,所得一篇妙诀,就是此Llasa之法。此术上个月一出,外洋仙长们无不瞠目感触,直呼" HOLY SHIT "!

热度最高时,曾在 huggingface 上的"丹药热度榜"上排第六。

咳咳,书回正传。

如上激励围不雅的效果由香港科技大学等聚拢推出,它考据语音合成模子,也不错革职 Scaling Law,即扩张计算资源、语音合奏效果不错更好。

它中枢冷落了一个语音合成的肤浅框架 Llasa,该框架收受单层 VQ 编解码器和单个 Transformer 架构,和尺度 LLM 保捏一致。

商议团队提供了 TTS 模子(1B、3B、8B)、编解码器的 checkpoint 以及试验代码。

一气呵成 TTS 系统

连年来,基于 Transformer 的大型语言模子(LLM)在当然语言惩办规模获取了显耀发扬,尤其是通过扩张模子范围和试验数据来进步性能。

但是,现时的 TTS 系统常常需要多阶段模子(举例在 LLM 后使用扩散模子),这使得在试验或推理阶段扩张计算资源变得复杂。

本商议冷落了一种单阶段 TTS 框架Llasa,旨在简化这一进程,同期探索试验时辰和推理时辰扩张对语音合成的影响。

它基于 Llama 模子,收受单 Transformer 架构,结合了一个筹办清雅的语音分词器(tokenizer),大致将语音波形编码为毁坏的语音标记,并解码回高质地音频。

该框架的中枢在于将语音和文本标记聚拢建模,通过权衡下一个语音标记来生谚语音。

枢纽组件:

语音分词器(Xcodec2):将语音波形编码为毁坏标记,同期保留语音的语义和声学信息。

Transformer 模子:基于 Llama 运转机,学习文本和语音标记的聚拢漫步。

考据 Scaling Law 试验时辰扩张(Scaling Train-time Compute)

商议者通过扩张模子范围和试验数据范围来商议其对语音合成性能的影响。

实验标明,加多模子参数(从 1B 到 8B)和试验数据量(从 80k 小时到 250k 小时)不错显耀提高语音的当然度、韵律准确性和厚谊抒发才智。

枢纽发现:

文才略会才智:更大的模子和更多的数据大致更好地泄漏复短文本(如诗歌、厚谊文本)。数据越多,连荒废字,复合词也能辨其真意。

零样本学习才智:扩张试验资源大致显耀提高模子对未见言语东说念主的语音克隆才智。

推理时辰扩张(Scaling Inference-time Compute)

商议还探索了在推理阶段通过加多计算资源(举例使用语音泄漏模子看成考据器)来优化生谚语音的质地。实验标明,推理时辰扩张不错显耀提高语音的厚谊抒发、音色一致性和试验准确性。

枢纽要津:

进程奖励模子(PRM):通过缓缓优化生成进程来提高语音质地。

输出奖励模子(ORM):通过评估最终身成的语音来聘请最优输出。

实验适度

语音分词器性能:冷落的 Xcodec2 在多个见地上优于现存分词器,特地是在低比特率下的语音重建质地。

TTS 性能:Llasa 在 LibriSpeech、Seed-TTS-Eval 和 ESD 数据集上达到了着手进的性能,尤其是在厚谊雷同性、音色雷同性和零样本学习才智方面。

推理时辰扩张效果:通过 PRM 和 ORM 要津,推理时辰扩张显耀提高了语音合成的质地,尤其是在复杂任务中。

"开源渡世"

咳咳,太乙真东说念主再行上线:

老说念已将丹方(试验代码)、丹药(模子权重)公之于世,广邀三界修士共参:

秘方参照:Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

论文合并:https://arxiv.org/abs/2502.04128

Llasa 试验代码   https://github.com/zhenye234/LLaSA_training

Codec 试验   https://github.com/zhenye234/X-Codec-2.0

Llasa test-time-scaling 代码   https://github.com/zhenye234/LLaSA_inference

模子权重 :   https://huggingface.co/collections/HKUSTAudio/llasa-679b87dbd06ac556cc0e0f44

诸君说念友若有心得,不妨留言论说念,老说念自当逐一解惑!

—  完  —

学术投稿请于职责日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿试验‍

附上论文 / 情状主页合并,以及议论面貌哦

咱们会(尽量)实时修起你

一键热心 � � 点亮星标

科技前沿发扬逐日见

一键三连「点赞」「转发」「留神心」

迎接在挑剔区留住你的念念法!体育游戏app平台



    热点资讯

    相关资讯