文章来源于互联网:仅用4块GPU、不到3天训练出「开源版GPT-4o」,这是国内团队最新研究
LLaMA-Omni能够接收语音指令,同步生成文本和语音响应,响应延迟低至 226ms,低于 GPT-4o 的平均音频响应延迟 320ms。
-
论文:https://arxiv.org/pdf/2409.06666 -
代码:https://github.com/ictnlp/LLaMA-Omni -
模型:https://huggingface.co/ICTNLP/Llama-3.1-8B-Omni -
论文标题:LLaMA-Omni: Seamless Speech Interaction with Large Language Models

,相应的输出状态
就可以被输入到语音解码器中以生成部分对齐
,进而产生与生成的文本前缀相对应的离散单元。 -
ChatGPT 得分; -
语音 – 文本对齐; -
语音质量; -
响应延迟。











