如视频,把文本输入进文本框后,再次双击文本框,然后选中文本框内全部文本,里面的文字内容就会突然发生变化。在这个过程中没有对文本框文本进行任何编辑,仅仅是选中了文本框全文。文本框在一个留白上
测试文本:
基于Decoder-only架构的统一序列建模:使用 decoder-only Transformer 将 text 和 audio 统一视为由任意整数组成的序列进行建模,输入和输出分别经过 tokenized 和 detokenized 处理。
多模态统一词汇表构建:通过将 speech 表示为有限词汇表中的 discrete tokens,构建了一个联合了 audio vocabulary 和用于文本的 SentencePiece 词汇表的 multimodal vocabulary。(引用: [SentencePiece 2018])
文本预训练权重的继承:尽管处理多模态数据,其设置原理与纯文本模型几乎无异,因此利用 pretrained text-only checkpoint 来初始化 multimodal model。