Update 3.存储 .ipynb
HuggingFace -> Hugging Face
This commit is contained in:
committed by
GitHub
parent
b39c4766f3
commit
6186bee0ef
@ -1198,7 +1198,7 @@
|
|||||||
"ChatGPT使用一种基于字节对编码(Byte Pair Encoding,BPE)的方法来进行tokenization(将输入文本拆分为token)。 \n",
|
"ChatGPT使用一种基于字节对编码(Byte Pair Encoding,BPE)的方法来进行tokenization(将输入文本拆分为token)。 \n",
|
||||||
"BPE是一种常见的tokenization技术,它将输入文本分割成较小的子词单元。 \n",
|
"BPE是一种常见的tokenization技术,它将输入文本分割成较小的子词单元。 \n",
|
||||||
"\n",
|
"\n",
|
||||||
"OpenAI在其官方GitHub上公开了一个最新的开源Python库:tiktoken,这个库主要是用来计算tokens数量的。相比较HuggingFace的tokenizer,其速度提升了好几倍 <https://github.com/openai/tiktoken>\n",
|
"OpenAI在其官方GitHub上公开了一个最新的开源Python库:tiktoken,这个库主要是用来计算tokens数量的。相比较Hugging Face的tokenizer,其速度提升了好几倍 <https://github.com/openai/tiktoken>\n",
|
||||||
"\n",
|
"\n",
|
||||||
"具体token计算方式,特别是汉字和英文单词的token区别,参考 <https://www.zhihu.com/question/594159910>\n"
|
"具体token计算方式,特别是汉字和英文单词的token区别,参考 <https://www.zhihu.com/question/594159910>\n"
|
||||||
]
|
]
|
||||||
|
|||||||
Reference in New Issue
Block a user