Update 3.存储 .ipynb

HuggingFace -> Hugging Face
This commit is contained in:
Ikko Eltociear Ashimine
2023-06-09 00:43:20 +09:00
committed by GitHub
parent b39c4766f3
commit 6186bee0ef

View File

@ -1198,7 +1198,7 @@
"ChatGPT使用一种基于字节对编码Byte Pair EncodingBPE的方法来进行tokenization将输入文本拆分为token。 \n", "ChatGPT使用一种基于字节对编码Byte Pair EncodingBPE的方法来进行tokenization将输入文本拆分为token。 \n",
"BPE是一种常见的tokenization技术它将输入文本分割成较小的子词单元。 \n", "BPE是一种常见的tokenization技术它将输入文本分割成较小的子词单元。 \n",
"\n", "\n",
"OpenAI在其官方GitHub上公开了一个最新的开源Python库tiktoken这个库主要是用来计算tokens数量的。相比较HuggingFace的tokenizer其速度提升了好几倍 <https://github.com/openai/tiktoken>\n", "OpenAI在其官方GitHub上公开了一个最新的开源Python库tiktoken这个库主要是用来计算tokens数量的。相比较Hugging Face的tokenizer其速度提升了好几倍 <https://github.com/openai/tiktoken>\n",
"\n", "\n",
"具体token计算方式,特别是汉字和英文单词的token区别参考 <https://www.zhihu.com/question/594159910>\n" "具体token计算方式,特别是汉字和英文单词的token区别参考 <https://www.zhihu.com/question/594159910>\n"
] ]