deepseek_v3_tokenizer 使用与分析
deepseek_v3_tokenizer 分析、使用与改进
·
deepseek_v3_tokenizer 使用与分析
deepseek官方发布了该 token计算例程,可以根据该例程评估 输入与输出的token值,并根据费率评估出费用。
该例程下载链接如下
deepseek_v3_tokenizer
deepseek_v3_tokenizer 解析
下载解压缩得到如下内容:
核心文件为deepseek_v3_tokenizer.py
# pip3 install transformers
# python3 deepseek_tokenizer.py
import transformers
chat_tokenizer_dir = "./"
tokenizer = transformers.AutoTokenizer.from_pretrained(
chat_tokenizer_dir, trust_remote_code=True
)
result = tokenizer.encode("Hello!")
print(result)
使用 transformers.AutoTokenizer.from_pretrained() 方法并指定一个本地目录时,该目录应该包含一个有效的 tokenizer 文件夹结构。需要有一个由 Hugging Face Transformers 库训练或下载的 tokenizer 文件夹,其中包含所有必要的配置文件(tokenizer_config.json)该文件就是token划分的依据。
该脚本仅仅计算了Hello!的token值,应用起来局限性很大,需要进行相关改造支持更多的输入形式。
deepseek_v3_tokenizer 使用步骤
- 在下载的目录打开cmd
- 安装python执行环境
在Windows系统下安装Python执行环境,您可以按照以下步骤进行:
一、下载Python安装包
打开浏览器,访问Python的官方网站:python.org。
在网站首页,找到并点击“Downloads”链接。
在下载页面中,选择适合Windows系统的Python版本。通常建议选择较新版本的Python 3系列,因为Python 2已经在2020年停止支持。
根据您的系统是32位还是64位,选择合适的安装程序。一般x86表示32位,x86-64或amd64表示64位。
二、安装Python
运行下载好的安装程序(.exe文件)。
在安装向导的第一个界面,勾选“Add Python to PATH”选项。这一步很重要,因为它会将Python的安装路径添加到系统的PATH环境变量中,这样您就可以在命令行中直接使用Python命令了。
点击“Customize installation”进行自定义安装,或者点击“Install Now”进行默认安装。如果您选择自定义安装,可以查看并选择要安装的组件。
在“Optional Features”(可选功能)界面,通常保持默认设置即可。
选择安装路径。您可以使用默认路径,也可以点击“Browse”自定义安装路径。
点击“Install”开始安装。等待安装过程完成。
三、验证安装
打开命令提示符(可以通过在搜索栏输入“cmd”并回车打开)。
在命令提示符中输入“python --version”(不含引号),如果安装成功,将会显示Python的版本号,例如“Python 3.x.x”。
四、安装pip(通常已包含)
Python 3.4及更高版本通常自带pip,这是Python的包管理器,用于安装和管理Python包。 - 安装依赖库
pip install transformers tokenizers
- 执行python脚本
python deepseek_tokenizer.py
得到如下结果:
PS C:\deepseek\deepseek_v3_tokenizer\deepseek_v3_tokenizer> python deepseek_tokenizer.py --text "hello!"
结果 #1:
------------------------------
文本: hello!
Token 数量: 2
Token ID 列表: [33310, 3]
解码验证: hello!
------------------------------
deepseek_v3_tokenizer 脚本改进
对 deepseek_v3_tokenizer 脚本进行改进,加入文件读取,验证等功能,得到如下输入样式与结果。将input.txt放在该目录下执行
python deepseek_tokenizer.py --input_file input.txt
费用计算
修改脚本得到token_cost_calculator.py。
根据deepseek的价格可以进行计算
python token_cost_calculator.py --input_file input.txt --model_output_file model_output.txt --cache_hit_ratio 0.7 --output_file result.txt
更多推荐
所有评论(0)