大语言模型本地部署及应用(一): 下载Ollama配置大模型
前面一段时间想阅读一些英文文献,突然觉得现在还使用英文翻译器觉得效率不够,一段段翻译理解还是比较慢的,而且一些用一些好一点的翻译都得付费,难受。后面想一下现在AI大模型这么火,而且越来越能让普通人用起来,我为何不自己操作一下,弄一个本地能完成翻译的东西出来,方便自己操作。于是我就找找资料,看看视频,自己就弄起来了,由于我对这方面都是一知半解,所以后续介绍的内容有问题的话大家自己尝试解决吧,或者可以
大语言模型本地部署及应用(一): 下载Ollama配置大模型
0 前言
~ 一些想说的
前面一段时间想阅读一些英文文献,突然觉得现在还使用英文翻译器觉得效率不够,一段段翻译理解还是比较慢的,而且用一些好一点的翻译都得付费,难受。后面想一下现在AI大模型这么火,而且越来越能让普通人用起来,我为何不自己操作一下,弄一个本地能完成翻译的东西出来,方便自己操作。
于是我就找找资料,看看视频,自己就弄起来了,由于我对这方面都是一知半解,所以后续介绍的内容有问题的话大家自己尝试解决吧,或者可以互相讨论。还是得感谢前面有人开源弄出这些东西来,我就在后面应用一下,顺便展示一下相应的内容!顺便再说一下,本系列内容我设置的都是全部人可见,如果CSDN又莫名把这些内容设置为VIP可见,可以提醒我一下,我改一下,后续再看看有没有合适的平台发博文!
~ 电脑硬件
先看看我的电脑硬件:
CPU:i5-13500HX
GPU:RTX4050(6GB显存)
内存:40GB(32GB+8GB)
CPU和GPU还是比较低的,硬件配置没有那么高,不过也说明我这么低的硬件都能运行,大部分的应该也可以吧~~
内存一般不这么配的,但是我一直没钱升级,只能将就用了。

~ 需要的知识储备
正常来说,做这个只需要跟着操作应该就没啥问题,但是有很多内容是我在以前的基础上做好往下弄的,所以我也不清楚按照我这个操作会有啥问题出现,出现问题了大家需要有能去搜索问题解决问题的能力!嘻嘻
建议还是需要有一些基本的电脑知识,会使用cmd命令行,对大模型和python有一点了解,其他应该就没啥了吧。
1 安装Ollama
1.1 参考内容:
1.1:参考B站视频:全网最简单的Deepseek本地部署方法,谁都可以照抄!
1.2:Ollama官网
1.2 操作过程
上面两个参考内容基本都可以让你将Ollama安装到自己的电脑上。我这里再放图自己记录一下:
1.2.1 下载exe
先下载一个OllamaSetup.exe:
1.2.2 安装Ollama
目前看到的消息是Ollama默认安装在C盘,但是很多需要自定义安装盘符,这里介绍一下。自定义安装方法如下:
(1)创建安装目录:在你想安装的盘符下创建一个文件夹,例如在E盘创建一个名为Ollama的文件夹。 我的是:D:\softinstall\codesoftinstall\Ollama
(2)将OllamaSetup.exe放在你创建的文件夹中,看到了没?把安装包放进去。

(3)然后在该文件夹路径上输入CMD回车打开命令窗口。或者右键点击“在终端中打开”
输入安装命令:在CMD窗口中输入以下命令进行安装:
OllamaSetup.exe /DIR=D:\softinstall\codesoftinstall\Ollama
其中/DIR后面跟的是你创建的安装目录路径,自己改好目录就行

如果不行的话可以用这个
.\OllamaSetup.exe /DIR=D:\softinstall\codesoftinstall\Ollama

按回车键之后出现下面窗口,直接安装就行,然后就能安装到指定的文件夹目录:

如果是自定义安装目录:输入 “.\ollama”查看安装成功与否,下面是安装好的结果。
.\ollama

2 Ollama配置AI大模型
2.1 下载DeepSeek大模型
查看上面的视频和官网参考内容,下载DeepSeek模型,就是同一命令窗口输入命令即可。
按照自己电脑的配置下载对应的模型就行。注意复制一行哈,别全部复制。
.\ollama run deepseek-r1:8b
.\ollama run deepseek-r1:1.5b
.\ollama run deepseek-r1:7b
或
ollama run deepseek-r1:8b
ollama run deepseek-r1:1.5b
ollama run deepseek-r1:7b
官网图片:

安装好之后就是下面的内容:

安装完成之后可以问问题,不过只能在终端问。后续内容应该会介绍一下webui相关的内容,需要的话可以自行搜索相应的内容。


顺利完成第一步~~
2.2 迁移下载模型默认位置
根据上面的内容下载的DeepSeek-r1蒸馏模型是放在C盘,我是后面才注意到,其实你也可以一开始就设定模型下载的位置的,我印象中看过这个介绍,我忘了链接了,下面是我参考的一些文章:
Windows 系统:
(1)创建新目录:在非 C 盘的磁盘中创建一个新目录,用于存放 Ollama 的模型文件,例如我放在Ollama安装的位置: D:\softinstall\codesoftinstall\Ollama\models。

(2)设置环境变量:
1 右键点击“此电脑”或“计算机”图标,选择“属性”。
2 在弹出的窗口中,点击左侧的“高级系统设置”。
3 在“系统属性”窗口中,点击“环境变量”按钮。
4 在“系统变量”或“用户变量”部分,新建或修改名为 OLLAMA_MODELS 的环境变量,将其值设置为刚才创建的新目录路径。

(3)重启 Ollama:设置完环境变量后,需要重启 Ollama 以应用更改。(下面一个关闭,一个打开)(也可以使用命令行重启服务,自行查资料就行)


(4)迁移 Ollama 模型:
找到模型文件默认存储位置:模型文件默认存储在 C:\Users\你的用户名.ollama\models 目录下。
移动模型文件夹:将该文件夹中的 blobs 和 manifests 文件夹剪切到目标磁盘的指定目录,例如 D:\softinstall\codesoftinstall\Ollama\models。

2.3 Ollama配置已经下载好的大模型文件
参考文章:
Ollama详解,无网环境导入运行本地下载的大模型,无网环境pycharm插件大模型调用
参考上面的文章,在huggingface网站上下载你需要的GGUF模型文件,如找一个Qwen2-7B的GGUF文件下载。

下载好之后,先把一个gguf和一个编辑好的Modelfile文件放在同一个目录下:

其中,Modelfile里面的内容为:(Qwen2-7B-Instruct.Q4_K_M.gguf为你下载模型文件的全称)
FROM ./Qwen2-7B-Instruct.Q4_K_M.gguf
进入CMD:(在文件管理器上面搜索框直接输入cmd就行)

然后可以输入命令:其中Qwen2-7B为模型名称,可以自己命名(我下面使用的是gemma2的模型进行展示,都一样的,自己注意就行)。
ollama create Qwen2-7B -f ./Modelfile

然后就可以进行聊天了(这里使用的是Qwen2.5-1.5B,这模型问答有点傻,问一句你好,给我回乱七八糟的东西,Qwen2和gemma2都没这个问题):

到这里说明使用Ollama配置下载好的大模型文件成功了!!!
距离翻译目标有前进了一大步
2.4 Ollama使用命令行运行常见命令
我这里仅记录,具体说明麻烦查阅相关资料。
# 进入终端:Win+R
# 切换命令,进入到Ollama中
cd D:\softinstall\codesoftinstall\Ollama
D:
或
cd /d D:\softinstall\codesoftinstall\Ollama

# 查看Ollama信息(需不需要.\看自己情况,添加.\不行就删除,后续代码同): .\ollama

# 启动Ollama服务: .\ollama serve

输入:curl http://localhost:11434/api/tags
出现

# 问答模型的一些说明:
可以通过以下方式停止服务:
• 使用 Ctrl + C:在命令行中,按下 Ctrl + C 可以发送中断信号给当前进程,通常这会优雅地停止服务。
退出模型:在对话命令行中输入 /bye 即可
3 Ollama改GPU运行
参考文章:
Ollama系列—【ollama使用gpu运行大模型】
3.1 前情提要
我的笔记本上有两个显卡:
Intel:集成显卡(集显),一般是处理一些轻量级的图形任务,比如普通的网页浏览、文档编辑等。它省电、发热少。
NVIDIA:独立显卡(独显),适合处理图形密集型任务,比如游戏、视频渲染、深度学习等,性能更强但功耗也更高。

我想在python使用DeepSeek时使用独显:
在使用8b模型,容易卡住:
发生错误:HTTPConnectionPool(host=’localhost’,port=111434): Read timed out. (read timeout=30)
于是我开始找问题所在,后面发现DeepSeek-r1-8b模型建议的显卡显存是8G,一旦你的电脑显卡显存不够的话,它就调用CPU开始运行,不使用GPU运算,所以我就找解决方法,后面就解决了。
3.2 安装CUDA、修改CUDA版本
运行Ollama时比较卡的原因:
没有使用GPU进行运算:
解决流程:首先需要你的电脑安装有CUDA,这在别的教程前面应该很早就说明了,由于我之前学深度学习时安装了两个版本的CUDA,一个11.5,一个12.3,后面我查了一下,用12.3的比较适合,但是我之前使用的还是11.5版本的CUDA,所以需要修改环境变量:
参考:
Windows系统下安装多个版本cuda、cudnn,以及切换使用
在 Windows 系统中设置环境变量强制让 Ollama 使用 GPU 运行,可以按照以下步骤操作
环境变量修改:


修改完之后查看一下使用的CUDA版本:
用cmd的命令:nvcc -V, 我这里原来是11.5,改完之后就为12.3了
nvcc -V

修改完之后我再运行我使用python编译的翻译器:结果如下:虽然时间比较慢,但是还是翻译出来了,用我的低版本的显卡还是能用的。

然后在Ollama安装的位置在命令行输入命令:.\ollama ps,
.\ollama ps
可以查看GPU使用的程度:

我没有记录修改CUDA版本之前的这个GPU使用情况,明显的改变是,之前使用翻译时,8b版本的直接就卡住了,出现了HTTPConnectionPool(host=’localhost’,port=111434): Read timed out. (read timeout=30)
改完之后,虽然还是慢,但起码不会卡了。
4 结束语
以上内容就是我安装Ollama以及配置相应的大模型时的一些过程,虽然第一次接触Ollama,但是开发人员将其安装内容简化到让我这种外行人都能轻松部署,还是很棒的,感谢感谢!
后续内容将会继续未完成的内容。
更多推荐


所有评论(0)