相关文章
nlp|微调大语言模型初探索(3),qlora微调deepseek记录
前言 上篇文章记录了使用lora微调llama-1b,微调成功,但是微调llama-8b显存爆炸,这次尝试使用qlora来尝试微调参数体量更大的大语言模型,看看64G显存的极限在哪里。
1.Why QLora? QLoRA 在模型加载阶段通过 4-bit 量化大幅减少了模型权重的显存占用。QLoRA 通过 反量化到 …
建站知识
2025/3/17 12:59:58
Python VsCode DeepSeek接入
Python VsCode DeepSeek接入
创建API key
首先进入DeepSeek官网,https://www.deepseek.com/
点击左侧“API Keys”,创建API key,输出名称为“AI” 点击“创建",将API key保存,复制在其它地方。
在VsCode中下载…
建站知识
2025/3/20 13:54:46
HTML5+CSS多层级ol标签序号样式问题
在CSS中,ol标签用于创建有序列表,而多层级的ol标签可以通过CSS实现不同的序号样式。以下是一些常见的问题和解决方案:
1. 多层级ol的序号格式问题
默认情况下,多层级的ol标签会自动继承父级的序号格式,但有时我们可能…
建站知识
2025/3/20 13:57:24
kafka-集群扩容
一. 前言: 随着业务增加,我们会面临这kafka当性能问题,需要进行集群扩容,增加broker节点。 二. 扩容说明:
增加新服务到kafka集群是很容易的(参考: kafka-部署安装-CSDN博客 ),只要为新服务分配一个独一无…
建站知识
2025/3/19 16:57:56
曙光服务器安装centos8
一、安装系统
服务器硬件配置如下: 操作步骤:
准备空U盘制作系统启动盘
使用工具:Ventoy (⏬下载地址:www.ventoy.net/cn/download.html)
教程:
【选择U盘进行安装,完成后将系统…
建站知识
2025/3/18 7:40:16
同步异步日志系统-日志落地模块的实现
功能:将格式化完成后的日志消息字符串,输出到指定的位置
扩展:支持同时将日志落地到不同的位置
位置分类:
1.标准输出
2.指定文件(时候进行日志分析)
3.滚动文件(文件按照时间/大小进行滚动…
建站知识
2025/3/20 13:54:52
设计模式教程:命令模式(Command Pattern)
1. 什么是命令模式?
命令模式(Command Pattern)是一种行为型设计模式。它将请求封装成一个对象,从而使你能够用不同的请求、队列和日志请求以及支持可撤销操作。
简单来说,命令模式通过把请求封装成对象的方式解耦了…
建站知识
2025/3/19 6:20:53
Android Jetpack组件库中的LiveData和ViewModel的作用。
Android Jetpack组件库中的LiveData和ViewModel是两个核心组件,它们在Android开发中扮演着至关重要的角色。这两个组件共同协作,帮助开发者更有效地管理UI相关的数据,并在配置变更(如屏幕旋转)时保持UI状态的一致性。以…
建站知识
2025/3/19 2:15:29