分类: 机器学习

7 篇文章

thumbnail
大语言模型:LoRA 微调
本文继续上一篇文章(大语言模型入门:从训练到推理)介绍一下 LoRA 微调的实现过程与原理,大语言模型由于参数量巨大,如果使用传统的全参数微调,需要大量的 GPU 资源且耗费很长时间,LoRA 微调就是为了解决这类问题, 可以通过 LoRA 微调让一个大语言模型更好的回答特定领域(eg. 医疗)的相关问题,LoRA 是一种参数高效微调(Parameter-Efficient Fine-Tuning…
thumbnail
大语言模型:从训练到推理
随着大语言模型能力的越来越强,以及各种结合 LLM 的工具横空出世,在赞叹其惊人效果的同时也会去思考他是如何做到这一点的。在学习了相关的网络结构之后,比如 Transformer,MoE 等,还是难以理解他的工作过程;几年前通过 RNN 训练可以写藏头诗的模型,同样是处理序列数据,工作过程和 RNN 又有什么差异呢? 大模型动辄数百亿参数,个人设备很难复现训练过程,只有了解一个模型是如何训练的,训…
搭建 PyTorch GPU 环境:轻松开启深度学习之旅
你是否曾经因为配置深度学习环境而头疼不已?或者因为显卡驱动、CUDA版本不兼容而抓狂?别担心,这篇文章将带你从零开始,一步步搭建一个完整的PyTorch GPU环境,让你轻松驾驭深度学习的力量!无论你是刚入门的小白,还是想升级环境的老手,这篇指南都能帮你搞定。 为什么要用GPU?——从“龟速”到“光速” 在深度学习中,模型的训练往往需要大量的计算资源。CPU虽然能完成任务,但它的并行计算能力有限,…
thumbnail
理解循环网络及其在移动端的趣味应用:AI诗人
本文主要分析循环神经网络(RNN)的大致原理及其 TensorFlow 实现,文章后半部分详细介绍循环网络结合移动端的一次趣味实践:AI诗人(别忘记点个Star哦)。 之前介绍的神经网络包括卷积网络,HED 网络等网络结构都是从输入层到隐藏层再到输出层,每次输入对应输出,输入、输出之间是无关联的。这些网络都无法提取时间序列的相关特征和上小文语义的相关特征,循环神经网络便是为了解决这类问题而生的。 …
thumbnail
使用机器学习 HED 网络优化 SmartCropper 边缘检测
SmartCropper 是我写的一个开源库,主要用于卡片及文档的识别与裁剪 。最近主要对 SmartCropper 进行了两次较大升级,一是升级了 OpenCV 框架到官方最新版,解决了饱为诟病的打包问题(ISSUE), 通过升级 OpenCV 自然也支持了 64 位架构(ISSUE), Google 已经向开发者下发了最后通牒:Support 64-bit architectures。二是完成…
thumbnail
深入理解 VGG 卷积神经网络
VGG 网络是一种经典的图像分类网络,通过多层卷积操作提取图像特征实现图片分类。由于能够提取图像的特征,也应用于风格迁移网络中的损失函数。另外用于边缘检测的 HED(Holistically-Nested Edge Detection) 网络也是基于 VGG 网络发展而来。 VGG 名称来源于作者所在的牛津大学视觉几何组(Visual Geometry Group)。 本文主要分析 VGG 网络的…
thumbnail
Android 端图像多风格迁移
图像风格迁移是利用机器学习算法实现的图像风格转换, 本篇文章会从风格迁移网络发展历史出发一步步了解风格迁移网络算法,然后带领大家搭建单模型多风格的训练网络,最终给出如何将训练出的模型移植到 Android 端运行的工程化实践。 何为图像风格迁移? 使用机器学习训练特定图片的风格,然后将对应的风格应用到任意图片。效果如下所示: 风格迁移在移动端的最佳实践:Prisma 风格迁移网络发展史 《A Ne…