半年前,团队里一个测试同事问我:我想学AI,但连Python都装不上,怎么办?
他不是个例。我见过太多人卡在第一步。买了课、收藏了文章、打开了命令行,然后面对一堆报错懵了。
这篇文章不是教程,是一次完整记录。我重新装了一台干净的虚拟机,从头到尾跑通一个真实模型。每一步怎么做的、为什么这么做、解决了什么问题,全部写清楚。
目标只有一个:让你跟着走一遍,知道“第一次跑通模型”到底是什么感觉。
目录
一、卡住你的从来不是算法,是环境
二、安装Python时那个“Add to PATH”到底要不要勾
三、虚拟环境不是玄学,是隔离工程问题的唯一手段
四、装包失败90%是源的问题,换源有标准流程
五、跑起来:一个能看见损失的线性回归
六、看到结果那一刻,你才真正进了门
一、卡住你的从来不是算法,是环境
先说一个事实。
我面试过三十多个想转AI的工程师,能手推反向传播的不超过五个,但连conda环境都激活不了的超过一半。
行业焦虑推着每个人去学Transformer、学LoRA、学RAG。但真实情况是:大部分人倒在pip install这一步。
本质不是智商问题,是信息差。你缺的不是数学,是一套“从零到能跑”的工程流程。
这个流程我在一线踩了无数坑,今天全拆开讲。
二、安装Python时那个“Add to PATH”到底要不要勾
第一步就有人错。
下载Python安装包,双击,第一个界面有个复选框“Add Python to PATH”。很多人不敢勾,怕搞乱系统。
我的建议:勾上。
不勾的话,你在命令行敲python会提示“不是内部命令”。你得手动加环境变量,对新手来说太容易出错。
勾了之后,安装程序自动把Python路径写到系统PATH里。你打开命令行就能直接用。
但有一个细节:如果你机器上已经装了其他版本的Python(比如公司老项目用3.7),新装3.10时勾选PATH会覆盖。怎么办?
解决方案:不覆盖,用虚拟环境。后面会讲。
我这次用的是Windows虚拟机,装了Python 3.10.11。勾了PATH,装完验证:
python --version
Python 3.10.11
pip --version
pip 23.0.1
通了。
观点句:安装Python最大的坑不是版本选错,是PATH没配好导致你以为自己没装上。
三、虚拟环境不是玄学,是隔离工程问题的唯一手段
很多人问:我为什么要用虚拟环境?直接pip install装全局不行吗?
行,但你会后悔。
等你装了tensorflow,又装了pytorch,再装个numpy,版本冲突会让你崩溃。项目A要numpy 1.21,项目B要numpy 1.24,全局只有一个版本,你怎么办?
虚拟环境解决的就是这个问题。每个项目有自己的独立Python解释器和包目录,互不干扰。
我用的方案:Python自带的venv,不需要额外装conda。
创建一个叫 first_ai 的虚拟环境
python -m venv first_ai
激活(Windows)
first_ai\Scripts\activate
激活后命令行前面会出现 (first_ai)
看这个图就清楚了:

本质是:用文件夹隔离依赖,用激活脚本切换PATH指向。
解决了什么问题?你可以在同一台机器上同时维护多个项目的不同依赖,再也不怕“装了个新包把老项目搞挂了”。
四、装包失败90%是源的问题,换源有标准流程
环境有了,装依赖。
跑一个最简单的线性回归模型,需要numpy和matplotlib。顺手也装scikit-learn,后面用得上。
命令:
pip install numpy matplotlib scikit-learn
然后等。大概率你会遇到两种情况:
一是慢,默认源在海外,下载速度几十KB每秒。二是超时报错,直接红字一片。
核心原因:默认PyPI源在国外,国内访问不稳定。
解决方案:换国内镜像源。我常用的三个:
清华:https://pypi.tuna.tsinghua.edu.cn/simple
阿里云:https://mirrors.aliyun.com/pypi/simple
华为云:https://mirrors.huaweicloud.com/repository/pypi/simple
一次性换源命令:
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
之后再执行pip install,速度直接拉满。
如果不想改全局配置,单次指定源也行:
pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple
我这次安装了三个包,总耗时不到十秒。
观点句:装包失败不是你不会用pip,是你没用对源。
五、跑起来:一个能看见损失的线性回归
环境搞定了,写模型。
很多人觉得“跑模型”必须上深度学习。不对。第一个模型要足够简单,让你能完整走通“数据→训练→输出”这条链路。
线性回归是最佳选择。它只有加法和乘法,但包含了机器学习的核心流程。
我写了一个预测房价的例子:面积是特征,价格是标签。用scikit-learn生成模拟数据,然后训练。
完整代码贴在下面,你可以直接复制:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
1. 生成模拟数据:面积 和 价格
np.random.seed(42)
X = np.random.rand(100, 1) 100# 面积 0-100 平米
y = 3 X + 10 + np.random.randn(100, 1) 10# 价格 = 3面积 + 10 + 噪声
2. 切分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
3. 创建并训练模型
model = LinearRegression()
model.fit(X_train, y_train)
4. 预测
y_pred = model.predict(X_test)
5. 输出结果
print(f"系数: {model.coef[0][0]:.2f}")
print(f"截距: {model.intercept[0]:.2f}")
print(f"R^2分数: {model.score(X_test, y_test):.4f}")
6. 画图
plt.scatter(X_test, y_test, color='blue', label='真实值')
plt.plot(X_test, y_pred, color='red', linewidth=2, label='预测值')
plt.xlabel('面积(平米)')
plt.ylabel('价格(万元)')
plt.legend()
plt.show()
执行:
python linear_regression.py
输出:
系数: 3.05
截距: 9.87
R^2分数: 0.9523
然后弹出一张图,蓝色的点沿着红线分布。
看到那张图的时候,第一个模型跑通了。
整个流程用流程图表示:

本质是:从数据到模型的五步流水线。所有复杂模型都遵循这个骨架。
六、看到结果那一刻,你才真正进了门
这次全记录,从装Python到看到那张散点图,总共用了不到二十分钟。
但你注意,我刻意绕开了一个东西:理解算法的数学原理。
不是不重要,是第一轮不用学。你先跑通,先看见“输入代码→输出结果”这个闭环,再去补数学。顺序反了,你会永远卡在第一步。
观点句:第一个模型跑通的意义不在准确率,在打破了“我不会”的心理门槛。
现在我问你一个真实的问题:
你卡在哪一步?是不知道怎么装Python,还是装好了不敢敲命令行,还是敲了命令看不懂报错?
把你卡住的环节写在评论区,我下一个选题就拆它。