极客前沿

AI 入门实战：从零搭建你的第一个 LLM 判断系统

2026-05-12 01:37

DEV Machine Learning

读完本文，你将学会安装 Python、配置环境、运行一个简单的 LLM 正确性检测脚本。

很多人开始用 AI 做决策，但 AI 并不是百分百正确。它基于概率判断，有时会犯错。这篇教程会带你从零开始，搭建一个能判断 LLM 回答是否正确的小工具。你不需要任何编程基础，跟着一步步做就行。

Tutorial Image

准备环境：安装 Python

首先，我们需要安装 Python（一种编程语言，用来写和运行 AI 程序）。

Tutorial Image

打开浏览器，访问 python.org/downloads
点击黄色的大按钮，下载最新版本（比如 Python 3.12）
运行下载的安装包，安装时记得勾选“Add Python to PATH”（把 Python 添加到系统路径，这样后面才能直接使用）
安装完成后，打开命令提示符（Windows 搜“cmd”，Mac 搜“终端”），输入 python --version，如果显示版本号，就说明安装成功了

下载并运行示例代码

我们准备了一个现成的 Python 脚本，帮你体验如何判断 LLM 回答是否正确。你需要下载这个脚本，并安装一个依赖库。

Tutorial Image

下载脚本：在浏览器中打开这个链接，右键另存为 llm_correctness_demo.py（或者直接复制代码到记事本，保存为 .py 文件）
安装依赖：在命令提示符中输入 pip install openai，然后按回车（pip 是 Python 的包管理器，用来安装别人写好的代码库）
运行脚本：在命令提示符中，输入 python llm_correctness_demo.py，然后按回车
如果一切顺利，你会看到类似“正确率：85%”这样的输出

验证是否成功：理解输出结果

脚本会模拟一个简单的 LLM 路由场景：判断用户问题应该由“知识库”还是“网络搜索”来回答。输出结果会告诉你模型的正确率。

Tutorial Image

正确率：模型答对的比例。比如 85% 意味着在 100 个问题中，它答对了 85 个
混淆矩阵：一个表格，显示模型答对和答错的具体情况。比如“应该走知识库但走了搜索”的次数
如果正确率很低（比如低于 50%），别担心，这只是个演示。你可以调整代码中的提示词（prompt）来改进

下一步可以做什么

现在你已经成功跑通了第一个 AI 判断系统！你可以尝试：

Tutorial Image

修改脚本里的测试数据，换成你自己的问题
调整提示词，看看正确率怎么变化
学习更多关于 LLM（大语言模型，比如 ChatGPT 背后的技术）的知识，比如如何用 API 调用真正的模型

记住，AI 不是万能的，但通过这样的测试，你可以更好地了解它的能力边界，从而更安全地使用它。

内容来源

DEV Machine Learning

发布时间

2026-05-12 01:37

返回 AI技术