Codex 用例

分析数据集并交付报告

将杂乱数据转化为清晰的分析与可视化。

难度中级

时间周期 1h

使用 Codex 清洗数据、关联数据源、探索假设、对结果进行建模，并将输出打包为可复用的制品。

适用场景

从杂乱文件开始，最终生成图表、备忘录、仪表板或报告的数据分析流程
希望 Codex 协助完成数据清洗、数据关联、探索性分析及构建可复用脚本的分析人员
需要可审查的制品，而非一次性笔记本状态的团队

分析数据集并交付报告

将杂乱数据转化为清晰的分析与可视化。

使用 Codex 清洗数据、关联数据源、探索假设、对结果进行建模，并将输出打包为可复用的制品。

中级

在 Codex 应用中尝试

使用 Codex 清洗数据、关联数据源、探索假设、对结果进行建模，并将输出打包为可复用的制品。

中级

适用场景

从杂乱文件开始，最终生成图表、备忘录、仪表板或报告的数据分析流程
希望 Codex 协助完成数据清洗、数据关联、探索性分析及构建可复用脚本的分析人员
需要可审查的制品，而非一次性笔记本状态的团队

技能与插件

电子表格

当涉及公式、导出或快速电子表格检查时，检查 CSV、TSV 和 Excel 文件。
Jupyter Notebook

为探索性分析、实验和可复用的演示创建或重构笔记本。
文档

当涉及布局、表格或批注时，生成面向利益相关者的 `.docx` 报告。
PDF

渲染 PDF 输出，并在分享前检查最终的分析制品。

技能	为什么使用它
电子表格	当涉及公式、导出或快速电子表格检查时，检查 CSV、TSV 和 Excel 文件。
Jupyter Notebook	为探索性分析、实验和可复用的演示创建或重构笔记本。
文档	当涉及布局、表格或批注时，生成面向利益相关者的 `.docx` 报告。
PDF	渲染 PDF 输出，并在分享前检查最终的分析制品。

起始提示词

我正在此工作区中进行一个数据分析项目。目标： - 查明高速公路附近的房屋房产估值是否较低。开始步骤： - 阅读 `AGENTS.md` 并说明推荐的 Python 环境 - 加载位于 [dataset path] 的数据集 - 描述每个文件包含的内容、可能的关联键以及明显的数据质量问题 - 提出一个从导入和清理到可视化、建模及报告输出的可复现工作流约束条件： - 优先使用脚本和保存的制品，而非一次性的笔记本状态 - 不要凭空捏造缺失值或合并键 - 建议任何能够提升工作流可复现性的技能或工作树拆分方式输出： - 设置计划 - 数据清单 - 分析计划 - 首批要执行的命令或要创建的文件

简介

从本质上讲，数据分析旨在利用数据为决策提供依据。目的绝不是为了分析而分析，而是为了产出一个能指导他人行动的制品：一张供领导层参考的图表、一份给产品团队的实验结果、一份面向研究人员的模型评估，或是一个指导日常运营的仪表板。

这一实用的框架由 R数据科学，是一个循环：导入并整理数据，然后在转换、可视化和建模之间不断迭代以加深理解，最后传达结果。编程贯穿了这整个周期。

广为推广。Codex 非常契合此工作流。它能通过清洗数据、探索假设、生成分析以及产出可复现的制品，帮助你加速推进整个循环。我们的目标不是一次性的笔记本，而是一个可供他人审查、信任和重复运行的工作流。

明确你的用例

选择一个你希望通过数据来回答的具体问题。

问题越具体越好。这有助于 Codex 理解你的目标以及如何为你提供帮助。

运行示例：高速公路附近的房产价值

作为示例，我们将探讨以下问题：

高速公路附近的房屋房产估值究竟在多大程度上较低？

假设一个数据集包含房产价值或销售价格，另一个包含位置、地块或高速公路距离信息。这里的任务不仅仅是运行模型，而是要让输入数据值得信赖，记录合并过程，对结果进行压力测试，并最终产出一个他人可以使用的制品。

配置环境

在开始新的数据分析项目时，你需要配置环境并定义项目规范。

Environment: Codex 应当了解该项目所指定的 Python 环境、包管理器、文件夹结构以及输出约定。
Skills: 诸如笔记本清理、电子表格导出或最终报告打包等重复性工作流，应转化为可复用的技能，而不是在每个提示中重新解释。
Worktrees: 将不同的探索工作分离到独立的工作树中，这样某个假设、合并策略或可视化分支就不会与其他分支相互干扰。

如需了解有关如何安装和使用技能的更多信息，请参阅我们的技能文档.

引导 Codex 的行为

在接触数据之前，先告诉 Codex 在该代码库中应如何运作。将个人默认配置放在 ~/.codex/AGENTS.md，并将项目规则放在代码仓库中 AGENTS.md.

A small AGENTS.md 通常就足够了：

## Data analysis defaults

- Use `uv run` or the project's existing Python environment.
- Keep source data in `data/raw/` and write cleaned data to `data/processed/`.
- Put exploratory notebooks in `analysis/` and final artifacts in `output/`.
- Never overwrite raw files.
- Prefer scripts or checked-in notebooks over unnamed scratch cells.
- Before merging datasets, report candidate keys, null rates, and join coverage.

如果代码库尚未定义 Python 环境，请让 Codex 创建一个可复现的配置并说明运行方法。对于数据分析工作而言，这一步比直接跳去画图表重要得多。

导入数据

通常最快的启动方式是粘贴文件路径并让 Codex 进行检查。在此环节，Codex 可协助你解答以下基础但重要的问题：

这里有哪些文件格式？
每个数据集大致代表什么？
哪些列可能是目标变量、标识符、日期、位置或度量值？
明显的数据质量问题出在哪里？

先不要急于得出结论。首先要求进行数据盘点和说明。

整理与合并输入数据

大多数实质性工作从这里开始。你手头有两个或更多数据集，主键不明确，贸然合并可能会导致数据丢失或产生重复项。

请要求 Codex 在执行合并前先进行侧写分析：

检查候选键的唯一性。
衡量空值率和格式差异。
规范化明显的格式问题，如大小写、空格或地址格式。
运行试合并并报告匹配率。
在写入最终合并文件之前，推荐最安全的合并策略。

如果需要推导出最佳键（例如规范化地址、由几列组合而成的地块标识符，或是基于位置的合并），请让 Codex 在你确认合并前详细说明相关的权衡因素与边缘情况。

通过图表与独立工作树进行探索

在探索性数据分析中，Codex 受益于良好的隔离机制。一个工作树可以用来测试地址清理或特征工程，而另一个则专注于图表或替代的模型方向。这样既能保证每个差异记录都易于审查，又能避免在一个冗长的线索中混杂互不兼容的想法。

Codex 应用内置了工作树支持。如果你在终端中工作，使用普通的 Git 工作树也能很好地实现此目的：

git worktree add ../analysis-highway-eda -b analysis/highway-eda
git worktree add ../analysis-model-comparison -b analysis/highway-modeling

在当前的运行示例中，这一步将用于比较高速公路附近的房屋与较远房屋的差异、检查异常值、审查缺失值模式，并判断观察到的效应是真实的，还是反映了社区构成、房屋面积或其他因素的结果。

对问题进行建模

并非每项分析都需要复杂的模型。请从具有可解释性的基线模型开始。

对于高速公路的问题，合理的初步尝试是使用回归或其他透明模型，在控制房屋面积、房龄和位置等相关因素的前提下，估算高速公路距离与房产价值之间的关系。

请要求 Codex 明确说明：

目标变量与特征定义。
需要包含哪些控制变量以及原因。
泄露风险与排除项。
它如何选择数据拆分、评估方法或不确定性估计。
用通俗易懂的语言解释结果的含义。

如果第一个模型表现不佳，这依然很有用。它能帮你判断问题究竟出在模型、特征、连接质量，还是问题本身。

传达结果

分析结果只有在他人能够理解时才有价值。请让 Codex 生成目标受众所需的交付物：

供技术协作者参考的 Markdown 备忘录。
供下游运营工作使用的电子表格或 CSV。
A .docx 简报，使用 $doc 当格式和表格很重要时。
渲染后的附录或最终交付物，使用 $pdf.
通过部署的轻量级仪表盘或静态报告网站 $vercel-deploy.

这也是你需要提出注意事项的地方。如果连接质量不完美、存在采样偏差，或者模型假设较为脆弱，Codex 应该在交付物中明确说明这些情况。

值得考虑的技能

与该工作流特别契合的精选技能包括：

$spreadsheet 用于 CSV、TSV 和 Excel 编辑或导出。
$jupyter-notebook 当交付物需要保留在 notebook 原生格式时。
$doc and $pdf for stakeholder-facing outputs.
$vercel-deploy 当你希望以 URL 形式分享结果时。

一旦工作流稳定下来，可以为重复性环节创建仓库本地技能，例如 refresh-data, merge-and-qa, or publish-weekly-report。与在每个线程中粘贴相同的程序化提示相比，这是一种更好的长期模式。

建议提示词

搭建分析环境

我是一名在这个仓库中工作的数据分析师。请阅读 `AGENTS.md`，检查是否已存在 Python 环境，并为本项目搭建最小化的可复现分析工作流。要求： - 优先使用 `uv` 和本地 `.venv`，除非该仓库已标准化了其他工具。 - 为原始数据、处理后的数据、notebook 和输出创建清晰的文件夹。 - 说明你将如何运行 Python、安装依赖包以及保存构建产物。 - 不要修改原始数据文件。

加载数据集并进行说明

请加载位于 [path] 的数据集并说明其内容。包括： - 每个文件可能包含的内容 - 可能的标识符、目标列和日期列 - 文件格式和编码 - 明显的数据质量问题或缺失的元数据暂时不要得出结论。请从清查和解读开始。

在合并前先分析关联情况

我们需要合并这两个数据集，但主键并不明确。任务： - 分析候选的关联键 - 展示每个候选键的唯一性和空值率 - 标准化明显的格式问题 - 运行小规模试探性关联并报告匹配率 - 在更改任何文件之前，推荐最安全的合并策略

开辟全新的探索工作树

为高速公路邻近度和房产估价的探索性分析创建一个独立的工作树。在此工作树中： - 生成汇总表和图表 - 比较靠近与远离高速公路的房屋 - 保存图表和简短的 Markdown 报告 - 保持 diff 仅限于探索性操作

构建具有可解释性的第一个模型

对高速公路邻近度是否与较低的房产估价相关进行建模。要求： - 从具有可解释性的基线开始 - 明确定义目标、特征和控制变量 - 说明泄露风险与排除项 - 报告效应大小、不确定性和主要局限性 - 保存建模代码和简短的结果说明

为利益相关者打包结果

将此分析转化为面向利益相关者的交付物。受众： - 决定公路沿线房产是否需要单独定价假设的产品和运营负责人输出： - 一份简短的执行摘要 - 两到四张支持性图表 - 一个注意事项部分 - `.docx`、`.pdf` 或静态报告网站，以最合适的为准同时告诉我哪种技能对所选的输出格式最有帮助。

技术栈

需求

默认选项

为何需要它

需求

分析技术栈

默认选项

pandas with matplotlib or seaborn

为何需要它

导入、分析、关联、清洗以及第一轮图表的良好默认设置。

需求

建模

默认选项

statsmodels or scikit-learn

为何需要它

在转向更复杂的预测模型之前，先从具有可解释性的基线开始。

需求	默认选项	为何需要它
分析技术栈	pandas with matplotlib or seaborn	导入、分析、关联、清洗以及第一轮图表的良好默认设置。
建模	statsmodels or scikit-learn	在转向更复杂的预测模型之前，先从具有可解释性的基线开始。

推荐

入门

核心概念

Apps SDK

工具

运行与扩展

评估

实时与音频

模型优化

专业模型

正式上线

旧版 API

资源

入门指南

使用 Codex

配置

管理

自动化

学习

发布

核心概念

规划

构建

部署

转化应用

指南

资源

指南

文件上传

API

衡量

广告主 API

API 参考

最新

主题

主题

贡献

分类

主题

项目

活动

分析数据集并交付报告

适用场景

目录

适用场景

技能与插件

起始提示词

简介

明确你的用例

运行示例：高速公路附近的房产价值

配置环境

引导 Codex 的行为

导入数据

整理与合并输入数据

通过图表与独立工作树进行探索

对问题进行建模

传达结果

值得考虑的技能

建议提示词

技术栈

相关用例

协调新员工入职

查询表格数据

将反馈转化为行动