需求
分析技术栈
默认选项
pandas with matplotlib or seaborn
为何需要它
导入、分析、关联、清洗以及第一轮图表的良好默认设置。
Codex 用例
将杂乱数据转化为清晰的分析与可视化。
使用 Codex 清洗数据、关联数据源、探索假设、对结果进行建模,并将输出打包为可复用的制品。
将杂乱数据转化为清晰的分析与可视化。
使用 Codex 清洗数据、关联数据源、探索假设、对结果进行建模,并将输出打包为可复用的制品。
| 技能 | 为什么使用它 |
|---|---|
| 电子表格 | 当涉及公式、导出或快速电子表格检查时,检查 CSV、TSV 和 Excel 文件。 |
| Jupyter Notebook | 为探索性分析、实验和可复用的演示创建或重构笔记本。 |
| 文档 | 当涉及布局、表格或批注时,生成面向利益相关者的 `.docx` 报告。 |
| 渲染 PDF 输出,并在分享前检查最终的分析制品。 |
从本质上讲,数据分析旨在利用数据为决策提供依据。目的绝不是为了分析而分析,而是为了产出一个能指导他人行动的制品:一张供领导层参考的图表、一份给产品团队的实验结果、一份面向研究人员的模型评估,或是一个指导日常运营的仪表板。
这一实用的框架由 R数据科学,是一个循环:导入并整理数据,然后在转换、可视化和建模之间不断迭代以加深理解,最后传达结果。编程贯穿了这整个周期。
广为推广。Codex 非常契合此工作流。它能通过清洗数据、探索假设、生成分析以及产出可复现的制品,帮助你加速推进整个循环。我们的目标不是一次性的笔记本,而是一个可供他人审查、信任和重复运行的工作流。
选择一个你希望通过数据来回答的具体问题。
问题越具体越好。这有助于 Codex 理解你的目标以及如何为你提供帮助。
作为示例,我们将探讨以下问题:
高速公路附近的房屋房产估值究竟在多大程度上较低?
假设一个数据集包含房产价值或销售价格,另一个包含位置、地块或高速公路距离信息。这里的任务不仅仅是运行模型,而是要让输入数据值得信赖,记录合并过程,对结果进行压力测试,并最终产出一个他人可以使用的制品。
在开始新的数据分析项目时,你需要配置环境并定义项目规范。
如需了解有关如何安装和使用技能的更多信息,请参阅我们的 技能文档.
在接触数据之前,先告诉 Codex 在该代码库中应如何运作。将个人默认配置放在 ~/.codex/AGENTS.md,并将项目规则放在代码仓库中 AGENTS.md.
A small AGENTS.md 通常就足够了:
## Data analysis defaults
- Use `uv run` or the project's existing Python environment.
- Keep source data in `data/raw/` and write cleaned data to `data/processed/`.
- Put exploratory notebooks in `analysis/` and final artifacts in `output/`.
- Never overwrite raw files.
- Prefer scripts or checked-in notebooks over unnamed scratch cells.
- Before merging datasets, report candidate keys, null rates, and join coverage.
如果代码库尚未定义 Python 环境,请让 Codex 创建一个可复现的配置并说明运行方法。对于数据分析工作而言,这一步比直接跳去画图表重要得多。
通常最快的启动方式是粘贴文件路径并让 Codex 进行检查。在此环节,Codex 可协助你解答以下基础但重要的问题:
先不要急于得出结论。首先要求进行数据盘点和说明。
大多数实质性工作从这里开始。你手头有两个或更多数据集,主键不明确,贸然合并可能会导致数据丢失或产生重复项。
请要求 Codex 在执行合并前先进行侧写分析:
如果需要推导出最佳键(例如规范化地址、由几列组合而成的地块标识符,或是基于位置的合并),请让 Codex 在你确认合并前详细说明相关的权衡因素与边缘情况。
在探索性数据分析中,Codex 受益于良好的隔离机制。一个工作树可以用来测试地址清理或特征工程,而另一个则专注于图表或替代的模型方向。这样既能保证每个差异记录都易于审查,又能避免在一个冗长的线索中混杂互不兼容的想法。
Codex 应用内置了工作树支持。如果你在终端中工作,使用普通的 Git 工作树也能很好地实现此目的:
git worktree add ../analysis-highway-eda -b analysis/highway-eda
git worktree add ../analysis-model-comparison -b analysis/highway-modeling
在当前的运行示例中,这一步将用于比较高速公路附近的房屋与较远房屋的差异、检查异常值、审查缺失值模式,并判断观察到的效应是真实的,还是反映了社区构成、房屋面积或其他因素的结果。
并非每项分析都需要复杂的模型。请从具有可解释性的基线模型开始。
对于高速公路的问题,合理的初步尝试是使用回归或其他透明模型,在控制房屋面积、房龄和位置等相关因素的前提下,估算高速公路距离与房产价值之间的关系。
请要求 Codex 明确说明:
如果第一个模型表现不佳,这依然很有用。它能帮你判断问题究竟出在模型、特征、连接质量,还是问题本身。
分析结果只有在他人能够理解时才有价值。请让 Codex 生成目标受众所需的交付物:
.docx 简报,使用 $doc 当格式和表格很重要时。$pdf.$vercel-deploy.这也是你需要提出注意事项的地方。如果连接质量不完美、存在采样偏差,或者模型假设较为脆弱,Codex 应该在交付物中明确说明这些情况。
与该工作流特别契合的精选技能包括:
$spreadsheet 用于 CSV、TSV 和 Excel 编辑或导出。$jupyter-notebook 当交付物需要保留在 notebook 原生格式时。$doc and $pdf for stakeholder-facing outputs.$vercel-deploy 当你希望以 URL 形式分享结果时。一旦工作流稳定下来,可以为重复性环节创建仓库本地技能,例如 refresh-data, merge-and-qa, or publish-weekly-report。与在每个线程中粘贴相同的程序化提示相比,这是一种更好的长期模式。
搭建分析环境
加载数据集并进行说明
在合并前先分析关联情况
开辟全新的探索工作树
构建具有可解释性的第一个模型
为利益相关者打包结果
需求
默认选项
为何需要它
需求
分析技术栈
默认选项
pandas with matplotlib or seaborn
为何需要它
导入、分析、关联、清洗以及第一轮图表的良好默认设置。
需求
建模
默认选项
为何需要它
在转向更复杂的预测模型之前,先从具有可解释性的基线开始。
| 需求 | 默认选项 | 为何需要它 |
|---|---|---|
| 分析技术栈 | pandas with matplotlib or seaborn | 导入、分析、关联、清洗以及第一轮图表的良好默认设置。 |
| 建模 | statsmodels or scikit-learn | 在转向更复杂的预测模型之前,先从具有可解释性的基线开始。 |