一、robots.txt
**概念:**robots.txt是网站管理者写给爬虫的一封信,里面描述了网站管理者不希望爬虫做的事,比如:不要访问某个文件、文件夹,禁止某些爬虫的访问,限制爬虫访问网站的频率
**内容:**User-agent: 爬虫的名称
Disallow: 不允许爬虫访问的地址
Allow: 允许爬虫访问的地址
若User-agent是*,则表示对象是所有爬虫。
Disallow和Allow后面跟的是地址,地址的描述格式符合正则表达式(regex)的规则。因此可以在python中使用正则表达式来筛选出可以访问的地址。
二、常见技术文档
1.通用文档格式
Portable Document Format(便携式文档格式),由Adobe开发,跨平台且保留排版,适合打印和共享。
特点:不可编辑(除非使用专业工具)、高兼容性。
.doc / .docx
Microsoft Word 文档格式,广泛用于编辑和协作,支持复杂排版。
适用场景:初稿撰写、团队审阅(需搭配Office工具)。
.odt
Open Document Text,开源格式(如LibreOffice),兼容性较好,适合替代Word。
2.纯文本与标记语言
.md / .markdown
Markdown 格式,轻量级标记语言,易读易写,支持代码块和基础排版。
用途:README文件、GitHub文档、静态网站生成(如GitBook、Hugo)。
.rst
reStructuredText,比Markdown更结构化,常用于Python项目的Sphinx文档生成。
.tex
LaTeX 文件,学术论文和技术文档的标准格式,支持复杂公式和排版。
.adoc
AsciiDoc,类似Markdown但功能更丰富,支持导出为PDF/HTML等格式。
3.在线与协作工具
.html
网页格式,适合在线发布技术文档(搭配CSS/JavaScript增强交互性)。
.xml / .dita
XML 用于结构化数据存储,DITA(Darwin Information Typing Architecture)专为技术文档设计,支持模块化内容管理。
.yaml / .yml
配置文件格式,常见于API文档、系统配置(如Swagger API规范)。
4.版本控制与开发相关
无后缀(如README)
纯文本文件,常用于项目根目录说明,通常用Markdown编写。
.json
结构化数据格式,用于API文档、配置文件和元数据存储。
5.电子书与帮助系统
.epub
开放电子书格式,适合制作可适配多设备的技术手册。
.chm
Compiled HTML Help,Windows系统帮助文档格式,集成目录和索引。
6.其他专业格式
.csv
表格数据文档,用于存储测试用例、数据日志等。
.ipynb
Jupyter Notebook文件,结合代码、图表和文本,适合技术教程和数据分析文档。