一、robots.txt

**概念:**robots.txt是网站管理者写给爬虫的一封信,里面描述了网站管理者不希望爬虫做的事,比如:不要访问某个文件、文件夹,禁止某些爬虫的访问,限制爬虫访问网站的频率


**内容:**User-agent: 爬虫的名称

Disallow: 不允许爬虫访问的地址

Allow: 允许爬虫访问的地址

若User-agent是*,则表示对象是所有爬虫。

Disallow和Allow后面跟的是地址,地址的描述格式符合正则表达式(regex)的规则。因此可以在python中使用正则表达式来筛选出可以访问的地址。


二、常见技术文档

1.通用文档格式

.pdf

Portable Document Format(便携式文档格式),由Adobe开发,跨平台且保留排版,适合打印和共享。

特点:不可编辑(除非使用专业工具)、高兼容性。


.doc / .docx

Microsoft Word 文档格式,广泛用于编辑和协作,支持复杂排版。

适用场景:初稿撰写、团队审阅(需搭配Office工具)。


.odt

Open Document Text,开源格式(如LibreOffice),兼容性较好,适合替代Word。


2.纯文本与标记语言

.md / .markdown

Markdown 格式,轻量级标记语言,易读易写,支持代码块和基础排版。

用途:README文件、GitHub文档、静态网站生成(如GitBook、Hugo)。


.rst

reStructuredText,比Markdown更结构化,常用于Python项目的Sphinx文档生成。


.tex

LaTeX 文件,学术论文和技术文档的标准格式,支持复杂公式和排版。


.adoc

AsciiDoc,类似Markdown但功能更丰富,支持导出为PDF/HTML等格式。


3.在线与协作工具

.html

网页格式,适合在线发布技术文档(搭配CSS/JavaScript增强交互性)。


.xml / .dita

XML 用于结构化数据存储,DITA(Darwin Information Typing Architecture)专为技术文档设计,支持模块化内容管理。


.yaml / .yml

配置文件格式,常见于API文档、系统配置(如Swagger API规范)。


4.版本控制与开发相关

无后缀(如README)

纯文本文件,常用于项目根目录说明,通常用Markdown编写。


.json

结构化数据格式,用于API文档、配置文件和元数据存储。


5.电子书与帮助系统

.epub

开放电子书格式,适合制作可适配多设备的技术手册。


.chm

Compiled HTML Help,Windows系统帮助文档格式,集成目录和索引。


6.其他专业格式

.csv

表格数据文档,用于存储测试用例、数据日志等。


.ipynb

Jupyter Notebook文件,结合代码、图表和文本,适合技术教程和数据分析文档。