信息收集2——web架构&指纹&防护&源码

一、信息收集的目标与核心价值

信息收集并不是“扫端口+跑工具”，而是为了回答三个关键问题：

目标是什么？（使用了什么 Web 架构 / 框架 / 组件）

目标如何防护？（WAF、蜜罐、CDN）

从哪里突破？（源码、组件漏洞、配置缺陷、历史遗留问题）

信息收集的质量，直接决定后续攻击路径是否清晰。

二、Web 应用整体架构识别

1️⃣ 常见 Web 架构层级

用户

↓

CDN / WAF

↓

Web 服务器

↓

应用服务器

↓

框架 / 组件

↓

数据库 / 中间件

↓

操作系统

三、Web 架构信息收集维度

1️⃣ 开源 CMS 识别

常见目标：

Discuz

WordPress

PageAdmin

蝉知（Chanzhi）

DedeCMS

Joomla

意义：

可直接关联历史漏洞

可直接搜索源码

可快速进入Nday 利用

2️⃣ 前端技术识别

技术	识别点
HTML5	页面结构
jQuery	JS 文件名、`$()`
Bootstrap	CSS 类名
Vue	`__VUE_DEVTOOLS__`
NodeJS	SSR、API 行为

👉前端技术 = WebPack / SourceMap 泄漏的重要入口

3️⃣ 开发语言判断

语言	典型特征
PHP	`.php` 、composer.json
Java	`/WEB-INF/` 、Spring
Python	Tornado、Flask
C#	ASP.NET、IIS
Go	无明显特征，需组合判断

4️⃣ 框架与组件识别

常见框架：

SpringMVC / Spring Boot

ThinkPHP

Yii

Tornado

Vue

常见高危组件：

FastJson

Shiro

Log4j

Solr

XStream

📌组件识别 ≠ 框架识别，组件漏洞往往更致命

5️⃣ Web / 应用服务器识别

Web 服务器：

Apache

Nginx

IIS

Lighttpd

应用服务器：

Tomcat

JBoss

WebLogic

WebSphere

通过 响应头、错误页面、路径结构 判断

6️⃣ 数据库类型判断

判断方式：

端口扫描

报错信息

应用功能（分页、搜索、延迟）

常见数据库：

MySQL

SQL Server

Oracle

Redis

MongoDB

7️⃣ 操作系统信息

Linux

Windows

macOS

判断来源：

TTL

报错路径

组件行为

8️⃣ 应用服务信息

FTP

SSH

RDP

SMB

SMTP

LDAP

Rsync

📌多服务同时开放 = 蜜罐风险上升

四、CDN / WAF / 蜜罐识别

1️⃣ CDN 识别

常见厂商：

Cloudflare

阿里云

七牛云

网宿

帝联

方法：

IP 归属

多地解析

Header 特征

2️⃣ WAF 识别

常见 WAF：

创宇盾

宝塔 WAF

ModSecurity

玄武盾

OpenRASP

工具识别：

identYwaf

wafw00f

人工判断：

拦截页面

Payload 行为差异

HTTP 状态码变化

3️⃣ 蜜罐识别

项目识别：

HFish

T-Pot

Glastopf

TeaPot

工具：

Heimdallr

Quake（honeypot 模块）

人工判断特征：

端口多且有规律

Web 访问即下载

指纹与真实环境不匹配

五、指纹识别技术体系

1️⃣ 在线指纹平台

云悉

TideSec 指纹库

数字观星

适合：

快速识别

低噪音

2️⃣ 本地指纹项目

项目	特点
Wappalyzer	前后端
hfinger	指纹库丰富
CMSeeK	CMS 专用
EHole_magic	攻防向
observer_ward	自动化

3️⃣ ICO 指纹识别

原理：

网站 favicon 唯一性极高

方式：

FOFA / ZoomEye / Quake

Hash 对比

📌对隐藏系统、后台尤其有效

六、源码泄漏的核心逻辑

源码泄漏 ≠ 运气问题

👉 本质是开发 & 运维习惯问题

1️⃣ 常见泄漏原因

框架/语言特性

管理员不良习惯

开发流程问题

错误配置

安全意识薄弱

资源搜索暴露

2️⃣ 常见源码泄漏形式

类型
Git 泄漏
SVN 泄漏
.DS_Store
WebPack SourceMap
composer.json
网站备份压缩包
SWP
CVS / Bzr / hg
WEB-INF/web.xml

七、源码获取的完整思路

思路一：已知指纹 → 直接搜源码

指纹识别平台确定 CMS / 框架

搜索引擎 / GitHub 获取源码

对比版本 → 漏洞利用

思路二：未知指纹 → 配置/资源泄漏

后端：

.git

.svn

composer.json

.ds_store

备份文件

前端：

WebPack 打包

JS.map

Chrome 插件反编译

思路三：资源平台反查

GitHub

Gitee

Oschina

搜索维度：

项目名

联系方式

邮箱

域名

特征字符串

八、GitHub 高级搜索语法（重点）

in:name test

in:readme test

stars:>3000 test

forks:>1000 test

language:java test

user:test in:name test

结合 Google：

site:github.com smtp password

site:github.com @qq.com smtp

📌不仅用于源码，也用于漏洞监控

九、另类源码获取思路

站长资源

二手交易平台（互站、闲鱼）

👉从“源码系统”反推真实目标

十、总结一句话

信息收集不是“看到了什么”，而是“你下一步打算怎么打”。

指纹 → 架构 → 防护 → 源码 → 漏洞

每一步，都是为下一步服务。

信息收集2——web架构&指纹&防护&源码

一、信息收集的目标与核心价值

二、Web 应用整体架构识别

1️⃣ 常见 Web 架构层级

三、Web 架构信息收集维度

1️⃣ 开源 CMS 识别

2️⃣ 前端技术识别

3️⃣ 开发语言判断

4️⃣ 框架与组件识别

5️⃣ Web / 应用服务器识别

6️⃣ 数据库类型判断

7️⃣ 操作系统信息

8️⃣ 应用服务信息

四、CDN / WAF / 蜜罐识别

1️⃣ CDN 识别

2️⃣ WAF 识别

3️⃣ 蜜罐识别

五、指纹识别技术体系

1️⃣ 在线指纹平台

2️⃣ 本地指纹项目

3️⃣ ICO 指纹识别

六、源码泄漏的核心逻辑

1️⃣ 常见泄漏原因

2️⃣ 常见源码泄漏形式

七、源码获取的完整思路

八、GitHub 高级搜索语法（重点）

九、另类源码获取思路

十、总结一句话

wang

猜你喜欢

评论抢沙发

一、信息收集的目标与核心价值

二、Web 应用整体架构识别

1️⃣ 常见 Web 架构层级

三、Web 架构信息收集维度

1️⃣ 开源 CMS 识别

2️⃣ 前端技术识别

3️⃣ 开发语言判断

4️⃣ 框架与组件识别

5️⃣ Web / 应用服务器识别

6️⃣ 数据库类型判断

7️⃣ 操作系统信息

8️⃣ 应用服务信息

四、CDN / WAF / 蜜罐识别

1️⃣ CDN 识别

2️⃣ WAF 识别

3️⃣ 蜜罐识别

五、指纹识别技术体系

1️⃣ 在线指纹平台

2️⃣ 本地指纹项目

3️⃣ ICO 指纹识别

六、源码泄漏的核心逻辑

1️⃣ 常见泄漏原因

2️⃣ 常见源码泄漏形式

七、源码获取的完整思路

八、GitHub 高级搜索语法（重点）

九、另类源码获取思路

十、总结一句话

wang

猜你喜欢

评论 抢沙发

评论抢沙发