看了yezi1000写的SCDN原理后的读后感

查看 66|回复 6
作者:3077   
   
训练特征
网址
yezi1000告知了训练使用的特征,如下面列举的,基本涉及了应用层、会话层、传输层、网络层等几个网络层级,也包括了URI/METHOD等显著参数的分布数据,还有频率和流量基线,用到的特征很全面了
Raw Packet
TCP Session CTX
TLS Session CTX
HTTP Request CTX
記錄到我們的數據倉庫中用於深度學習並生成深度學習防禦模型
我們會通過學習得到
設備類型
OS資訊和癖好
Client資訊和癖好
TCP Session Flow生命週期內的
URI請求分布
Method類型分布
TCP Handshake Timing baseline
TLS Handshake Timing baseline
H2 Handshake Timing baseline
Rate baseline
Flow baseline
Retrans baseline
Multi-layer指紋

一些容易被干掉的情景
简单的用http库爬取数据,这种比较好辨认,因为很少有keepalive的,每次都要重新握手一遍
反代,虽然URI/Method的分布和真人接近,但tls/http指纹单一,且频率和流量基线明显不对
Flood流量,抵御Flood应该很拿手
容易被误伤的
这种模型依赖分布来保护大多数用户的使用,屏蔽掉在分布之外的小众(异常)流量。
如果不做特定的宽容政策,有些真人但用户量小的流量可能会被误伤,比如linux系统下的浏览器。也可能是因为linux浏览器多用于爬虫的原因。
小众浏览器,原因同上
难以预防的
无头浏览器,无头浏览器在上面提到的大部分特征上都与真人一致。仅仅Rate baseline/Flow baseline有可能有细微差别
为了抵抗无头浏览器,需要扩大时间窗口,增加记忆体储存。如果付出更大的代价,是可以预防的,但性价比不高
超级难以预防的
分布式的无头浏览器,降低单个ip的基线Rate baseline/Flow baseline,随机分布到若干个来源的ip。基本和真人无异了。
可以改进的
hostloc用的discuz3.4,从技术上讲属于比较久远的产品,请求返回的内容多是静态资源,动态的请求和交互占比很少。
这意味着,无头浏览器导航到一个url后的表现和真人差异很小
而一些现代框架的网站,大部分使用动态内容渲染,有很多通过用户交互后请求后端然后前端动态生成的内容
这种动态越多的框架,用户交互表现在流量上的特征越明显,也就更容易区分真实流量和机器人流量
如果加入一些简单的js,当用户滚动页面、点击内容、移动鼠标等等给后端简单发一些report的包,会增加很多特征,电商网站为了区分机器人抢购会使用类似手段。
转:https://clochat.com/t/topic/520

浏览器, 流量, 特征

糟糕的鲍勃   
羡慕这种技术大佬 我一般只会打个飞机 有时候还会打昏死过去
3077
OP
  

糟糕的鲍勃 发表于 2024-11-6 19:34
羡慕这种技术大佬 我一般只会打个飞机 有时候还会打昏死过去

羡慕能够打昏死过去
qwe520   
訓練特徵
网址
yezi1000告知了訓練使用的特徵,如下面列舉的,基本涉及了應用層、會話層、傳輸層、網絡層等幾個網絡層級,也包括了URI/METHOD等顯著參數的分佈數據,還有頻率和流量基線,用到的特徵很全面了
Raw Packet
TCP Session CTX
TLS Session CTX
HTTP Request CTX
記錄到我們的數據倉庫中用於深度學習並生成深度學習防禦模型
我們會通過學習得到
設備類型
OS資訊和癖好
Client資訊和癖好
TCP Session Flow生命週期內的
URI請求分佈
Method類型分佈
TCP Handshake Timing baseline
TLS Handshake Timing baseline
H2 Handshake Timing baseline
Rate baseline
Flow baseline
Retrans baseline
Multi-layer指紋
一些容易被幹掉的情景
簡單的用http庫爬取數據,這種比較好辨認,因爲很少有keepalive的,每次都要重新握手一遍
反代,雖然URI/Method的分佈和真人接近,但tls/http指紋單一,且頻率和流量基線明顯不對
Flood流量,抵禦Flood應該很拿手
容易被誤傷的
這種模型依賴分佈來保護大多數用戶的使用,屏蔽掉在分佈之外的小衆(異常)流量。
如果不做特定的寬容政策,有些真人但用戶量小的流量可能會被誤傷,比如linux系統下的瀏覽器。也可能是因爲linux瀏覽器多用於爬蟲的原因。
小衆瀏覽器,原因同上
難以預防的
無頭瀏覽器,無頭瀏覽器在上面提到的大部分特徵上都與真人一致。僅僅Rate baseline/Flow baseline有可能有細微差別
爲了抵抗無頭瀏覽器,需要擴大時間窗口,增加記憶體儲存。如果付出更大的代價,是可以預防的,但性價比不高
超級難以預防的
分佈式的無頭瀏覽器,降低單個ip的基線Rate baseline/Flow baseline,隨機分佈到若干個來源的ip。基本和真人無異了。
可以改進的
hostloc用的discuz3.4,從技術上講屬於比較久遠的產品,請求返回的內容多是靜態資源,動態的請求和交互佔比很少。
這意味着,無頭瀏覽器導航到一個url後的表現和真人差異很小
而一些現代框架的網站,大部分使用動態內容渲染,有很多通過用戶交互後請求後端然後前端動態生成的內容
這種動態越多的框架,用戶交互表現在流量上的特徵越明顯,也就更容易區分真實流量和機器人流量
如果加入一些簡單的js,當用戶滾動頁面、點擊內容、移動鼠標等等給後端簡單發一些report的包,會增加很多特徵,電商網站爲了區分機器人搶購會使用類似手段。
HOH   
说了一堆废话,结果什么都没说
3077
OP
  

HOH 发表于 2024-11-6 19:38
说了一堆废话,结果什么都没说

帮顶
b66667777   
改变不了论坛的脏乱差
您需要登录后才可以回帖 登录 | 立即注册

返回顶部