packages/shared-skills/skills/ultimate-browsing/references/insane-search/README.md
Part of the ultimate-browsing skill (Tier 1). Routing and tier-escalation live in ../../SKILL.md. The engine package it drives is at ../../engine/, invoked from the skill directory as
python3 -m engine "<URL>". Deep-dives in this folder: TLS impersonation, Playwright routing, fallback, metadata, Jina, cache/archive, RSS, JSON/public APIs, Twitter, Naver, media.
URL 접근이 차단될 때, 사이트 무관한 우회 전략을 자동 선택한다.
이 규칙은 Claude가 즉흥 판단으로 엇나가지 못하게 하기 위한 고삐다. 위반 시 이전 test.md 세션처럼 "chrome 200에서 break → safari 미시도 → Playwright 미설치라 포기" 식의 오판이 재현된다.
R1 — 일반 웹 URL 차단/403/402 감지 시:
python3 -m engine "<URL>" [--selector "<CSS>"] [--device auto|desktop|mobile] [--trace]
--trace --json으로 재호출해서 원인 진단 후 --device 또는 user_hint 조정.R2 — 첫 200에서 탈출 금지: HTTP 200은 검사 시작 조건이지 성공이 아니다. validate()의 4-계층 검증을 통과해야 성공 선언. CLI는 이미 강제한다.
R3 — 편향 금지: engine/**, waf_profiles.yaml에 특정 사이트 도메인·셀렉터·브랜드명 하드코딩 금지. python3 engine/bias_check.py가 CI 게이트. 자세한 규칙은 No-Site-Name Rule 섹션.
R4 — 힌트는 런타임에만: 사이트 고유 정보(성공 셀렉터, 우선 Referer)는 CLI 인자 또는 user_hint로만 전달, 저장소에 고정 금지.
R5 — Phase 0 공식 API 우선: X/Reddit/YouTube/HN/arXiv 등 공식 공개 엔드포인트가 있는 플랫폼은 Phase 0 테이블을 먼저 확인하고 해당 API를 쓴다. 이건 편향이 아니라 합의된 접근 경로.
R6 — 실패 선언은 전수 시도 후에만: 격자(URL 변환 × TLS impersonate × Referer × Playwright fallback)를 모두 돌린 뒤에만 "뚫을 수 없음" 결론. CLI의 max_attempts 기본 12가 이를 보장.
단, R7 조건(WAF 조기 감지)이 성립하면 engine 격자는 계속 돌되, Claude가 병렬로 MCP 정찰 루트를 시도할 수 있다. 빠른 쪽이 이긴다.
R7 — WAF 조기 감지 시 API-first 병행 분기 (분기 결정은 자동이지만 사용자가 결과에서 확인 가능 — 어떤 우회 경로로 성공/실패했는지 결과 metadata에 명시): 발동 조건 (AND):
verdict=challengeprofile_used가 akamai_bot_manager, cloudflare_turnstile, datadome_probable, perimeterx_human, f5_big_ip, aws_waf 중 하나로 확정세 조건 모두 참일 때 Claude는 병렬 경로를 시작한다:
"병렬"의 실행 의미 (Claude 도구 호출이 순차이므로 명확화):
run_in_background=true로 Bash 툴에서 띄워둔다 — 격자는 그대로 돌되 블로킹하지 않음MCP 정찰 루트:
mcp__playwright__browser_navigate → 대상 페이지 로드 (브라우저 렌더링)mcp__playwright__browser_network_requests → XHR/fetch 호출 목록 수집, /api/·/graphql·\.json 필터로 내부 엔드포인트 식별python3 -m engine <API_URL>로 재호출 (백그라운드 engine과는 별개 호출). 대부분 API 레이어는 페이지 HTML보다 WAF 보호가 얕아 curl_cffi로 바로 수집됨왜: SPA + WAF 사이트(쇼핑몰·커머스 다수)는 마케팅 페이지(HTML)만 WAF로 중투자하고 내부 API는 gateway 레벨 기본 방어만 쓰는 경우가 많다. HTML 격자 전수 낭비(50회 × 0.5s + Playwright fallback 40s ≈ 65초)보다 **MCP 정찰 1회(5~10초) + API 재호출(0.5초)**가 훨씬 경제적이고 성공률 높음.
R7을 쓰지 말아야 할 때: 단일 페이지 본문 읽기만 필요한 단건 조회(문서 하나, 블로그 포스트 하나)는 engine만으로 충분하다 — 발동 조건 #3이 이를 배제한다.
R7 편향 방지: 내부 API URL·파라미터는 engine/**에 하드코딩 금지. 탐지된 URL은 런타임 호출에만 쓰고 저장소에 고정하지 않는다.
이 스킬의 핵심 불변식:
python3 -m engine <URL> 또는 from engine import fetch; fetch(...).engine/**, waf_profiles.yaml에 특정 사이트 하드코딩 금지.user_hint 경유.| 사용자 입력 | 경로 |
|---|---|
URL 제공 (https://...) | → Phase 0 검사 후 없으면 Phase 1 (generic fetch chain) |
핸들 제공 (@username) | → Phase 0 syndication/API |
| 키워드만 ("X에서 AI 검색") | → WebSearch(site:{domain} {keyword}) 먼저 → URL 확보 후 재진입 |
한국어 신규 콘텐츠 한계: 네이버/다음/한국 커뮤니티의 키워드 검색은 WebSearch 경유가 유일하며, 신규 콘텐츠 인덱싱이 지연될 수 있다.
플랫폼이 공식 공개한 전용 API/CLI만 여기에 둔다. 이건 편향이 아니라 합의된 엔드포인트 사용이다.
| 플랫폼 | 방법 | 상세 |
|---|---|---|
| X/Twitter | syndication (타임라인) + oEmbed (개별 트윗) + 키워드 검색: WebSearch → oEmbed | twitter.md |
URL + .json + Mobile UA | json-api.md | |
| Bluesky | AT Protocol (public.api.bsky.app/xrpc/...) | public-api.md |
| Mastodon | 인스턴스별 공개 API | public-api.md |
| Hacker News | Firebase API + Algolia Search | json-api.md |
| Stack Overflow | SE API v2.3 | public-api.md |
| Lobste.rs / V2EX / dev.to | 공개 JSON API | json-api.md |
| 플랫폼 | 방법 | 상세 |
|---|---|---|
| YouTube/Vimeo/Twitch/TikTok/SoundCloud 등 1,858개 | yt-dlp --dump-json | media.md |
| 플랫폼 | 방법 | 상세 |
|---|---|---|
| arXiv | Atom API | public-api.md |
| CrossRef | REST API | public-api.md |
| Wikipedia | REST API | json-api.md |
| OpenLibrary | JSON API | public-api.md |
| GitHub | gh CLI / REST API | public-api.md |
| npm / PyPI | Registry API | json-api.md |
| Wayback Machine | CDX API | public-api.md |
| 플랫폼 | 방법 | 상세 |
|---|---|---|
| 네이버 검색 | search.naver.com (통합/블로그/뉴스탭) | naver.md |
| 네이버 금융 시세 | api.finance.naver.com/siseJson.naver (비공식 JSON) | naver.md |
그 외 모든 사이트는 Phase 1(generic fetch chain)이 자동 처리한다.
from insane_search.engine import fetch
result = fetch(
"https://example.com/path",
success_selectors=["article", "[class*='product-card']"], # 포지티브 프루프 (선택)
device_class="auto", # "auto" | "desktop" | "mobile"
user_hint=None, # {"referer_strategy": "self_root", "impersonate_first": "safari"}
timeout=25,
)
if result.ok:
print(result.verdict) # strong_ok | weak_ok
html = result.content
else:
# Phase 3 수동 개입 (Playwright MCP) 필요 — result.trace로 원인 진단
pass
fetch()는 단일 API이지만 내부는 phase로 나뉘어 있다. result.trace에서 각 시도를 확인할 수 있다.
probe — curl_cffi + safari + self-referer로 첫 시도
validate — 4-계층 검증 (marker / size / cookie / success_selectors)
detect — WAF 제품 감지 ([(profile_id, confidence)] 랭킹)
plan — 프로파일의 tls_candidates × url_transforms × referer 격자 구성
execute — 격자 전수 시도 (첫 200에서 탈출하지 않음)
fallback — capability 태그 기반 Playwright 라우팅 (MCP or local+chrome)
report — FetchResult(ok, verdict, profile_used, trace, summary)
sec-if-cpt-container, Access Denied, Just a moment..., DataDome)_abck=~-1~ 아님)success_selectors 중 하나 이상 매칭 (caller 제공 시 → strong_ok, 미제공 시 → weak_ok)| 축 | 값 | 비고 |
|---|---|---|
url_transforms | original, mobile_subdomain (www.→m.), am_prefix, drop_www | 사이트명 없음, 규칙만 |
tls_impersonate | safari, safari_ios, chrome99, chrome119, chrome131, chrome_android, firefox... | 프로파일별 avoid 리스트 존재 |
referer_strategy | self_root, google_search, none |
device_class:
"auto" (기본) — 프로파일 전략 따름"desktop" — TLS 데스크톱만 + mobile_subdomain 비활성"mobile" — TLS 모바일만 + mobile_subdomain 활성engine/executor.py가 프로파일의 capabilities_needed를 읽고 실행기를 자동 선택:
| 태그 | 실행기 | 언제 |
|---|---|---|
needs_real_tls_stack + needs_js_exec | playwright_real_chrome.js (로컬 Node) | Akamai Bot Manager 등 — Chromium 번들 TLS는 탐지됨 |
needs_js_exec only | Playwright MCP (mcp__playwright__*) | Cloudflare 기본 방어 등 |
needs_mobile_context (+ real_tls) | playwright_mobile_chrome.js | 모바일 디바이스 에뮬레이션 필요 |
자세한 선택 기준: playwright.md.
fetch_chain의 needs_js_exec only 케이스는 Claude 세션에서 MCP 도구를 직접 호출해야 한다. subprocess 경로 없음. 즉:
result.summary에 "Playwright MCP must be invoked from the Claude session"이 포함되면mcp__playwright__browser_navigate → browser_wait_for → browser_snapshot 흐름으로 Claude가 직접 처리Phase 1이 ok=False를 반환하면 사용자 힌트를 받아 재시도:
result = fetch(
url,
success_selectors=[...],
user_hint={"impersonate_first": "safari_ios", "referer_strategy": "none"},
)
힌트는 현재 호출 1회에만 적용되며 저장되지 않는다.
최초 호출 시 필요 패키지를 자동 설치한다:
python3 -c "import curl_cffi, bs4, yaml" 2>/dev/null || pip install curl_cffi beautifulsoup4 pyyaml -q
Playwright 로컬 경로 사용 시 Node가 필요:
npm i -g playwright playwright-extra puppeteer-extra-plugin-stealth
npx playwright install chrome
# 범용 웹 (Jina Reader — 일반 HTML만, WAF 사이트엔 무효)
curl -s "https://r.jina.ai/{URL}"
# yt-dlp — 1,858 사이트 미디어 메타데이터
yt-dlp --dump-json "URL"
# Reddit
curl -sL -H "User-Agent: Mozilla/5.0 (iPhone; CPU iPhone OS 17_0 like Mac OS X) AppleWebKit/605.1.15" \
"https://www.reddit.com/r/{sub}/hot.json?limit=10"
# X/Twitter 타임라인
curl -sL "https://syndication.twitter.com/srv/timeline-profile/screen-name/{handle}"
# Hacker News
curl -sL "https://hacker-news.firebaseio.com/v0/topstories.json?limitToFirst=10&orderBy=%22%24key%22"
# YouTube 자막
yt-dlp --write-sub --write-auto-sub --sub-lang "en,ko" --skip-download -o "/tmp/%(id)s" "URL"
engine/**, waf_profiles.yaml, engine/templates/** 파일에는 특정 사이트의 도메인/URL/셀렉터/브랜드명을 하드코딩하지 않는다.
"coupang.com": {...} 같은 사이트별 레지스트리 엔트리if "coupang" in url: ... 같은 도메인 분기notes에 특정 사이트 이름이나 경험적 byte 크기 박제SKILL.md / references/*.md의 설명 텍스트에 사이트 이름 예시 (독자 이해용)Phase 0 공식 API 인덱스 (플랫폼이 공식 공개한 엔드포인트)observations/*.jsonl 로그 (append-only 관측 데이터 — 코드 경로에 영향 없음)success_selectors, user_hint (현재 호출에만 유효)"이 엔트리가 다른 사이트에서도 같은 WAF를 쓰면 일반적으로 유효한가?" → YES면
waf_profiles.yaml, NO면 runtime hint.
result.trace에서 어느 phase가 실패했는지 확인user_hint로 1회 재시도observations/에 로그 (아직 자동 기록 없음 — 수동)waf_profiles.yaml 해당 프로파일의 tls_impersonate_candidates / url_transform_order를 튜닝 (사이트명 절대 넣지 않음)이 섹션은 참조 파일 선택 가이드다. 문제가 생겼을 때 어떤 references/*.md를 열어야 할지 결정하는 기준으로 쓴다. Claude는 필요할 때만 해당 파일을 Read하고, 선제적으로 전부 읽지 않는다.
| 파일 | 언제 읽는가 | 무엇을 다루는가 |
|---|---|---|
tls-impersonate.md | curl_cffi 격자가 전부 challenge/blocked로 끝날 때, 새 impersonate 타겟을 waf_profiles.yaml에 추가할 때 | curl_cffi로 Safari/Chrome/Firefox TLS(JA3/JA4) 지문 복제하는 방법, WAF(Akamai/Cloudflare/F5 등)별 최적 타겟 조합, 임퍼소네이션 타겟 버전 목록, tls_impersonate_avoid의 실증 근거 |
playwright.md | engine이 Playwright fallback으로 넘어가는데 MCP/Local Chrome 중 어디로 갈지 확인 필요할 때 | Approach 1 (mcp__playwright__* — Cloudflare급 챌린지), Approach 2 (Local Node + channel:'chrome' + stealth — Akamai Bot Manager급), 템플릿 파라미터 규격 |
fallback.md | verdict가 애매하거나 Phase 전환 타이밍 결정 필요할 때 | engine의 Phase 0→1→2→3 에스컬레이션 원칙, 응답 성공/실패 판정 기준 세부, 각 Phase 종료 조건 |
metadata.md | 본문 전체를 못 가져왔지만 제목·요약·가격·저자 같은 핵심만이라도 필요할 때 | OGP 메타 태그, JSON-LD (Schema.org), Twitter Card 파싱, 구조화 데이터 추출 패턴 |
| 파일 | 언제 읽는가 | 무엇을 다루는가 |
|---|---|---|
jina.md | WAF 없는 일반 웹(블로그·뉴스·Wiki)의 깨끗한 마크다운 추출 필요할 때 | r.jina.ai/URL 한 줄로 Puppeteer 기반 JS SPA 렌더링, 마크다운 변환, 무료 500 RPM, API 키 불필요 |
cache-archive.md | 원본 사이트가 차단됐지만 과거 스냅샷으로라도 접근 필요할 때 | Wayback Machine CDX API, archive.today, AMP Cache (Google Cache는 2024-07 종료됨) |
rss.md | 뉴스·블로그·커뮤니티의 시계열 업데이트를 구조화해 받고 싶을 때 | RSS/Atom 자동 발견, 피드 파싱, 인증 불필요 — 가장 깔끔한 시계열 데이터 소스 |
| 파일 | 언제 읽는가 | 무엇을 다루는가 |
|---|---|---|
json-api.md | Reddit/Wikipedia/HN/npm/PyPI 등 URL 변형만으로 JSON을 주는 사이트 | Reddit /json suffix + Mobile UA, HN Firebase, Algolia Search, Wikipedia REST, npm/PyPI Registry API |
public-api.md | Bluesky/Mastodon/arXiv/Stack Overflow/CrossRef/GitHub/OpenLibrary/Wayback 공식 API 사용 시 | 인증 없이 쓰는 공식 공개 REST/AT/Atom API 엔드포인트, 요청 형식, 공통 파라미터 |
twitter.md | X/Twitter 접근 — 프로필 타임라인, 특정 트윗, 키워드 검색 | syndication.twitter.com 타임라인, oEmbed 개별 트윗, 검색은 WebSearch로 URL 확보 후 oEmbed |
naver.md | 네이버 블로그·뉴스·증권·검색 접근 | 서비스별 우회(블로그는 m.blog.naver.com 변환, 증권은 비공식 JSON, 검색은 search.naver.com), 한글 검색 쿼리 패턴 |
media.md | YouTube/Vimeo/Twitch/TikTok/SoundCloud 등 미디어 메타·자막·오디오 필요 시 | yt-dlp --dump-json 기반 1,858개 사이트 커버, 자막 다운로드(--write-sub), 포맷 선택, 라이브/팟캐스트 |
| 파일 | 언제 읽는가 |
|---|---|
engine/fetch_chain.py | 체인 단계 로직·Attempt/FetchResult schema 확인 |
engine/validators.py | 4-계층 검증 세부 (Verdict 분류, 챌린지 마커 목록) |
engine/waf_detector.py | WAF 랭킹 감지 알고리즘, _LAST_LOAD_ERROR 처리 |
engine/waf_profiles.yaml | 프로파일별 detectors·tls_candidates·capabilities_needed |
engine/url_transforms.py | URL 변환 규칙 추가할 때 |
engine/executor.py | Playwright MCP vs local capability 매칭 로직 |
engine/templates/*.js | Playwright 템플릿 튜닝 (warmup, reload, devices) |
engine/bias_check.py | 편향 린터 규칙 — brand denylist, URL_PATTERN, excluded dirs |