素材采集 & 技术方案调研报告
2026-03-07 更新 | VPS CC 调研输出
通过抖音 Web API + Cookie 认证,逐账号分页抓取全部视频元数据(标题、发布时间、时长、点赞/评论/分享/播放数)。
| 账号 | 视频数 | 时间跨度 | 最高赞视频 |
|---|---|---|---|
| 纯然商业-运准 | 815 | 2023-01-22 ~ 2023-03-07 | 小杨哥现在如此成功... 17.7万赞 |
| 参哥本参-运准 | 776 | 2023-01-01 ~ 2023-02-18 | (无标题)4.1万赞 |
| 参哥带你走天下-雪兮 | 750 | 2024-05-29 ~ 2024-06-24 | 18年的从商人生积累的认知... 17万赞 |
| 参哥(日常号)耀闫 | 624 | 2024-03-15 ~ 2024-07-12 | (无标题)1.1万赞 |
| 参哥认知圈诗亿 | 435 | 2023-02-11 ~ 2024-08-09 | 95后健身博主沈凌峰专访... 45.9万赞 |
| 参哥(直播号) | 305 | 2023-04-08 ~ 2026-03-06 | 我为什么这么懂变现... 9713赞 |
| 参哥思维圈 | 234 | 2023-04-16 ~ 2024-07-26 | 宠物赛道盈利千万的模式... 7994赞 |
| 合计 | 3,939 | 2023-01 ~ 2026-03 |
/root/Projects/douyin-downloader/video_lists/ 目录下。由于抖音搜索屏蔽参哥相关关键词,所有账号 URL 均由用户手动从 App 中分享获取。
通过浏览器端脚本提取 __INITIAL_STATE__ 数据,获取 8 个账号的用户资料和首屏笔记列表。小红书反爬严格(VPS IP 被封、API 需专有签名),采用浏览器内执行方案绕过限制。
| 账号 | 粉丝 | 获赞与收藏 | 已采集笔记 |
|---|---|---|---|
| 参哥带你聊商业(主号) | 9.3万 | 28.7万 | 32 |
| 参哥认知圈 | 3万 | 13.9万 | 31 |
| 参哥金尚商业 | 1.2万 | 6万 | 30 |
| 参哥(直播号) | 1万 | 3.5万 | 31 |
| 参哥(没有废话) | 3406 | 7184 | 30 |
| 参哥商业论 | 1760 | 6108 | 30 |
| 参哥走天下 | 740 | 2109 | 30 |
| 参哥带你看世界 | 32 | 15 | 30 |
| 合计 | 15万+ | 53.7万 | 244 |
| 平台 | 主要账号 | 粉丝量 | 内容量估算 | 状态 |
|---|---|---|---|---|
| 抖音 |
参哥认知圈(主号) 参哥带你走天下、参哥本参、参哥亿万圈、 参哥思维圈、参校长不讲废话、私域参校长、 纯然商业、金尚商业说 等 10+ 号 |
主号 294万 矩阵合计约 700万-1000万 |
估计 3000-5000 条 10+号 x 4年+ x 高频更新 |
受限 2023.8 主号封禁 2024.3 搜索屏蔽 矩阵号仍在更新 |
| 小红书 |
参哥带你聊商业(主号) 参哥认知圈、参哥金尚商业、参哥(直播号)、 参哥(没有废话)、参哥走天下、参哥商业论、 参哥带你看世界 等 8 号 |
主号 9.3万 矩阵合计约 15万 |
已采集 244 条 首屏数据,实际更多 |
正常 |
| 视频号 | 参哥(矩阵号存在) | 待确认 | 数百条 | 正常 |
| B站/快手/YouTube | 未找到官方账号 | - | - | 无 |
抖音是参哥内容的主阵地,约占总素材量的 70%+。以下是经过调研验证的导出方案:
python downloader.py --auto-cookie -u "https://www.douyin.com/user/xxxxx"
jiji262/douyin-downloader 作为主力工具。在这台 VPS 上直接运行,--auto-cookie 自动获取登录态,支持断点续传和去重。预计下载 2000-3000 个视频需要 1-2 天(取决于网络和限速策略)。需要注意控制请求频率,避免触发反爬。
| 工具 | 特点 | 状态 |
|---|---|---|
| XHS-Downloader | 提取账号所有发布/收藏/点赞作品,去水印下载,SQLite去重 | 可用 |
| MediaCrawler | 多平台爬虫(含小红书),27K+ Star,支持评论采集 | 需维护 |
| XHS-Spider | 图片/视频批量下载,GUI 界面 | 可用 |
小红书反爬较强,MediaCrawler 2025年有用户报告风控问题。XHS-Downloader 通过浏览器脚本联动,稳定性更好。
| 工具 | 特点 | 状态 |
|---|---|---|
| res-downloader | 网络资源嗅探,支持视频号/抖音/快手/小红书,10K+ Star | 可用 |
| wx_channels_download | 自动化 Chrome 控制,支持直播回放 | 需更新 |
| 视频号下载助手 | 自动监听+手动下载两种模式 | 可用 |
| 方案 | 中文准确率 | 速度 | 成本 | 部署难度 | 推荐度 |
|---|---|---|---|---|---|
|
FunASR Paraformer 阿里达摩院开源 |
极高 专为中文训练 |
极快 比 Whisper 快 12x RTF=0.009 |
免费 本地部署 |
中等 Python + GPU |
***** |
|
Whisper large-v3 OpenAI 开源 |
高 多语言模型 |
较慢 需 GPU |
免费 本地部署 |
低 生态成熟 |
**** |
|
faster-whisper CTranslate2 优化 |
高 同 Whisper |
快 比原版快 4x |
免费 本地部署 |
低 | **** |
|
WhisperX VAD + 批量优化 |
高 | 快 VAD 预分段 |
免费 | 中等 | **** |
|
腾讯云 ASR 录音文件识别 |
高 | 快 云端并发 |
~2.3元/h 预付 1500元/年(1000h) |
低 API 调用 |
*** |
|
阿里云语音识别 智能语音交互 2.0 |
高 | 快 | ~3.5元/h 免费额度 2h/天 |
低 | *** |
|
科大讯飞 实时语音转写 |
极高 方言支持好 |
快 | ~2万/路/年 | 低 | ** |
备选:faster-whisper 作为 fallback,生态更成熟。如果本地算力不够,考虑腾讯云 ASR(最便宜的云服务)。
确认每个矩阵账号的 URL,统计各号视频数量。如果参哥能直接提供账号列表最好,否则需要手动搜索整理。
逐个账号执行下载,去水印存储。SQLite 记录下载进度,支持中断续传。小红书和视频号作为补充渠道同步进行。
ffmpeg -i video.mp4 -vn -acodec pcm_s16le -ar 16000 -ac 1 audio.wav。批量脚本处理,统一格式为 16kHz 单声道 WAV。
部署 FunASR 服务端,批量提交音频文件。输出带时间戳的文本。3000 个视频(平均 1 分钟)约需 4.5 小时(FunASR)或 2-3 天(Whisper CPU)。
跨平台去重(同一内容在抖音/小红书/视频号发布)。去口水词、标注来源平台和时间。建立统一的文本语料库。
用 Claude API 对每段转录做摘要和打标签。聚类成 20-30 个主题簇。提取金句和案例。
参哥定义书籍框架 → 系统自动匹配素材 → AI 生成初稿 → 参哥在线审阅修改。持续迭代直到成稿。
| 项目 | 方案 | 估算成本 | 备注 |
|---|---|---|---|
| 视频下载 | douyin-downloader (开源) | 0 元 | 使用现有 VPS 带宽 |
| 语音转文字 | FunASR Paraformer (本地) | 0 元 | 使用现有 VPS 算力 |
| 语音转文字(备选) | 腾讯云 ASR | ~150 元 | 3000条 x 1分钟 = 50小时,按 3元/h |
| LLM 分类打标 | Claude API | ~200-500 元 | 3000条摘要 + 分类 |
| AI 生成书稿 | Claude API | ~300-800 元 | 多轮迭代生成 |
| 服务器 | 现有 VPS | 0 元(已有) | 16C/32G 新加坡节点 |
| 存储 | 现有 VPS 磁盘 | 0 元 | 3000视频约 100-200GB |
| 阶段 | 时间 | 任务 | 负责 |
|---|---|---|---|
| 第1周 | Day 1-2 |
账号清单整理 + 下载工具部署 |
VPS CC |
| Day 2-5 |
批量视频下载(抖音为主) |
VPS CC (自动) | |
| Day 5-7 |
FunASR 部署 + 批量转录 |
VPS CC | |
| 第2周 | Day 8-10 |
文本去重清洗 + LLM 分类打标 |
VPS CC |
| Day 10-14 |
语料库建设 + 向量化索引 |
VPS CC | |
| 第3-4周 | Day 15-28 |
书稿工作台 Web App 开发 |
VPS CC |
| 第5周起 | 持续 |
参哥审阅 + AI 迭代生成书稿 |
参哥 + AI |
参哥能否直接提供视频文件或账号访问权限?这是最安全高效的路径。如果不行,则用开源工具爬取。
参哥的 10+ 矩阵号,具体哪些需要纳入素材库?是否有未公开的账号?需要参哥团队提供完整列表。
书的框架由参哥定还是 AI 先提建议?他每周能投入多少时间做审阅和修改?这决定了项目节奏。
参哥已有的框架是什么?能否先发过来,好让系统直接基于它匹配素材和生成内容?
同一个话题在不同视频中反复出现时,保留最完整的版本还是合并所有版本?需要定规则。
部分视频内容涉及"伪成功学"争议。出书时需要审核内容合规性,避免出版风险。