参哥出书项目

素材采集 & 技术方案调研报告

2026-03-07 更新 | VPS CC 调研输出

1 项目总览

海量短视频
~3000+条
批量下载
各平台
语音转文字
ASR
分类打标
LLM
生成书稿
AI+人工
700W+
全网粉丝(矩阵)
5000-8000
估算视频总量(含跨平台重复)
10+
矩阵账号数

执行进展(实时更新)

3,939
已采集视频元数据
7
已完成抖音账号
8
小红书账号(244条笔记)

抖音视频清单采集 已完成

2026-03-07

通过抖音 Web API + Cookie 认证,逐账号分页抓取全部视频元数据(标题、发布时间、时长、点赞/评论/分享/播放数)。

账号 视频数 时间跨度 最高赞视频
纯然商业-运准 815 2023-01-22 ~ 2023-03-07 小杨哥现在如此成功... 17.7万赞
参哥本参-运准 776 2023-01-01 ~ 2023-02-18 (无标题)4.1万赞
参哥带你走天下-雪兮 750 2024-05-29 ~ 2024-06-24 18年的从商人生积累的认知... 17万赞
参哥(日常号)耀闫 624 2024-03-15 ~ 2024-07-12 (无标题)1.1万赞
参哥认知圈诗亿 435 2023-02-11 ~ 2024-08-09 95后健身博主沈凌峰专访... 45.9万赞
参哥(直播号) 305 2023-04-08 ~ 2026-03-06 我为什么这么懂变现... 9713赞
参哥思维圈 234 2023-04-16 ~ 2024-07-26 宠物赛道盈利千万的模式... 7994赞
合计 3,939 2023-01 ~ 2026-03
数据说明:已获取每条视频的 aweme_id、标题、发布时间、时长、点赞/评论/分享/播放数。数据文件存储在 VPS /root/Projects/douyin-downloader/video_lists/ 目录下。由于抖音搜索屏蔽参哥相关关键词,所有账号 URL 均由用户手动从 App 中分享获取。

小红书笔记清单采集 已完成(首页)

2026-03-07

通过浏览器端脚本提取 __INITIAL_STATE__ 数据,获取 8 个账号的用户资料和首屏笔记列表。小红书反爬严格(VPS IP 被封、API 需专有签名),采用浏览器内执行方案绕过限制。

账号 粉丝 获赞与收藏 已采集笔记
参哥带你聊商业(主号) 9.3万 28.7万 32
参哥认知圈 3万 13.9万 31
参哥金尚商业 1.2万 6万 30
参哥(直播号) 1万 3.5万 31
参哥(没有废话) 3406 7184 30
参哥商业论 1760 6108 30
参哥走天下 740 2109 30
参哥带你看世界 32 15 30
合计 15万+ 53.7万 244
说明:当前采集到每个账号首屏约 30 条笔记(小红书 API 分页需要专有签名 x-s/x-t,暂未突破)。实际每个账号的笔记总量可能更多。用户资料(粉丝数、获赞数)已完整获取。后续可通过 XHS-Downloader 工具在本地补全全量数据。

自动流水线状态

最后更新: 2026-03-07 08:09:51
视频下载 3524/3939 (120.0GB)
音频提取 0/0
语音转文字 (ASR) 0/0

整体项目进度

Step 1: 账号清单整理 100%
Step 1.5: 视频元数据采集(抖音) 100%
Step 1.5: 笔记元数据采集(小红书) 80%
Step 2: 视频文件批量下载 0%
Step 3-7: ASR / 分类 / 书稿 0%

2 参哥各平台账号摸底

基本信息

平台 主要账号 粉丝量 内容量估算 状态
抖音 参哥认知圈(主号)
参哥带你走天下、参哥本参、参哥亿万圈、
参哥思维圈、参校长不讲废话、私域参校长、
纯然商业、金尚商业说 等 10+ 号
主号 294万
矩阵合计约 700万-1000万
估计 3000-5000 条
10+号 x 4年+ x 高频更新
受限
2023.8 主号封禁
2024.3 搜索屏蔽
矩阵号仍在更新
小红书 参哥带你聊商业(主号)
参哥认知圈、参哥金尚商业、参哥(直播号)、
参哥(没有废话)、参哥走天下、参哥商业论、
参哥带你看世界 等 8 号
主号 9.3万
矩阵合计约 15万
已采集 244 条
首屏数据,实际更多
正常
视频号 参哥(矩阵号存在) 待确认 数百条 正常
B站/快手/YouTube 未找到官方账号 - -
注意:参哥的抖音主号在 2023-2024 年受到平台"厚黑学/伪成功学"专项治理的影响,搜索被屏蔽,但矩阵号和已发布视频仍可访问和下载。素材获取的时间窗口可能有限,建议尽快行动。

3 抖音视频批量导出方案

抖音是参哥内容的主阵地,约占总素材量的 70%+。以下是经过调研验证的导出方案:

douyin-downloader (jiji262)

推荐
  • 支持整个用户主页批量下载
  • 去水印下载,支持视频/图集/合集/音乐
  • SQLite 去重,断点续传
  • 自动获取 Cookie(--auto-cookie)
  • 进度显示 + 自动重试
  • 2025年仍活跃维护
免费开源 Python GitHub 高星

python downloader.py --auto-cookie -u "https://www.douyin.com/user/xxxxx"

F2 (Johnserf-Seed)

  • 多平台支持:抖音/TikTok/微博/Twitter
  • 命令行 + API 双模式
  • 支持批量下载博主视频
  • 文档完善(f2.wiki)
  • Python 3.8+ 即可运行
免费开源 Python

Chrome 浏览器插件

  • 抖晓晓 - 全自动批量下载(2025.9更新)
  • 阿抖 - 博主所有视频一键下载
  • 抖音视频下载助手(2025.4更新)
  • 操作简单,适合非技术用户
免费 非编程

Douyin_TikTok_Download_API

  • Evil0ctal 开发,Web 界面
  • 支持批量解析+下载
  • 抖音/TikTok 混合解析
  • 可部署为在线服务
免费开源 Python
建议方案:使用 jiji262/douyin-downloader 作为主力工具。在这台 VPS 上直接运行,--auto-cookie 自动获取登录态,支持断点续传和去重。预计下载 2000-3000 个视频需要 1-2 天(取决于网络和限速策略)。需要注意控制请求频率,避免触发反爬。
法律风险提示:爬虫下载视频存在法律灰色地带。建议:1) 仅用于个人出书素材整理;2) 如参哥本人能提供账号访问权限或直接导出,为最优路径;3) 避免传播下载的视频文件。

4 小红书 & 视频号导出方案

小红书导出

工具特点状态
XHS-Downloader 提取账号所有发布/收藏/点赞作品,去水印下载,SQLite去重 可用
MediaCrawler 多平台爬虫(含小红书),27K+ Star,支持评论采集 需维护
XHS-Spider 图片/视频批量下载,GUI 界面 可用

小红书反爬较强,MediaCrawler 2025年有用户报告风控问题。XHS-Downloader 通过浏览器脚本联动,稳定性更好。

微信视频号导出

工具特点状态
res-downloader 网络资源嗅探,支持视频号/抖音/快手/小红书,10K+ Star 可用
wx_channels_download 自动化 Chrome 控制,支持直播回放 需更新
视频号下载助手 自动监听+手动下载两种模式 可用
难度较高:视频号没有公开视频链接,需要通过抓包/嗅探方式获取。微信频繁更新加密方式,工具经常失效。建议作为补充渠道,非主力。
优先级建议:抖音(主力,70%素材)→ 小红书(补充,20%素材)→ 视频号(最后,10%素材)。抖音和小红书的内容可能有大量重叠,需在转录后做去重。

5 语音转文字 (ASR) 方案对比

方案 中文准确率 速度 成本 部署难度 推荐度
FunASR Paraformer
阿里达摩院开源
极高
专为中文训练
极快
比 Whisper 快 12x
RTF=0.009
免费
本地部署
中等
Python + GPU
*****
Whisper large-v3
OpenAI 开源

多语言模型
较慢
需 GPU
免费
本地部署

生态成熟
****
faster-whisper
CTranslate2 优化

同 Whisper

比原版快 4x
免费
本地部署
****
WhisperX
VAD + 批量优化

VAD 预分段
免费 中等 ****
腾讯云 ASR
录音文件识别

云端并发
~2.3元/h
预付 1500元/年(1000h)

API 调用
***
阿里云语音识别
智能语音交互 2.0
~3.5元/h
免费额度 2h/天
***
科大讯飞
实时语音转写
极高
方言支持好
~2万/路/年 **

推荐方案:FunASR Paraformer(本地部署)

最优选

备选:faster-whisper 作为 fallback,生态更成熟。如果本地算力不够,考虑腾讯云 ASR(最便宜的云服务)。

6 完整执行流水线

Step 1 - 账号清单

梳理参哥所有账号的视频列表

确认每个矩阵账号的 URL,统计各号视频数量。如果参哥能直接提供账号列表最好,否则需要手动搜索整理。

Step 2 - 批量下载

使用 douyin-downloader 批量抓取

逐个账号执行下载,去水印存储。SQLite 记录下载进度,支持中断续传。小红书和视频号作为补充渠道同步进行。

Step 3 - 音频提取

从视频中提取音频(ffmpeg)

ffmpeg -i video.mp4 -vn -acodec pcm_s16le -ar 16000 -ac 1 audio.wav。批量脚本处理,统一格式为 16kHz 单声道 WAV。

Step 4 - 语音转文字

FunASR Paraformer 批量转录

部署 FunASR 服务端,批量提交音频文件。输出带时间戳的文本。3000 个视频(平均 1 分钟)约需 4.5 小时(FunASR)或 2-3 天(Whisper CPU)。

Step 5 - 去重清洗

文本去重 + 基础清洗

跨平台去重(同一内容在抖音/小红书/视频号发布)。去口水词、标注来源平台和时间。建立统一的文本语料库。

Step 6 - 分类打标

LLM 批量摘要 + 打标签 + 聚类

用 Claude API 对每段转录做摘要和打标签。聚类成 20-30 个主题簇。提取金句和案例。

Step 7 - 写书工作台

搭建在线工作台

参哥定义书籍框架 → 系统自动匹配素材 → AI 生成初稿 → 参哥在线审阅修改。持续迭代直到成稿。

7 成本估算

项目 方案 估算成本 备注
视频下载 douyin-downloader (开源) 0 元 使用现有 VPS 带宽
语音转文字 FunASR Paraformer (本地) 0 元 使用现有 VPS 算力
语音转文字(备选) 腾讯云 ASR ~150 元 3000条 x 1分钟 = 50小时,按 3元/h
LLM 分类打标 Claude API ~200-500 元 3000条摘要 + 分类
AI 生成书稿 Claude API ~300-800 元 多轮迭代生成
服务器 现有 VPS 0 元(已有) 16C/32G 新加坡节点
存储 现有 VPS 磁盘 0 元 3000视频约 100-200GB
总预算:500 ~ 1,300 元
主要花费在 Claude API 调用上 | 核心工具全部免费开源 | 可进一步压缩

8 执行时间线

阶段 时间 任务 负责
第1周 Day 1-2 账号清单整理 + 下载工具部署
VPS CC
Day 2-5 批量视频下载(抖音为主)
VPS CC (自动)
Day 5-7 FunASR 部署 + 批量转录
VPS CC
第2周 Day 8-10 文本去重清洗 + LLM 分类打标
VPS CC
Day 10-14 语料库建设 + 向量化索引
VPS CC
第3-4周 Day 15-28 书稿工作台 Web App 开发
VPS CC
第5周起 持续 参哥审阅 + AI 迭代生成书稿
参哥 + AI

9 待确认的关键决策

1. 素材获取方式

参哥能否直接提供视频文件或账号访问权限?这是最安全高效的路径。如果不行,则用开源工具爬取。

最优:参哥直接导出 备选:爬虫抓取

2. 矩阵账号确认

参哥的 10+ 矩阵号,具体哪些需要纳入素材库?是否有未公开的账号?需要参哥团队提供完整列表。

3. 参哥参与度

书的框架由参哥定还是 AI 先提建议?他每周能投入多少时间做审阅和修改?这决定了项目节奏。

4. 书的框架

参哥已有的框架是什么?能否先发过来,好让系统直接基于它匹配素材和生成内容?

5. 内容去重策略

同一个话题在不同视频中反复出现时,保留最完整的版本还是合并所有版本?需要定规则。

6. 出版合规

部分视频内容涉及"伪成功学"争议。出书时需要审核内容合规性,避免出版风险。

下一步:确认以上决策后,VPS CC 可以立即开始执行第1周的任务(部署下载工具 + 开始批量下载)。技术侧已经 ready,等你确认启动。