D

data-specification

开放实验要求

实验细则

  1. 开放实验由下表中列出的各项爬虫实验组成。每项实验可增加不超过3分的总评分数,具体要求和评分标准在每项实验说明中详细写明。
  2. 每项实验均要求单人独立完成,在规定时间内按要求提交。每个人最多只能获得一项实验的分数,如有完成困难的情况可主动退出选择其他实验(注意:每主动退出一次,可获得的总分上限 -1)。实验通过填写在线表格进行申请,先到先得,分配方案更新后在群内确认通过。
  3. 每项实验按照难度划分梯度,可以只完成部分要求、按标准得到部分分数。
  4. 实验最终需要按照每项实验的数据格式要求提交采集到的数据,并将代码上传至github、提交代码链接。提交发送至课程邮箱。
  5. 每项实验有时间限制,以规定时间前最后一次提交为准。时间截止或主动退出时,如果没有完成全部要求,该题目将重新开放允许他人再次申请。注意:重新开放后再次选择的同学要求超过前一个同学的完成程度。
  6. 允许借助网络资源,但如出现同学之间相互抄袭的情况,抄袭者和被抄袭者成绩均自动作废。

实验内容

第一批

序号 任务 最大总分 时限 分配
1 39健康网 手术 2 15d x
2 39健康网 检查 2 15d x
3 39健康网 疾病 2 15d x
4 39健康网 症状 2 15d
5 39健康网 药品 2 15d
6 快速问医生 疾病 2 15d
7 快速问医生 手术 2 15d
8 快速问医生 检查 2 15d
9 快速问医生 症状 2 15d x
10 快速问医生 药品 2 15d
11 Coursera 视频间习题 3 20d
12 优酷弹幕 2 15d
13 儿童失踪信息 2 15d
14 微博 3 20d
15 豆瓣 书评 3 20d
16 豆瓣 影评 3 20d
17 豆瓣 乐评 3 20d
18 豆瓣 用户 3 20d
19 知乎 回答 3 20d
20 知乎 专栏 3 20d
21 知乎 用户 2 15d
22 美团 3 20d
23 LeetCode 试题 2 15d
24 LeetCode 讨论 3 20d
25 LeetCode 中文试题 2 15d
26 LeetCode 中文讨论 3 20d

第二批

序号 任务 最大总分 时限 分配
1 中国裁判文书网 3 20d
2 中文词典 3 20d
3 英文词典 3 20d
4 Coursera 视频间习题2 3 20d
5 学术报告 2 15d
6 门诊专家 2 15d
7 Leetcode 题解 3 20d
8 KDD 接收论文信息 2 15d
9 基金 3 20d
10 知乎 用户 2 15d
11 39健康网 手术 2 15d
12 39健康网 检查 2 15d
13 39健康网 疾病 2 15d
14 快速问医生 症状 2 15d