Skip to content
GitLab
  • Menu
    • Projects Groups Snippets
      Help
Projects Groups Snippets
  • /
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
  • Sign in / Register
  • D data-specification
  • Project information
    • Project information
    • Activity
    • Labels
    • Members
  • Issues 0
    • Issues 0
    • List
    • Boards
    • Service Desk
    • Milestones
  • Packages & Registries
    • Packages & Registries
    • Package Registry
    • Infrastructure Registry
  • Monitor
    • Monitor
    • Incidents
  • Analytics
    • Analytics
    • Value stream
  • Wiki
    • Wiki
  • Snippets
    • Snippets
  • Activity
  • Create a new issue
  • Issue Boards
Collapse sidebar
  • Yu Yin
  • data-specification
  • Wiki
  • coursera

coursera · Changes

Page history
Create coursera authored 5 years ago by Yu Yin's avatar Yu Yin
Show whitespace changes
Inline Side-by-side
Showing
with 61 additions and 0 deletions
+61 -0
coursera.md 0 → 100644
View page @ de41063a
# Coursera 数据采集需求
## 网站描述
Coursera 是一个在线学习网站,网站上有大量的课程视频。为了保持学生注意力,很多视频中间会设置一道或几道练习题。如下例子:
这是机器学习课程中的一个视频,可以看到视频进度条上有一个黄色块:
![image](uploads/f89858805c4df316376b796c369237dd/image.png)
当视频播放到色块的位置时,视频上方会跳出一道题目:
![image](uploads/122c11c0653a896ab67ba3af39f6e9e9/image.png)
通过尝试可以得到正确答案及其解释:
![image](uploads/e490cabdde536598f0f06ec29bffd67c/image.png)
我们的目标就是爬取该网站教学视频中间的练习题的位置、题目、选项、答案和解析。
## 采集需求
由于网站需要注册、登陆、登记参加课程,才能访问每个视频,采集时不要求自动加入所有课程,只需要爬取一门课程的全部视频间习题即可。具体而言,需要自己注册一个账户、并加入 [machine learning 课程](https://www.coursera.org/learn/machine-learning/home/welcome),只需将该课程十一周共几十个视频的视频间习题的相关信息采集得到。
## 数据格式
采集得到的数据要求为 json 格式,要求的字段及描述如下:
```javascript
[
{
videoId: "...", // 视频id
questions: [ // 视频间习题列表
{
id: "48c58d91e8b4ba69e855527382fd0024" // 习题id
type: "mcq", // 习题类型,如 mcq 表示单选题
definition: "Suppose a friend ...", // 题面
options: [
{
id: "dccf33328b0e92882b98ad16cd4a7680", // 选项 ID
content: "A is $$\\alpha=0.1$$, B is ..." // 选项内容
},
...
],
answer: ["dccf33328b0e92882b98ad16cd4a7680"], // 答案,和选项 ID 对应,多选题可为列表
explanation: "In graph C, the cost function ...", // 答案解释
videoCuePoint: 411800 // 在视频中的位置 (ms)
},
...
]
},
...
]
```
## 评分标准
* 采集到该课程全部视频间习题的内容、选项:1分
* 在上面的基础上采集到习题在视频中的位置:2分
* 在上面的基础上采集到答案和解析:3分
## 提示
收集页面向服务器发送的请求,从中分析哪些请求可用于直接获取习题和答案。
\ No newline at end of file
Clone repository
  • 39健康网 手术
  • 39健康网 检查
  • 39健康网 疾病
  • 39健康网 症状
  • 39健康网 药品
  • Coursera 视频间习题2
  • KDD 接收论文信息
  • LeetCode 中文讨论
  • LeetCode 中文试题
  • LeetCode 讨论
  • LeetCode 试题
  • Leetcode 题解
  • coursera
  • Home
  • 中国裁判文书网
View All Pages

Menu

Projects Groups Snippets
Help