|
|
|
## 网站描述
|
|
|
|
[知乎](https://www.zhihu.com)是一个社交化问答社区,允许用户分享彼此的知识、经验和见解,同时可以关注兴趣一致的人。本实验的目标是[知乎专栏](https://zhuanlan.zhihu.com)数据的采集。
|
|
|
|
|
|
|
|
以下是某个专栏及专栏文章的示例:
|
|
|
|
![image](uploads/f171aca2b7b199ce9e1b7b95ea1d261a/image.png)
|
|
|
|
|
|
|
|
## 数据格式
|
|
|
|
采集得到的数据要求为`json`格式,要求的字段及描述如下:
|
|
|
|
```javascript
|
|
|
|
[
|
|
|
|
{
|
|
|
|
"title": "王喆的机器学习笔记", // 专栏title
|
|
|
|
"description": "关注推荐系统、计算广告等...",
|
|
|
|
"followers": [
|
|
|
|
"https://www.zhihu.com/people/chen-yu-feng-72",
|
|
|
|
...
|
|
|
|
]
|
|
|
|
"article": [ // 专栏文章
|
|
|
|
{
|
|
|
|
"url": "https://zhuanlan.zhihu.com/p/51117616",
|
|
|
|
"userName": "王喆", // 用户名
|
|
|
|
"userLink": "https://www.zhihu.com/people/wang-zhe-58", // 用户主页URL
|
|
|
|
"content": "<p>写这个专栏...", // 文章
|
|
|
|
"upvote": "155", // 点赞数
|
|
|
|
"topic": [ // 标签
|
|
|
|
{
|
|
|
|
"tag": "机器学习", // 标签名
|
|
|
|
"tagLink": "https://www.zhihu.com/topic/19559450" // 标签URL
|
|
|
|
},
|
|
|
|
...
|
|
|
|
],
|
|
|
|
"comments": [ // 文章对应的评论
|
|
|
|
{
|
|
|
|
"userName": "钱逸", // 用户名
|
|
|
|
"userLink": "https://www.zhihu.com/people/qian2009", // 用户主页URL
|
|
|
|
"content": "不错...", // 用户评论内容
|
|
|
|
"likes": "0" // 赞同数
|
|
|
|
},
|
|
|
|
...
|
|
|
|
]
|
|
|
|
},
|
|
|
|
...
|
|
|
|
]
|
|
|
|
},
|
|
|
|
...
|
|
|
|
]
|
|
|
|
```
|
|
|
|
|
|
|
|
## 评分标准
|
|
|
|
* 采集到500个专栏及其文章的数据
|
|
|
|
* 采集到所有专栏URL的列表及其对应的标签 |