... | @@ -2,10 +2,42 @@ |
... | @@ -2,10 +2,42 @@ |
|
[知乎](https://www.zhihu.com)是一个社交化问答社区,允许用户分享彼此的知识、经验和见解,同时可以关注兴趣一致的人。本实验的目标是知乎问题及其回答数据的采集。
|
|
[知乎](https://www.zhihu.com)是一个社交化问答社区,允许用户分享彼此的知识、经验和见解,同时可以关注兴趣一致的人。本实验的目标是知乎问题及其回答数据的采集。
|
|
|
|
|
|
以下是某个问题及其回答数据的示例:
|
|
以下是某个问题及其回答数据的示例:
|
|
![image](uploads/cf00fb229d3b13d26039c24581cb3ab8/image.png)
|
|
![image](uploads/f096ce6437177aff7691238f30e6f04c/image.png)
|
|
|
|
|
|
## 数据格式
|
|
## 数据格式
|
|
采集得到的数据要求为`json`格式,要求的字段及描述如下:
|
|
采集得到的数据要求为`json`格式,要求的字段及描述如下:
|
|
```javascript
|
|
```javascript
|
|
|
|
[
|
|
|
|
{
|
|
|
|
"title": "你都用 Python 来做什么?", // 问题title
|
|
|
|
"topics": [ // 问题标签
|
|
|
|
{
|
|
|
|
"tag": "编程语言", // 标签名称
|
|
|
|
"tagLink": "https://www.zhihu.com/topic/19552826" // 标签URL
|
|
|
|
},
|
|
|
|
...
|
|
|
|
],
|
|
|
|
"answers": [ // 问题对应回答
|
|
|
|
{
|
|
|
|
"userName": "Alfred数据室", // 用户名
|
|
|
|
"userLink": "https://www.zhihu.com/people/Alfred_Lab", // 用户主页URL
|
|
|
|
"content": "<b>多图,请确保在Wi-Fi环境下点开!</b>...", // 用户回答
|
|
|
|
"upvote": "6.4k", // 点赞数
|
|
|
|
"comments": [ // 回答对应的评论
|
|
|
|
{
|
|
|
|
"userName": "Ericaaaaaaa", // 用户名
|
|
|
|
"userLink": "https://www.zhihu.com/people/yi-yi-65-31", // 用户主页URL
|
|
|
|
"content": "希望答主多出优质内容...", // 用户评论内容
|
|
|
|
"likes": "50" // 赞同数
|
|
|
|
}
|
|
|
|
]
|
|
|
|
},
|
|
|
|
...
|
|
|
|
]
|
|
|
|
}
|
|
|
|
]
|
|
```
|
|
```
|
|
|
|
|
|
|
|
## 评分标准
|
|
|
|
* 采集到500个问题及其回答的数据
|
|
|
|
* 采集到所有问题标签的列表? |