Skip to content
GitLab
  • Menu
    • Projects Groups Snippets
      Help
Projects Groups Snippets
  • /
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
  • Sign in / Register
  • D data-specification
  • Project information
    • Project information
    • Activity
    • Labels
    • Members
  • Issues 0
    • Issues 0
    • List
    • Boards
    • Service Desk
    • Milestones
  • Packages & Registries
    • Packages & Registries
    • Package Registry
    • Infrastructure Registry
  • Monitor
    • Monitor
    • Incidents
  • Analytics
    • Analytics
    • Value stream
  • Wiki
    • Wiki
  • Snippets
    • Snippets
  • Activity
  • Create a new issue
  • Issue Boards
Collapse sidebar
  • Yu Yin
  • data-specification
  • Wiki
  • 豆瓣 用户

豆瓣 用户 · Changes

Page history
Create 豆瓣 用户 authored 5 years ago by Le Dai's avatar Le Dai
Show whitespace changes
Inline Side-by-side
Showing
with 101 additions and 0 deletions
+101 -0
豆瓣-用户.md 0 → 100644
View page @ 7f3ab4e3
## 网站描述
[豆瓣](https://www.douban.com)是一个社区网站,由用户提供关于书籍、电影、音乐等实体的描述和评论。本实验的目标是采集用户相关的数据。
以下是某用户主页信息:
![image](uploads/457fd85dece16b87ab6f3b040a2c6d66/image.png)
## 采集需求
获得成员喜欢的小站、书籍、电影、关注的人、被谁关注,撰写的日记与评论。
## 数据格式
采集得到的数据要求为`json`格式,要求的字段及描述如下:
[
{
"memberId": "...", // 成员id
"memberURL": "...", // 成员URL
"diary": [ // 成员日记
{
"time": "...", // 时间
"content": "xxxxxx", // 内容
"usefulNumber": "1/1/1", // 点赞收藏转发人数
"remark":[
{
"name": "...", //评论人姓名
"content": "...", //评论内容
},
...
]
},
...
],
"remark": [ // ta的长评
{
"id": "..." // 评论电影
"content": "xxxxxx", // 评论内容
"starNumber": "5", // 标星数
"usefulNumber": "177/9", // 觉得有用的人数/觉得没用的人数
"remark":[
{
"name": "...", //评论人姓名
"content": "...", //评论内容
},
...,
]
},
...,
],
"station": [ // 小站
{
"id": "..." // 评论人
"url": "..." // 小站网址
},
...,
],
"book": [ // 书
{
"id": "...", // 书名
"url": "...", // 书的网址
"condition": "..." //想看/在看/看过
},
...
],
"film": [ // 电影
{
"id": "..." // 电影名
"url": "..." // 电影的网址
"condition": "..." //想看/在看/看过
},
...
],
"music": [ // 音乐
{
"id": "..." // 音乐名
"url": "..." // 音乐的网址
"condition": "..." //想看/在看/看过
},
...
],
"concern":[ // 关注的人
{
"id": "..." // 成员名
"url": "..." // 成员的网址
},
...
],
"concerned":[ // 被关注
{
"id": "..." // 成员名
"url": "..." // 成员的网址
},
...
],
},
...
]
## 评分标准
* 采集到500条包含上述域的数据
*
## 提示
\ No newline at end of file
Clone repository
  • 39健康网 手术
  • 39健康网 检查
  • 39健康网 疾病
  • 39健康网 症状
  • 39健康网 药品
  • Coursera 视频间习题2
  • KDD 接收论文信息
  • LeetCode 中文讨论
  • LeetCode 中文试题
  • LeetCode 讨论
  • LeetCode 试题
  • Leetcode 题解
  • coursera
  • Home
  • 中国裁判文书网
View All Pages

Menu

Projects Groups Snippets
Help