Skip to content
GitLab
  • Menu
    • Projects Groups Snippets
      Help
Projects Groups Snippets
  • /
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
  • Sign in / Register
  • D data-specification
  • Project information
    • Project information
    • Activity
    • Labels
    • Members
  • Issues 0
    • Issues 0
    • List
    • Boards
    • Service Desk
    • Milestones
  • Packages & Registries
    • Packages & Registries
    • Package Registry
    • Infrastructure Registry
  • Monitor
    • Monitor
    • Incidents
  • Analytics
    • Analytics
    • Value stream
  • Wiki
    • Wiki
  • Snippets
    • Snippets
  • Activity
  • Create a new issue
  • Issue Boards
Collapse sidebar
  • Yu Yin
  • data-specification
  • Wiki
  • 微博

微博 · Changes

Page history
Create 微博 authored 5 years ago by Yu Yin's avatar Yu Yin
Hide whitespace changes
Inline Side-by-side
Showing
with 49 additions and 0 deletions
+49 -0
微博.md 0 → 100644
View page @ 14fc6318
# 微博采集需求
## 采集需求
我们的任务要求采集大V列表,并且给定一个微博大V,要求采集ta所拥有粉丝的列表以及他们指定时间段内的所有微博。
## 数据格式
采集得到的数据要求为 json 格式,要求的字段及描述如下:
```javascript
// user
[
{
user_id: "", // 用户的 ID
nick_name: "", // 昵称
province: "", // 所在省
city: "", // 所在市
intro: "", // 个人简介
birthday: "", // 生日
gender: "", // 性别
weibo_num: 0, // 微博发表数
fans: [
// 粉丝用户 id 列表
],
followers: [
// 关注用户 id 列表
]
},
...
]
// weibo
[
{
weibo_url: "", // 这条微博的 URL
user_id: "", // 这则微博作者的ID
content: "", // 微博的内容
image_group: [], // 微博附带图的URL
tool: "", // 发布的工具
created_at: "", // 微博发表时间
repost_num: 0, // 转发数
comment_num: 0, // 评论数
like_num: 0, // 点赞数
repost_weibo_url: "" // 如果是转发,源微博的 URL
},
...
]
```
## 评分标准
* 采集到500个大V及其关注者列表(user 表):1分
* 采集到这些关注者最近1小时内的全部微博(weibo 表):2分
* 编写或利用现有的爬虫框架进行多线程采集和持续更新:3分
Clone repository
  • 39健康网 手术
  • 39健康网 检查
  • 39健康网 疾病
  • 39健康网 症状
  • 39健康网 药品
  • Coursera 视频间习题2
  • KDD 接收论文信息
  • LeetCode 中文讨论
  • LeetCode 中文试题
  • LeetCode 讨论
  • LeetCode 试题
  • Leetcode 题解
  • coursera
  • Home
  • 中国裁判文书网
View All Pages

Menu

Projects Groups Snippets
Help