|
|
|
# 39健康网症状信息爬取
|
|
|
|
|
|
|
|
## 网站描述
|
|
|
|
|
|
|
|
http://jbk.39.net/
|
|
|
|
|
|
|
|
39健康网是一个医疗信息百科网站,主要有疾病、症状、检查、手术、药品五类信息。
|
|
|
|
|
|
|
|
前四类信息都可以通过科室或部位查找。
|
|
|
|
|
|
|
|
需要注意的是,网站最多返回100页结果,也就是说,最好以最小范围的检索词来遍历,比如不限科室或者不限部位均返回100页结果,然而并不是全部的结果。
|
|
|
|
|
|
|
|
药品信息在同系列的另一网站
|
|
|
|
|
|
|
|
http://ypk.39.net/
|
|
|
|
|
|
|
|
## 采集需求与数据格式
|
|
|
|
|
|
|
|
数据格式均为json格式。对于某个症状的页面,我们需要以下信息:
|
|
|
|
|
|
|
|
- 综述标签中的
|
|
|
|
- 症状名称、简介
|
|
|
|
- 具体种类或是上级症状&相似症状(可在【检查鉴别】标签页中补充)
|
|
|
|
- 症状起因标签中的症状起因(长文本)和可能疾病(可能会有多页,但在源码中在一个tbody里)
|
|
|
|
- 诊断详述标签中的诊断详述(长文本)和对症药品(同上)
|
|
|
|
- 检查鉴别标签中的常见检查
|
|
|
|
- 就诊指南标签中的长文本
|
|
|
|
|
|
|
|
### 症状数据格式
|
|
|
|
|
|
|
|
```javascript
|
|
|
|
[
|
|
|
|
{
|
|
|
|
类型: "症状",
|
|
|
|
网址: "http://xxx...",
|
|
|
|
名称: "xx",
|
|
|
|
简介: "xxx",
|
|
|
|
属性: {
|
|
|
|
症状起因: "",
|
|
|
|
诊断详述: "",
|
|
|
|
就诊指南: "",
|
|
|
|
},
|
|
|
|
可能疾病: [
|
|
|
|
{名称: "aaa", 网址: ""},
|
|
|
|
{名称: "bbb", 网址: ""},
|
|
|
|
...
|
|
|
|
],
|
|
|
|
对症药品: [
|
|
|
|
{名称: "ccc", 网址: ""},
|
|
|
|
{名称: "ddd", 网址: ""},
|
|
|
|
...
|
|
|
|
],
|
|
|
|
常见检查: [
|
|
|
|
{名称: "eee", 网址: ""},
|
|
|
|
{名称: "fff", 网址: ""},
|
|
|
|
...
|
|
|
|
],
|
|
|
|
//具体种类 和 上级症状&相似症状 一般只有其中一组,根据综述标签中的xx分类的情况
|
|
|
|
具体种类: [
|
|
|
|
{名称: "aaa", 网址: ""},
|
|
|
|
{名称: "bbb", 网址: ""},
|
|
|
|
...
|
|
|
|
],
|
|
|
|
上级症状:{},
|
|
|
|
相似症状: [
|
|
|
|
{名称: "aaa", 网址: ""},
|
|
|
|
{名称: "bbb", 网址: ""},
|
|
|
|
...
|
|
|
|
]
|
|
|
|
}
|
|
|
|
]
|
|
|
|
```
|
|
|
|
|
|
|
|
## 评分标准
|
|
|
|
* 采集到100个页面的全部域:1分
|
|
|
|
* 采集到网站全部页面:2分 |
|
|
|
\ No newline at end of file |