Python爬取全国各地区疫情风险等级 需求 通过爬虫取得国家官网各地区疫情风险等级,存入电子表格最终如下: 数据来源 http://bmfw.www.gov.cn/yqfxdjcx/risk.html 分析网页 页面结构 上部:有截至时间,有三个按键:高\中\低.点击可以切换中部的信息 中部:风险地区信息 下部:翻页 确定请求方式 因为有翻页按钮,猜想应该是用ajax更新数据 打开F12,点<网络>,清除一下之前的内容,刷新一下 分析请求信息 url=http…
Python爬取全国各地区疫情风险等级 需求 通过爬虫取得国家官网各地区疫情风险等级,存入电子表格最终如下: 数据来源 http://bmfw.www.gov.cn/yqfxdjcx/risk.html 分析网页 页面结构 上部:有截至时间,有三个按键:高\中\低.点击可以切换中部的信息 中部:风险地区信息 下部:翻页 确定请求方式 因为有翻页按钮,猜想应该是用ajax更新数据 打开F12,点<网络>,清除一下之前的内容,刷新一下 分析请求信息 url=http…
df.loc[df.shape[0]] = dict(zip(df.columns, List)) 一行代码搞定
网上各种介绍文章,都没提及如果存放的时间是毫秒而不是秒,那么就需要在转换前,先除以1000 所以重要的是两步: 1、cast 转 int; 2、毫秒转为秒; from_unixtime(cast(BEGIN_TIME/1000 as int),'yyyy-MM-dd HH:mm:ss')
https://zhuanlan.zhihu.com/p/143502208
一、参考日期为当前日期 以当前系统日期作为参考日期,将其转换为统一的天维度yyyyMMdd数据格式。 例如当前日期为2021-01-29 昨天 方式一:date_format(date_sub(current_date(),1), 'yyyyMMdd') select date_format(date_sub(current_date(),1), 'yyyyMMdd') 20210128 方式二:date_format(date_sub(from_unixtime(unix_timestamp(), 'yyyy-M…
df.groupby(['YN','date'],as_index=False).agg('count').sort_values(by ='msisdn',ascending=False).head(3)
报错 : sqlalchemy.exc.ArgumentError: Mapper mapped class DataSet->DataSet could not assemble any primary key columns for mapped table 'DataSet' 解决办法: 在字段定义的下面增加一行:(各字段都放入list) __mapper_args__ = { 'primary_key':[dataSetName, FileName, FileNa…
import pandas as pd import numpy as np file1 = 'all.csv' file2 = 'sa.csv' df1 = pd.read_csv(file1) df2 = pd.read_csv(file2) df3 = pd.concat([df1,df2,df2]).drop_duplicates(keep=False) df3.to_csv('result.csv',index=0)