上海期货交易所网站爬虫技术研究中心发布的数据显示,截至9月30日,今年以来全国共有7家期货公司上市,合计募集资金规模达43.6亿元。其中,华泰期货、、中原期货、方正中期、东吴期货、国泰君安期货、中金公司旗下的中金所衍生品业务分别位列之一、第二、第三、第四、第五位。值得注意的的是,上述6家券商旗下的衍生品业务在今年前三季度实现营业收入合计达到11.4亿元,占总营业收入的比重达到40.6%。
上海能源网,也有称上海能源交易所、上海能源有限公司、上海能源科技发展有限公司和上海能源官网。上海能源官网(www.ine.cn)隶属于上海国际能源交易中心股份有限公司,是一个经中国 *** 批准,由上海期货交易所发起设立面向期货市场参与者的国际交易场所网站平台。上海能源官网为用户提供期货、期权、指数和ISIN编码等服务。
点及财经,股票期货专业投机者。
前言好久没有跟大家分享爬虫了,本期准备带大家爬取生意社上面的期货基差数据。
这个网站反爬并不严重,大部分是靠ip访问频率来限制,但封了之后过段时间又能访问了,并没有禁止你本机的ip永久不能访问。
安装以下包:
Python金融爬虫之生意社期货“基差”数据实战!爬取数据的之一步是分析所爬取数据的url构造,观察其有什么规律,然后再通过requests库去发送get请求,并通过正则、xpath等等进行数据的提取。
1.设置随机请求头。
如下图所示:
其中:
(1)header["User_Agent"],设置的随机请求头,每次调用都随机抽取不同"User_Agent"来进行访问,可以避免网站请求头反爬。
2.根据请求网址结构,构造日期列表。
当我们点击下图中的搜索按钮后,网址栏的url上面就出现了搜索的具体日期,所以
如下图所示:
如下图所示:
run:
构造后的url。
如下图示:
3.爬取数据。
这里需要配置
启动爬虫:
run:
(1)基差数据推送。
(2)抓取的数据。
最后本期就主要给大家分享了一个简单的爬虫案例,爬取过程中可能会出现ip访问频繁的问题,建议读者在请求里增加 *** ,这样就不会被封ip。
如果需要源码,
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:goldenhorseconnect@gmail.com