交易所 Level-2 历史行情数据自动化导入攻略

用户部署完 DolphinDB 后,需要将历史股票数据批量导入数据库,再进行数据查询、计算和分析等操作。DolphinDB 开发了 ExchData 模块,主要用于沪深交易所 Level-2 行情原始数据的自动化导入,目前已支持的数据源包括:

  • 沪深 Level-2 快照行情
  • 沪深逐笔委托
  • 沪深逐笔成交
  • 上交所逐笔合并

注意:本教程代码基于 DolphinDB 2.00.11.3 开发,建议用户使用 2.00.11.3 及以上版本 。

1. 模块介绍

ExchData 模块主要包含预加载数据表结构、创建数据库及分区表、导入数据三部分。

1.1 数据表结构

schema 文件夹下的模块是根据本文第二章节中的合并规则整理的数据结构。该文件夹按照数据源格式,包含以下几个模块文件:

  • tradeSchema 用于指定逐笔成交数据存入数据库的数据格式以及 DolphinDB 读取 CSV 文件时的数据格式。
  • orderSchema 用于指定逐笔委托数据存入数据库的数据格式以及 DolphinDB 读取 CSV 文件时的数据格式。
  • snapshotSchema 用于指定 Level-2 快照行情数据存入数据库的数据格式以及 DolphinDB 读取 CSV 文件时的数据格式。
  • tradeOrderSchema 用于 DolphinDB 读取上交所逐笔合并数据的 CSV 文件时的数据格式。

1.2 创建数据库和分区表

数据库和分区表创建可参考 createTB.dos,其用于创建存储交易所数据的分布式库表。根据业务需求,这里对沪深股票 Level-2 高频行情数据采用一库三表的建库建表方案,分区方案如下:

表 1-1 分区方案

表名分区方案分区列排序列
trade时间维度按天分区+交易所 VALUE 分区 + 证券代码维度 HASH 25分区TradeDate、Market、SecurityIDSecurityID 和 TradeTime
order时间维度按天分区 +交易所 VALUE 分区+ 证券代码维度 HASH 25分区TradeDate、Market、SecurityIDSecurityID 和 OrderTime
snapshot时间维度按天分区+交易所 VALUE 分区+ 证券代码维度 HASH 25分区TradeDate、Market、 SecurityIDSecurityID 和 OrigTime

1.3 数据导入

数据导入部分涉及 ExchData 文件夹和 ExchData.dos,作用如下:

  • ExchData 包含了 Order.dos 、Snapshot.dosTrade.dosTradeOrder.dos 三个模块文件,分别用于导入沪深交易所的逐笔委托、行情快照和逐笔成交 Level-2 高频行情数据。
  • ExchData.dos 用于导入指定目录下的所有交易所数据,是对前面所有模块的整合。

下面列出模块中的主要函数 ExchData 的语法和参数介绍。

语法

ExchData(dbName, tbNames, filePath, startDate, endDate, dataTypes, market="ALL", tmpPath=NULL, rowCount=1000000, deleteDuplicate=true, initialTB=false, initialDB=false)

详情

将 fileDir 路径下从 startDate 到 endDate 日期的 dataSource 数据导入 dbName 数据库中的 tableName 表里。

参数

  • dbName  字符串,数据库名称。
  • tbNames 字符串型的向量,分布式表名称。若需要导入逐笔合并数据,需要传入如 [“Order”, “Trade”] 的逐笔成交和逐笔委托表名;若需要导入其他行情数据,只需要传入导入的单一表名即可。
  • filePath 字符串,指定的存放数据的路径,需要确保和第一章的文件结构一致。
  • startDate 字符串,导入数据的起始日期,比如 2022.01.01(包括这一天)。默认值为 NULL,此时从上一个交易日开始导入。
  • endDate 字符串,导入数据的结束日期,比如 2022.12.31(包括这一天)。默认值为 NULL,此时从上一个交易日开始导入。
  • dataTypes 字符串型的向量,导入行情的数据源类型, “Snapshot”, “Order”, “Trade” 三选一或者 [“Order”, “Trade”]。
  • market 字符串,交易所,目前只能 “ALL”, “SZ”, “SH” 三选一。当 market=“ALL” 时,会将沪深的数据全部导入一张名为 tableName 的分布式表;否则,会只导入一个交易所的数据。
  • tmpPath 字符串,指定的临时文件存放路径,用于存放解压后的深交所的中间文件,解压后会将解压的临时文件删除。默认为 NULL,此时不会去解压缩,并基于指定的文件夹去识别数据文件导入数据。
  • rowCount 整数,分段写入的最高数据量。指定后会对 CSV 数据分段写入分布式库表。默认值为 0,此时全量导入数据。
  • deleteDuplicate 布尔值,表示是否需要删除数据库已导入的数据。默认值为 true,此时导入数据前不会删除库表中已存在的数据。
  • initialDB 布尔值,是否需要初始化数据库。如果已经存在名为 dbName 的数据库,当 initialDB=true 时,会删除原来的数据库并重新创建;否则会保留原来的数据库并输出 "[dbName] 数据库已经存在" 的提示。
  • initialTB  布尔值,是否需要初始化分布式表。如果在 dbName 数据库下已经存在名为 tbName 的表,当 initialTB=true 时,会删除原来的表并重新创建;否则会保留原来的表并输出 "数据库 [dbName] 已经存在表 [tbName]" 的提示。

2. 历史股票数据文件结构

在使用本功能模块时,需要准备解压缩后的历史股票数据文件(未解压缩的文件结构见附件),并确保在主目录下创建了对应的文件目录,不同时间段下(见第二章不同数据源的文件说明)的文件结构如下,假设最上层文件夹为 Data 文件夹,Data 文件夹下存放对应上交所(SH)、深交所(SZ)的交易所股票行情原始数据。

Data
└──SH
|   ├── 2015
|   │   └── 20150105
|   │      ├── Entrust.csv
|   │      ├── Snapshot.csv
|   │      └── Tick.csv
|   |      ……    
|   ├── 2020
|   │   └── 20200104
|   │      ├── Entrust.csv
|   │      ├── Snapshot.csv
|   │      └── Tick.csv
|   |      ……    
|   └── 2023
|      └── 20231205
|         ├── Snapshot.csv
|         └── StockTick.csv
|         ……    
└──SZ
    ├── 2016
    │   └── 0506
    │   │   ├── SZL2_ORDER_20160506.TXT
    │   │   ├── SZL2_SNAPSHOT_20160506.TXT
    │   │   ├── SZL2_SNAPSHOTDW_20160506.TXT
    │   │   └── SZL2_TRADE_20160506.TXT
    │   └── 0509
    │       ├── am_hq_order_spot.txt
    │       ├── am_hq_snap_spot.txt
    │       ├── am_hq_trade_spot.txt      
    │       ├── am_snap_level_spot.txt
    │       ├── pm_hq_order_spot.txt
    │       └── pm_hq_trade_spot.txt
    |      ……  

3. 行情数据存储模型设计

ExchData 模块将两个交易所的数据合并为一张表,其中表中的字段是两个交易所数据字段的并集,并新增字段 Market 为分区列用于标识数据来自哪个交易所。

上交所和深交所两个交易所数据的结构不同,且不同时期同一个交易所的数据结构也不同。根据《深圳证券信息有限公司高频增强行情数据服务》和《上海证券交易所历史股票数据接口说明书》,我们整理了两个交易所提供的各个时期的数据结构,最终确定以下述的表结构将数据存入数据库。

3.1 逐笔成交数据

  • 沪深交易所导入逐笔成交数据的源文件

  • 沪深交易所逐笔成交库表结构
字段含义入库字段名入库数据类型上交所字段上交所字段说明深交所字段深交所字段说明
成交日期TradeDateDATE-TradeDate
数据生成时间OrigTimeTIMESTAMP-OrigTime2016 年 5 月 9 日新增
发送时间SendTimeTIMESTAMPSendingTime业务时间20150803093008,精确到百分之一秒自 2021年 4 月 26 日启SendTime
接收时间RecvtimeTIMESTAMP-Recvtime2016 年 5 月9 日新增
入库时间DbtimeTIMESTAMP-Dbtime2016 年 5 月 9 日新增
证券代码SecurityIDSYMBOLSecurityIDSecurityID
成交时间TradeTimeTIMESTAMPTradeTime业务时间 2015112309163002 ,精确到百分之一秒TradeTime
成交价格TradePriceDOUBLETradePricePrice
成交量TradeQtyINTTradeQtyTradeQty
成交金额TradeAmountDOUBLETradeAmount-
买方订单号BuyNoLONGBuyNoBidApplSeqNum
卖方订单号SellNoLONGSellNoOfferApplSeqNum
成交序号TradeIndexINTTradeIndex
频道代码ChannelNoINTChannelNoChannelNo
内外盘标志TradeBSFlagSYMBOLTradeBSFlag内外盘标志: B – 外盘,主动买 S – 内盘,主动卖 N – 未知
业务序列号ApplSeqNumLONGBizIndex业务序列号 与竞价逐笔委托消息合并后 的连续编号,从 1 开始,按Channel 连续ApplSeqNum
成交类别ExecTypeSYMBOL-ExecType4=撤消F=成交
行情类别MDStreamIDSYMBOL-MDStreamIDMDStreamID=0112016 年 5 月 9 日新增
证券代码源SecurityIDSourceSYMBOL-SecurityIDSource102 = 深圳证券交易所2016 年 5 月 9 日新增
交易所名称MarketSYMBOL-取值为SH-取值为SZ

3.2 逐笔委托数据

  • 沪深交易所导入逐笔委托数据的源文件列表

  • 沪深交易所逐笔委托库表结构
字段含义入库字段名入库数据类型上交所字段上交所字段说明深交所字段深交所字段说明
成交日期TradeDateDATETradeDate
数据生成时间OrigTimeTIMESTAMPOrigTime交易所数据生成时间2016年5月9日新增
发送时间SendTimeTIMESTAMPSendTime
接收时间RecvtimeTIMESTAMPRecvtime2016年5月9日新增
入库时间DbtimeTIMESTAMPDbtime2016年5月9日新增
证券代码SecurityIDSYMBOLSecurityIDSecurityID
委托时间OrderTimeTIMESTAMPTransactTime如 20150803093008000 精确到毫秒TransactTime
委托订单号OrderNoINTOrderNo
委托价格(元)OrderPriceDOUBLEPricePrice
委托数量OrderQtyINTBalance剩余的委托数量OrderQty相对于上交所,该字段为总委托数量
已成交的委托数量TradeMoneyINTTradeQty逐笔合并新增字段,用以区分Balance,表明成交的委托数量
买卖标志SideSYMBOLOrderBSFlag对于委托订单: B – 买单 S – 卖单Side1=买,2=卖G=借入,F=借出
订单类别OrderTypeSYMBOLOrdType订单类型A – 新增委托订单D – 删除委托订单,即撤单OrderType1=市价,2=限价,U=本方最优
委托序号OrderIndexINTOrderIndex从 1 开始,按 Channel 连
频道代码ChannelNoINTChannelNo通道ChannelNo证券集代号
业务序列号ApplSeqNumLONGBizIndex业务序列号 与竞价逐笔成交消息合并后的连续编号,从 1 开始,按Channel 连续ApplSeqNum消息ID
行情类别MDStreamIDSYMBOLMDStreamID2016年5月9日新增
证券代码源SecurityIDSourceSYMBOLSecurityIDSource102 = 深圳证券交易所2016年5月9日新增
定价行情约定号ConfirmIDINTConfirmID2016年5月9日新增
联系人ContactorSTRINGContactor2016年5月9日新增
联系方式ContactInfoSTRINGContactInfo2016年5月9日新增
期限ExpirationDaysINTExpirationDays2016年5月9日新增
期限类型ExpirationTypeINTExpirationType2016年5月9日新增
交易所MarketSYMBOL-SH-SZ

3.3 Level-2 快照数据

  • 沪深交易所导入 Level-2 快照数据的源文件列表

  • 沪深交易所 Level-2 快照行情表结构
字段含义入库字段名入库数据类型上交所字段上交所字段说明深交所字段深交所字段说明
成交日期TradeDateDATETradeDate
数据生成时间OrigTimeTIMESTAMPDateTime业务时间 格式如20151123091630OrigTime
发送时间SendTimeTIMESTAMPSendingTime自 2021 年 12 月 1 日启用SendTime
接收时间RecvtimeTIMESTAMPRecvtime
入库时间DbtimeTIMESTAMPDbtime
行情类别MDStreamIDSYMBOLMDStreamID
证券代码SecurityIDSYMBOLSecurityIDSecurityID
交易状态TradeStatusSYMBOLInstrumentStatusINIT 启动时段 PCALL 集中撮合时段 POSMT 连续交易时段 ENDPT 闭市时段 POSSP 停牌
快照类型NumImageStatusINTNumImageStatus1: 全量 2: 增量 自 2021 年12 月 1 日启用
频道代码ChannelNoINTChannelNo
证券代码源SecurityIDSourceSYMBOLSecurityIDSource102 = 深圳证券交易所
昨收价PreClosePxDOUBLEPreClosePxPreClosePx
开盘价OpenPxDOUBLEOpenPxOpenPx
最高价HighPxDOUBLEHighPxHighPx
最低价LowPxDOUBLELowPxLowPx
最新价LastPxDOUBLELastPxLastPx
均价AvgPxDOUBLEAvgPx自 2021 年 12 月 1 日启用
收盘价ClosePxDOUBLEClosePx自 2021 年 12 月 1 日启用
升跌1PxChange1DOUBLEPxChange1
升跌2PxChange2DOUBLEPxChange2
成交总量TotalVolumeTradeINTTotalVolumeTrade股票:股 基金:份 债券:千元面额 指数:手TotalVolumeTrade
成交总金额TotalValueTradeDOUBLETotalValueTradeTotalValueTrade
市盈率1PE1DOUBLEPERatio1
市盈率2PE2DOUBLEPERatio2
申买十价BidPriceDOUBLE[10]BidPriceBidPX1/…/BidPX10
申买十量BidOrderQtyINT[10]BidOrderQtyBidSize1/…/BidSize10
申买十实际总委托笔数BidNumOrdersINT[10]BidNumOrdersNUMORDERS_B1
买一揭示委托笔数BidNoOrders1INTNOORDERS_B1
申买一前50笔订单BidOrdersINT[50]BidOrdersORDERQTY_B1
申卖十价OfferPriceDOUBLE[10]OfferPriceOfferPX1/…/OfferPX10
申卖十量OfferOrderQtyINT[10]OfferOrderQtyOfferSize1/…/OfferSize10
申卖十实际总委托笔数OfferNumOrdersINT[10]OfferNumOrdersNUMORDERS_S1
申卖一前50笔订单OfferOrdersINT[50]OfferOrdersORDERQTY_S1
卖一揭示委托笔数OfferNoOrders1INTNOORDERS_S1
成交笔数NumTradesINTNumTradesNumTrades
基金T-1净值PreNAVDOUBLEPreNAV基金
基金实时参考净值IOPVRealTimeNAVDOUBLERealTimeNAV基金
ETF 净值估值IOPVDOUBLEIOPV从 20221104 日开始
权证溢价率WarrantPremiumRateDOUBLEWarrantPremiumRate权证
买入总量TotalBidQtyINTTotalBidQty股票:股 基金:份 债券:千元面额totalbidqty协议 量和价是合一个条目中
卖出总量TotalOfferQtyINTTotalOfferQty股票:股 基金:份 债券:千元面额totalofferqty
买入加权平均价WeightedAvgBidPxDOUBLEWeightedAvgBidPxweightedavgbidpx协议 量和价是合一个条目中
卖出加权平均价WeightedAvgOfferPxDOUBLEWeightedAvgOfferPxweightedavgofferpx
买入总比数TotalBidNumberINTTotalBidNumber
卖出总比数TotalOfferNumberINTTotalOfferNumber
总持仓量TotalLongPositionINTTotalLongPosition
涨停价UpLimitPxDOUBLEUpLimitPx
跌停价DownLimitPxDOUBLEDownLimitPx
买入成交最大等待时间BidTradeMaxDurationLONGBidTradeMaxDuration
卖出成交最大等待时间OfferTradeMaxDurationLONGOfferTradeMaxDuration
买方委托价位数NumBidOrdersLONGNumBidOrders
卖方委托价位数NumOfferOrdersLONGNumOfferOrders
买入撤单笔数WithdrawBuyNumberLONGWithdrawBuyNumber
买入撤单数量WithdrawBuyAmountLONGWithdrawBuyAmount
买入撤单金额WithdrawBuyMoneyDOUBLEWithdrawBuyMoney
卖出撤单笔数WithdrawSellNumberINTWithdrawSellNumber
卖出撤单数量WithdrawSellAmountINTWithdrawSellAmount
卖出撤单金额WithdrawSellMoneyDOUBLEWithdrawSellMoney
ETF 申购笔ETFBuyNumberINTETFBuyNumberxwnum自 2024 年 01 月 04 日新增
ETF 申购数量ETFBuyAmountINTETFBuyAmountxwsize自 2024 年 01 月 04 日新增
ETF 申购金额ETFBuyMoneyDOUBLEETFBuyMoney
ETF 赎回笔数ETFSellNumberINTETFSellNumberxxnum自 2024 年 01 月 04 日新增
ETF 赎回数量ETFSellAmountINTETFSellAmountxxsize自 2024 年01 月 04 日新增
ETF 赎回金额ETFSellMoneyDOUBLEETFSellMoney
消息序号MsgSeqNumINTMsgSeqNum自 2021 年 12 月 1 日启用
债券质押式回购品种加权平均价WarLowerPxDOUBLEWarLowerPx自 2021 年 12 月 1 日启
产品实时阶段TradingPhaseCodeSYMBOLTradingPhaseCode自 2021 年 12 月 1日启用TradingPhaseCode产品所处的交易阶段代码第 0 位:S=启动(开市前)O=开盘集合竞价T=连续竞价B=休市C=收盘集合竞价E=已闭市H=临时停牌A=盘后交易V=波动性中断第 1 位:0=正常状态1=全天停牌
加权平均价涨跌xjDOUBLExj自 2017 年 5月 12 日新增
昨收盘加权平均价xkDOUBLExk自 2017 年 5月 12 日新增
加权平均价VwapDOUBLEVwap自 2017 年 5月 12 日新增

4. 使用示例

  • 第一步:用户按照第 2 章文件结构中准备好数据。假设数据放在 /home/wwluo/data/stockData 目录下,文件结构如下图:

图 4-1 文件结构示例

  • 第二步: 将模块同步至 DolphinDB的 getHomeDir()+/modules 的目录下

图 4-2 更新模块示例

  • 第三步:载入模块和导入数据方法如下,其中为了数据完整性以及避免执行 shell 函数引入安全问题,推荐基于本模块(见附录中的 ExchData.zip 文件)直接导入全量数据,若需要解压缩、分段导入,则分别需要指定tmpPathrowCount等参数。
use ExchData::ExchData
go;

// 导入逐笔成交数据 day=2021.04.26
startDate,endDate = 2021.04.26,2021.04.26
dbName = "dfs://TSDB_level2"
tbName = "trade"
dataType = "trade"
filePath = "/home/wwluo/data/stockData/"  
tmpPath = "/home/wwluo/tmp/ALL/" 
// 沪深交易所一起导入
market="ALL"
// 手动解压后导入数据;如需要自动解压缩需要指定tmpPath路径
tmpPath = NULL
// 全量导入数据;如需要指定分段导入,指定大于0的rowCount即可
rowCount = 0
jobId1 = submitJob("loadTradeData","loadTradeData",ExchData{dbName,tbName,filePath,startDate,endDate,dataType,market,tmpPath,rowCount,false,false})
getJobStatus(jobId1)
print getJobMessage(jobId1)

// 导入逐笔委托数据
dbName = "dfs://TSDB_level2"
tbName = "order"
dataType = "order"
startDate,endDate = 2021.04.26,2021.04.26
filePath = "/home/wwluo/data/stockData/"  
tmpPath = "/home/wwluo/tmp/ALL/" 
// 沪深交易所一起导入
market="ALL"
// 手动解压后导入数据;如需要自动解压缩需要指定tmpPath路径
tmpPath = NULL
// 全量导入数据;如需要指定分段导入,指定大于0的rowCount即可
rowCount = 0
jobId2 = submitJob("loadOrderData","loadOrderData",ExchData{dbName,tbName,filePath,startDate,endDate,dataType,market,tmpPath,rowCount,false,false})
print getJobMessage(jobId2)

// 导入快照数据
dbName = "dfs://TSDB_level2"
tbName = "snapshot"
dataType = "snapshot"
startDate,endDate = 2021.04.26,2021.04.26
filePath = "/home/wwluo/data/stockData/"  
// 沪深交易所一起导入
market="ALL"
// 手动解压后导入数据;如需要自动解压缩需要指定tmpPath路径
tmpPath = NULL
// 全量导入数据;如需要指定分段导入,指定大于0的rowCount即可
rowCount = 0
jobId3 = submitJob("loadSnapshotData","loadSnapshotData",ExchData{dbName,tbName,filePath,startDate,endDate,dataType,market,tmpPath,rowCount,false,false})
print getJobMessage(jobId3)

// 导入逐笔合并数据
startDate,endDate = 2024.01.22,2024.01.22
dbName = "dfs://TSDB_level2"
tbNames = ["trade","order"]
dataTypes = ["trade","order"]
filePath = "/home/wwluo/data/stockData/"  
tmpPath = "/home/wwluo/tmp/ALL/" 
// 只导入上交所数据
market="ALL"
// 手动解压后导入数据;如需要自动解压缩需要指定tmpPath路径
tmpPath = NULL
// 全量导入数据;如需要指定分段导入,指定大于0的rowCount即可
rowCount = 0
jobId4 = submitJob("loadSHTradeOrderData","loadSHTradeOrderData",ExchData{dbName,tbNames,filePath,startDate,endDate,dataTypes,market,tmpPath,rowCount,false,false})
print getJobMessage(jobId4)
  • 第四步:查询任务状态

(1)使用 getJobStatus(jobId) 可以查询任务状态,当 endTime 有值的时候表示任务结束。例如:

图 4-3 getJobStatus 示例

(2)使用 getJobMessage(jobId) 可以查询任务中间信息,例如:

图 4-4 getJobMessage 示例

(3)可以通过查询日志内容,查看任务执行结果。例如:

cat dolphindb.log | grep message

图 4-5 log 示例

  • 第五步:查询数据

(1)快照数据

select * from loadTable("dfs://TL_Level-2", "snapshot") limit 10

图 4-6 快照数据预览

(2)逐笔委托

select * from loadTable("dfs://TL_Level-2", "snapshot") limit 10

图 4-7 逐笔委托预览

(3)逐笔成交

select * from loadTable("dfs://TL_Level-2", "snapshot") limit 10

图 4-8 逐笔成交预览

5. 数据校验

在处理和分析交易所的 Level-2 历史行情数据时,针对原始数据的数据校验是一个至关重要的步骤。基于本模块的数据校验功能,可以监测交易所的 Level-2 历史行情数据是否存在数据遗漏、数据异常。

5.1 校验规则

ExchData 模块的 checkStockData.dos 支持对沪深交易所的逐笔成交和逐笔委托数据做数据校验,校验逻辑包括:

  • 检查导入的逐笔成交和逐笔委托数据量是否小于 1500 万,否则提示数据异常。
  • 针对2023年以后的数据,检查逐笔数据的 ChannelNo 的取值范围,检查上交所的 ChannelNo 所有取值是否包含 1~6 、深交所的 ChannelNo 所有取值是否包含2011~2014。
  • 检查逐笔数据每一支 ChannelNo 下的所有 ApplSeqNum 是否连续;若不连续检查是否存在重复数据,以及是否存在数据缺失的异常情况。

5.2 校验接口

语法

checkStockData(startDate, endDate, market)

详情

校验 startDate 和 endDate 期间的逐笔数据,若校验未通过将返回统计信息表。

参数

  • startDate 开始日期。
  • endDate 结束日期。
  • market 交易所类型,支持”SH”、”SZ”、”ALL”。

使用示例

如下校验 2021.04.26 的逐笔数据是否存在异常,结果如下:

use ExchData::checkStockData
go;
checkAllData(2021.04.26,2021.04.26,"ALL")

图 5-1 数据校验示例

6. 异常处理

导入交易所的 Level-2 历史行情数据过程可拆分为如下步骤,其中每一步均可能存在异常,如下表所示。

  1. 创建库表:第一次运行时创建数据库表;若已存在本地库表,会与模块中库表的表结构做对比
  2. 解压缩:若导入深交所行情文件,若文件未解压缩,需要先将文件解压缩
  3. 加载 CSV:检查行情文件是否存在;若存在,检查文件的表结构与模块中预先指定的表结构的列数是否一致
  4. 数据导入:基于预先指定的表结构导入对应行情文件
  5. 数据校验:导入完成以后,进行数据校验
阶段异常情况输出信息
创建库表创建数据库时,名为 dbName 的数据库已经存在且 initialDB=false{"code": "warning","message": "[dbName] 数据库已经存在"}
创建库表创建分布式表时,名为 tableName 的表已经存在且 initialDB=false{"code": "warning","message": "数据库 [dbName] 已经存在表 [tableName]"}
解压缩导入深交所文件时解压失败{"code": "error","message": "解压文件失败: [fileName],请检查日志"}
加载 CSV日期文件夹下,没有对应的 CSV 文件{"code": "error","message": "深交所 [day] 日期的 [CSVNames] 的 CSV 文件不全或者不存在"}{"code": "error","message": "上交所 [day] 日期的 [CSVNames] 的 CSV 文件不全或者不存在"}
加载 CSV实际 CSV 文件的数据列数和 CsvSchema.dos 模块里面预设的表结构的列数不一致{"code": "error","message": "[CSVPath] 的数据格式有误,列数不匹配"}
数据导入写入分布式库表的数据量和 CSV 的数据量不一致{"code": "error","message": "深交所 [day] 日期的 [CSVNames] 的 CSV数据和写入dfs数据不一致,t1 size:[n1],t2 size:[n2]"}{"code": "error","message": "上交所 [day] 日期的 [CSVNames] 的 CSV数据和写入dfs数据不一致,t1 size:[n1],t2 size:[n2]"}
数据导入导入上交所逐笔合并数据时,CSV 文件的格式与模块中的 schema 不一致{"code": "error","message": "CSV 文件[StockTick.csv] 与分布式表待入库数据[“dfs:\\TSDB_Level-2“,”trade”]不一致"}{"code": "error","message": "CSV 文件[StockTick.csv] 与分布式表待入库数据[“dfs:\\TSDB_Level-2“,”order”]不一致"}
数据导入导入深交所快照行情数据时,快照行情和挡位表行数不一致{"code": "error","message": "深交所 [" + string(day) + "] 日期 [CSVName1] 和 [CSVName2]!"}
数据校验数据校验发现逐笔数据缺失channelNo{"code": "error","message": "上交所 [" + string(day) + "] 日期 [" +"channelNo 数据缺失,共计 [" + string(channelSh.size()) + "] 个, 预计6个,请检查!"}{"code": "error","message": "深交所 [" + string(day) + "] 日期 [" +"channelNo 数据缺失,共计 [" + string(channelSh.size()) + "] 个, 预计4个,请检查!"}
数据校验数据校验发现逐笔数据小于 1500万{"code": "error","message": " [day] trade 数据异常! order 数据异常! "}
数据校验数据校验发现逐笔数据的某一支 channelNo 存在重复数据{"code": "error","message": "[深交所] 交易所 [day] 日期 [channelNo] channelNo 存在 [n] 条重复数据, 请检查!"}{"code": "error","message": "[上交所] 交易所 [day] 日期 [channelNo] channelNo 存在 [n] 条重复数据, 请检查!"}
数据校验数据校验发现逐笔数据的某一支 channelNo 存在 ApplSeqNum 数据缺失{"code": "error","message": "[深交所] 交易所 [day] 日期 [channelNo] channelNo [ApplSeqNum] ApplSeqNum缺失, 请检查!"}{"code": "error","message": "[上交所] 交易所 [day] 日期 [channelNo] channelNo [ApplSeqNum] ApplSeqNum缺失, 请检查!"}
数据导入/数据校验其他错误【通过 try{}catch(ex){} 捕获异常】{"code": "error","message": 输出报错信息 ex}

7. 注意事项

  1. 导入数据时,请确保数据源文件路径正确,否则会导致导入失败。极端情况下,可能存在数据源文件未完全同步完,导致数据导入异常。
  2. 由于分段导入非强事务操作,因此内存充足情况下,不建议使用本模块分块导入数据;若部署的 DolphinDB 服务内存不足,一次性写入的沪深交易所数据量超过了 maxMemSize 大小,建议导入数据时设置较小的 rowCount 以确保能正常导入数据
  3. 由于本模块是基于 shell 函数执行服务器解压缩 shell 命令,该过程会存在安全问题的风险,因此不建议直接基于本模块去解压缩以导入深交所数据;若需要基于本模块解压缩深交所源文件,需要提前配置enableShellFunction=true
  4. 若服务器为 ARM 版本,解压深交所文件时调用的shell命令需要指定7zz命令的绝对路径,7zz解压时需要替换 ExchData 模块下的prepare.dos文件的7zz命令,需要替换 prepare.dos 的 unzipFile 中为实际使用的7zz命令路径(例如,/usr/local/bin/7zz x …… -o…… -y)
  5. 导入深交所文件时,需要注意解压的文件是否存在分卷解压的情况,若存在需要确保各卷文件未存在数据缺失,导致解压失败

8. 总结

DolphinDB ExchData 模块为用户导入和处理沪深交易所 Level-2 行情数据提供了一套完整的解决方案, 本文介绍了模块的功能、行情文件结构及表结构、使用示例、数据校验等方面。用户基于本模块自动化的流程以及完整的校验机制,可以提高 Level-2 行情数据导入的效率以及数据完整性。

附录

  • ExchData 导入模块见:ExchData 交易所历史股票数据自动化导入功能模块使用教程 (dolphindb.cn)
  • 未压缩的文件结构:
SH
├── 2015
│   └── 20150105
│      ├── Entrust.csv
│      ├── Snapshot.csv
│      └── Tick.csv
|      ……    
├── 2020
│   └── 20200104
│      ├── Entrust.csv
│      ├── Snapshot.csv
│      └── Tick.csv
|      ……    
└── 2023
│   └── 20231205
│      ├── Snapshot.csv
│      └── StockTick.csv
|      ……    
SZ
├── 2016
│   ├── 0506
│   │   ├── SZL2_ORDER_20160506.7z.001
│   │   ├── SZL2_SNAPSHOT_20160506.7z.001
│   │   ├── SZL2_SNAPSHOTDW_20160506.7z.001
│   │   └── SZL2_TRADE_20160506.7z.001
│   └── 0509
│       ├── am_hq_order_spot.7z.001
│       ├── am_hq_snap_spot.7z.001
│       ├── am_hq_trade_spot.7z.001
│       ├── am_snap_level_spot.7z.001
│       ├── pm_hq_order_spot.7z.001
│       ├── pm_hq_snap_spot.7z.001
│       ├── pm_hq_trade_spot.7z.001
│       └── pm_snap_level_spot.7z.001
|      ……  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/932037.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

加载内核映像文件

将kernel转换成elf文件格式,不能直接从loader直接跳转到0x100000,需要解析,提取出代码和数据出来,放到0x10000(64kb)的位置,1M的位置只是存放elf文件的位置。 4.10加载内核映像文件2 common/el…

【数字电路与逻辑设计】实验一 序列检测器

文章总览:YuanDaiMa2048博客文章总览 【数字电路与逻辑设计】实验一 序列检测器 一、实验内容二、设计过程(一)作出状态图或状态表(二)状态化简(三)状态编码 三、源代码(一&#xff…

怎么实现邮件营销自动化?

邮件营销能够出色地帮助我们与客户建立良好关系。无论是新客户还是老客户,都可以通过邮件来达成较为良好的客户关系。然而,从消费者的角度来看,每个人都有自己独特的习惯和特点,没有人希望收到千篇一律、营销意味过重的邮件。因此…

【LeetCode: 203. 移除链表元素 + 链表】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

【opencv入门教程】12. 矩阵初始化

文章选自: 一、 数据类型 建立矩阵必须要指定矩阵存储的数据类型,图像处理中常用的几种数据类型如下:包括数据位深度8位、32位,数据类型U:uchar、F:float型以及通道数C1:单通道、C3:三通道、C4&#xff…

Jupyter Notebook认识、安装和启动以及使用

Jupyter Notebook认识、安装和启动以及使用 Jupyter Notebook认识、安装和启动以及使用 Jupyter Notebook认识、安装和启动以及使用一、认识Jupyter Notebook1.1 Jupyter Notebook概述1.2 Jupyter Notebook 重要特性(1)交互式代码执行(2)支持多种编程语言(3)富文本编辑(4)代码高…

SQL语句中AND与OR操作符的优先级问题

在SQL中,当AND和OR操作符同时出现时,优先级的处理可能会导致查询结果与预期不符。为了说明这一问题,我们可以看一个实际的例子。 假设需要查询价格在10美元及以上,且由DLL01或BRS01制造的所有产品。可以使用如下SQL语句&#xff…

FreeRTOS实现UART通信

串口通信 速战速决形式,大家走一遍就通; 本次实验验证: 配置文件 4、打开CubeMX 5、选择芯片型号,然后点击开始项目 6、配置时钟 配置烧录引脚,与FreeRTOS系统时钟 选择FreeRTOS 这里已经默认有一个任务&…

FaRM译文

No compromises: distributed transactions with consistency, availability, and performance Aleksandar Dragojevic, Dushyanth Narayanan, Edmund B. Nightingale, Matthew Renzelmann, Alex Shamis, Anirudh Badam, Miguel Castro Microsoft Research 目录 摘要 1. 引…

Ubuntu22.04深度学习环境安装【Anaconda+Pycharm】

anaconda可以提供多个独立的虚拟环境,方便我们学习深度学习(比如复现论文); Pycharm编辑器可以高效的编写python代码,也是一个很不错的工具。 下面就记录下Ubuntu22.04的安装流程: 1.Anaconda安装 下载Ana…

Angular由一个bug说起之十一:排序之后无法展开 Row

问题现象 在使用 Material Table 时,排序功能触发了一个奇怪的 Bug:表格的 Row 无法展开。最终排查发现,问题的根源在于 trackBy 的错误使用。trackBy 方法接受两个参数:index(数据索引)和 row(…

【无标题】建议用坚果云直接同步zotero,其他方法已经过时,容易出现bug

created: 2024-12-06T16:07:45 (UTC 08:00) tags: [] source: https://zotero-chinese.com/user-guide/sync author: 数据与文件的同步 | Zotero 中文社区 Excerpt Zotero 中文社区,Zotero 中文维护小组,Zotero 插件,Zotero 中文 CSL 样式 数…

【React】React常用开发工具

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、React DevTools二、Redux DevTools三、Create React App 前言 React 是一种用于构建用户界面的流行 JavaScript 库,由于其灵活性、性能和可重用…

Thonny IDE + MicroPython + ESP32 + GY-302 测量环境中的光照强度

GY-302是一款基于BH1750FVI光照强度传感器芯片的模块。该模块能够直接测量出环境中的光照强度,并将光照强度转换为数字信号输出。其具体参数如下表所示。 参数名称 参数特性 测量范围 0-65535 LX 测量精度 在环境光下误差小于20%,能够自动忽略50/60…

华为HCIP AI EI Developer总结和备考建议

华为HCIP AI EI Developer总结和备考建议 最近空余时间考了一个华为的HCIP认证,属于AI方向的四个其中一个,这个主要侧重于机器学习和深度学习的基础知识,比较偏理论。 一、备考时间 根据华为官方建议,培训时长是9天,…

Jenkins 的HTTP Request 插件为什么不能配置Basic认证了

本篇遇到的问题 还是因为Jenkins需要及其所在的OS需要升级,升级策略是在一台新服务器上安装和配置最新版本的Jenkins, 当前的最新版本是: 2.479.2 LTS。 如果需要这个版本的话可以在官方站点下载,也可以到如下地址下载&#xff1…

运费微服务和redis存热点数据

目录 运费模板微服务 接收前端发送的模板实体类 插入数据时使用的entity类对象 BaseEntity类 查询运费模板服务 新增和修改运费模块 整体流程 代码实现 运费计算 整体流程 总的代码 查找运费模板方法 计算重量方法 Redis存入热点数据 1.从nacos导入共享redis配置…

Linux-USB驱动实验

USB 是很常用的接口,目前大多数的设备都是 USB 接口的,比如鼠标、键盘、USB 摄像头等,我们在实际开发中也常常遇到 USB 接口的设备,本章我们就来学习一下如何使能 Linux内核自带的 USB 驱动。注意!本章并不讲解具体的 …

Linux系统下安装配置 Nginx 超详细图文教程

一、下载Nginx安装包 nginx官网:nginx: downloadhttp://nginx.org/en/download.html找到我们所需要版本,把鼠标移动到上面,右键打开链接进行下载 或者如果Linux联网,直接在Linux服务上使用wget命令把Nginx安装包下载到/usr/local/…

JDK8新特性之Stream流02

获取 Stream流的两种方式 目标 掌握根Collection获取流。 掌握Stream中的静态方法of获取流 java.util.stream.Stream 是JDK 8新加入的流接口 获取一个流非常简单,有一下几种常用的方式: 所有的Collection集合都可以通过stram默认方法获取流 Stream接口的…