收藏 分享(赏)

MDC刻度操作方法及流程.docx

上传人:清凉的夏天 文档编号:5843790 上传时间:2022-07-03 格式:DOCX 页数:5 大小:20.78KB
下载 相关 举报
MDC刻度操作方法及流程.docx_第1页
第1页 / 共5页
MDC刻度操作方法及流程.docx_第2页
第2页 / 共5页
MDC刻度操作方法及流程.docx_第3页
第3页 / 共5页
MDC刻度操作方法及流程.docx_第4页
第4页 / 共5页
MDC刻度操作方法及流程.docx_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

1、MDC刻度操作方法及流程1. 分布式环境设置(1) 拷贝/home/bes/wulh/panfs/distBoss/setenv_660.sh, 修改最后一行的路径(2) 拷贝wulh/.gangarc, 修改变量gangadir指向的路径(3) 在.bashrc中设置BOSS环境之后添加 source */setenv_660.sh, 登录后可自动设置分布式环境2. 提交分布式作业命令distboss $(JobName) $(队列名) $(并行个数)如:distboss cal.txt offlineq 103. 刻度jobOption参考:/ihepbatch/bes/wulh/yuan

2、ydisk/calib/662/jobCalib/psip2009/cal.txt(1) 修改指定的刻度常数文件 CalibRootCnvSvc.Mdcrootfile=”; (必须用绝对路径)(2) 修改事例文件(3) 所有输入文件或配置文件都必须采用绝对路径,如:CalibRootCnvSvc.Mdcrootfile=”/home/bes/wulh/calib/MdcCalibConst.root”;MdcCalibAlg.ConfigFile=” /home/bes/wulh/calib/MdcCalibConfig.txt”;(4) 输出文件不能带路径,如MdcCalibAlg.His

3、tOutput = hist.root;FILE136 DATAFILE=xtNtuple.root OPT=NEW TYP=ROOT4. 合并程序分布式作业完成后需要对直方图进行合并,并生成新刻度常数程序所在目录:/home/bes/wulh/panfs/calib/660/distcalib_merge编译:./compile编译后生成可执行文件:merge用法:(1) 将可执行文件(merge)拷贝至刻度jobOption所在目录(2) ./merge $(刻度作业jobOption) 如:./merge cal.txt5. 提交不需要迭代的刻度作业在进行初始T0和初始XT刻度时(Mdc

4、CalibAlg.MdcCalFlg=0,1或2)不需要迭代,提交作业步骤如下:(1) 提交分布式作业,如:distboss cal.txt offlineq 10(2) 分布式作业结束后对结果进行合并刻度,方法见第4节中的“用法”(3) 检查刻度结果是否正常6. 自动迭代的刻度脚本/ihepbatch/bes/wulh/yuanydisk/calib/662/jobCalib/psip2009/autocal.sh用法:nohup ./autocal.sh log &查看脚本运行情况:ps U $(用户名)杀掉脚本:kill -9 $(作业id)注意: 务必记录下提交该脚本的登录节点和脚本的

5、运行id,因为当手动删除刻度作业时,不仅要删除正在运行的Boss作业,还需要删除控制迭代的脚本。7. 提交需要迭代的刻度作业示例(1) 登录服务器(如lxslc502),进入提交作业的目录(2) 提交作业:nohup ./autocal.sh log & (必须后台运行)(3) 查看脚本运行情况:ps U wulh终端显示: 7075 pts/6 S 0:00 /bin/bash ./autocal.sh记录 登录节点(lxslc502)和 脚本运行的id (7075)(4) 查看分布式Boss作业运行情况:(a) 用ls命令查看刻度jobOption所在目录下最新生成的joboutput-*

6、目录(如joboutput-14056)(b) qstat|grep wulh,查看所有包含“14056”的Boss作业,显示如下:6634539.pbssrv .ster-*-14056 wulh 00:00:11 R offlineq6634541.pbssrv .rker-14056-01 wulh 00:59:17 R offlineq6634542.pbssrv .rker-14056-02 wulh 00:59:16 R offlineq6634543.pbssrv .rker-14056-03 wulh 00:59:15 R offlineq6634544.pbssrv .rke

7、r-14056-04 wulh 00:59:16 R offlineq6634545.pbssrv .rker-14056-05 wulh 00:59:21 R offlineq6634546.pbssrv .rker-14056-06 wulh 00:58:54 R offlineq6634547.pbssrv .rker-14056-07 wulh 00:00:12 R offlineq6634549.pbssrv .rker-14056-08 wulh 00:58:56 R offlineq6634550.pbssrv .rker-14056-09 wulh 00:59:19 R off

8、lineq6634551.pbssrv .rker-14056-10 wulh 00:59:10 R offlineq6634552.pbssrv .rker-14056-11 wulh 00:00:12 R offlineq6634556.pbssrv .rker-14056-12 wulh 00:59:05 R offlineq6634557.pbssrv .rker-14056-13 wulh 00:59:16 R offlineq6634559.pbssrv .rker-14056-14 wulh 00:59:25 R offlineq6634562.pbssrv .rker-1405

9、6-15 wulh 00:00:20 R offlineq说明:第一行(.ster-*-14056)为控制作业(master),其余为子作业,可以看到,大多数子作业正常运行,运行时间接近1小时。从运行时间可以判断出14056-07和14056-11不正常,对于该问题,在正常子作业尚未结束时不进行处理,待所有正常子作业结束后再做处理,处理方法见第8.(1)部分。(5) 作业正常运行后可退出登录节点(6) 删除作业:不仅要删除正在运行的Boss作业,还需要删除控制迭代的脚本,步骤如下:(a) 删除控制迭代的脚本:(i) 先登录运行脚本的节点(lxslc502)(ii) 用kill命令杀掉作业:ki

10、ll -9 7075(iii) 用ps U wulh命令查看,确认作业已经被杀掉(b) 删除分布式Boss作业:只需删除控制作业:qdel 6634539子作业会在几分钟后自动退出运行。8. 刻度中常见问题处理方法(1) 个别子作业出错,永不结束6.(4).(b)中显示14056-07和14056-11就属于此类情况,当所有正常子作业结束后,14056-07和14056-11仍为R状态,用qstat命令查看,屏幕显示如下:6634539.pbssrv .ster-*-14056 wulh 00:00:22 R offlineq6634547.pbssrv .rker-14056-07 wulh

11、 00:00:12 R offlineq6634552.pbssrv .rker-14056-11 wulh 00:00:12 R offlineq处理步骤:(a) 删除控制作业和异常子作业:qdel 6634539,qdel 6634547,qdel 6634552(b) 进入刻度jobOption所在目录,打开文件*.diane_masterlog,在文件末尾添加如下文字:End of Diane Process(c) 数分钟后刻度合并程序会自动启动,约10分钟后合并完成,刻度脚本(autocal.sh)会自动启动下一次迭代,可以登录运行脚本的节点用ps命令查看(2) 分布式作业运行起来后

12、很快结束,不能生成正常的输出文件可能的原因如下:(a) 分布式环境或Boss环境设置不正确(b) 刻度jobOption中输入文件或配置文件没有全部采用绝对路径(c) 分布式计算所需要的dns服务停止在设置分布式环境中下面这句话是指定所用的dns服务来源于哪一个节点(用户可以任意指定所用节点):export DIM_DNS_NODE=某些原因会导致dns服务中断,比如该节点对应的服务器重启了,而dns服务并不会自动重启,处理方法如下:(i) 查看dns服务运行状态:登录指定dns服务的节点(如lxslc508),输入命令 ps -C dns 查看dns是否在运行 如果显示如下,表明dns为运行

13、状态 PID TTY TIME CMD 2809 ? 00:00:00 dns 如果仅显示下面一行,则表明dns为停止状态PID TTY TIME CMD(ii) 如果dns已停止,则需要手动启动该服务,方法如下:登录指定dns的节点(如lxslc508),输入如下命令即可Dns &说明:分布式作业运行顺利与否与计算节点状态密切相关,有些时候会频繁出现问题,因此刻度作业提交后必须时常查看作业运行状态,发现问题尽早处理,以免浪费时间。9. 检查刻度结果(1) 检查X-T刻度拷贝/home/bes/wulh/yuanydisk/calib/662/checkCalib/checkNewXt/目录下

14、的check.cpp, go.sh修改 sprintf(histfile, /histXt5.root); /新生成的hist文件 sprintf(xtfile, /MdcCalibConst_Xt5.root); / 新生成的刻度常数文件编译:./go.sh用法:./a.out检查outCheckXtCal.eps , 黑点为doca拟合值,红线为刻度后的xt曲线,逐页查看xt曲线是否与散点图一致,xt是否有异常问题(2) Q-T刻度检查打开hist.root - QtPlot - HQT_Plot_lay*, 检查拟合曲线(3) 检查空间分辨vs层/home/bes/wulh/yuanyd

15、isk/calib/662/checkCalib/layerReso编译:./go.sh用法 ./a.out $(直方图)(4) 检查空间分辨、动量分辨、动量vs phi/home/bes/wulh/yuanydisk/calib/662/checkCalib/momphi编译:./go.sh用法:./a.out $(直方图)请根据具体情况修改graph.cpp中动量分布拟合的范围和初值(5) 检查kalman 后的空间分辨、动量分辨, 空间分辨vs层, 动量vs phikalman jobOption例子:/home/bes/wulh/yuanydisk/calib/662/checkCalib/kalReso/cal.txt

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 行业文书

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报