doc update
[unres.git] / doc / 3.2.1 / latex / unresman.tex
1 \documentclass[12pt]{article}
2 %\usepackage{latex2html}
3 \usepackage{enumerate}
4 \usepackage{longtable}
5 \usepackage{hyperref}
6 \usepackage{amsmath}
7 \usepackage{color}
8 \parindent=0pt
9 \parskip=12pt
10 \textheight=24cm
11 \textwidth=18cm
12 \topmargin=-2.5cm
13 \oddsidemargin=-0.5cm
14 \setcounter{secnumdepth}{5}
15 \setcounter{tocdepth}{5}
16 \begin{document}
17 \sloppy
18
19 \title{UNRES - A PROGRAM FOR COARSE-GRAINED SIMULATIONS OF PROTEINS}
20
21 \author{Laboratory of Molecular Modeling\\ Faculty of Chemistry\\ University of Gdansk\\ Sobieskiego 18\\ 80-952 Gdansk, Poland\\
22 \\
23 \\
24 Scheraga Group\\ Baker Laboratory of Chemistry \\
25 and Chemical Biology\\ Cornell University\\ Ithaca, NY 14853-1301, USA}
26
27 \maketitle
28
29 \newpage
30
31 \tableofcontents
32
33 %TABLE OF CONTENTS
34 %
35 %1. License terms
36 %2. Credits
37 %3. General information
38 %   3.1. Purpose
39 %   3.2. Functions of the program
40 %   3.3. Companion programs
41 %   3.4. Programming language
42 %   3.5. References
43 %4. Installation
44 %5. Customizing your batch and C-shell script
45 %6. Command line and files
46 %7. Force fields
47 %8. Input files
48 %   8.1. Main input data file
49 %        8.1.1 Title
50 %        8.1.2. Control data (data list format; READ_CONTROL subroutine)
51 %               8.1.2.1 Keywords to chose calculation type
52 %               8.1.2.2 Specification of protein and structure output in non-MD applications
53 %               8.1.2.3. Miscellaneous
54 %        8.1.3. Minimizer options (data list, subroutine READ_MINIM)
55 %        8.1.4. CSA control parameters
56 %        8.1.5. MCM data (data list, subroutine MCMREAD)
57 %        8.1.6. MD data (subroutine READ_MDPAR)
58 %        8.1.7. REMD/MREMD data (subroutine READ_REMDPAR)
59 %        8.1.8. Energy-term weights (data list; subroutine MOLREAD)
60 %        8.1.9. Input and/or reference PDB file name (text format; subroutine MOLREAD)
61 %        8.1.10. Amino-acid sequence (free and text format)
62 %        8.1.11. Disulfide-bridge information (free format; subroutine READ_BRIDGE)
63 %        8.1.12. Dihedral-angle restraint data (free format; subroutine MOLREAD)
64 %        8.1.13. Distance restraints (subroutine READ_DIST_CONSTR)
65 %        8.1.14. Internal coordinates of the reference structure (free format; subroutine READ_ANGLES)
66 %        8.1.15. Internal coordinates of the initial conformation (free format; subroutine READ_ANGLES)
67 %                8.1.15.1. File name with internal coordinates of the conformations to be processed
68 %        8.1.16 Control data for energy map construction (data lists; subroutine MAP_READ)
69 %   8.2. Input coordinate files
70 %   8.3. Other input files
71 %9. Output files
72 %   9.1. Coordinate files
73 %        9.1.1. The internal coordinate (INT) files
74 %        9.1.2. The plain Cartesian coordinate (X) files
75 %        9.1.3. The compressed Cartesian coordinate (CX) files
76 %        9.1.4. The Brookhaven Protein Data Bank format (PDB) files
77 %        9.1.5. The SYBYLL (MOL2) files
78 %   9.2. The summary (STAT) file
79 %        9.2.1. Non-MD runs
80 %        9.2.2. MD and MREMD runs
81 %   9.3. CSA-specific output files
82 %10. Technical support contact information
83 %
84
85 \newpage
86
87 \section{LICENSE TERMS}
88 \label{sect:license}
89
90 \begin{itemize}
91
92 \item
93                 This software is provided free of charge to academic users, subject to the condition that no part of it be sold or used otherwise for commercial purposes, including, but not limited to its incorporation into commercial software packages, without written consent from the authors. For permission contact Prof. H. A. Scheraga, Cornell University.
94
95 \item
96                 This software package is provided on an ``as is'' basis. We in no way warrant either this software or results it may produce.
97
98 \item
99                 Reports or publications using this software package must contain an acknowledgment to the authors and the NIH Resource in the form commonly used in academic research.
100
101 \end{itemize}
102
103 \newpage
104
105 \section{CREDITS}
106 \label{sect:credits}
107
108 The current and former developers of UNRES are listed in this section in alphabetic 
109 order together with their current or former affiliations.
110
111 {\obeylines
112 Maurizio Chinchio (formerly Cornell Univ., USA)
113 Cezary Czaplewski (Univ. of Gdansk, Poland)
114 Carlo Guardiani (Georgia State Univ., USA)
115 Yi He (Cornell Univ., USA)
116 Justyna Iwaszkiewicz (Swiss Institute of Bioinformatics, Switzerland)
117 Dawid Jagiela (Univ. of Gdansk, Poland)
118 Stanislaw Jaworski (deceased)
119 Sebastian Kalinowski (Univ. of Gdansk, Poland)
120 Urszula Kozlowska (deceased)
121 Pawel Krupa (Univ. of Gdansk, Poland)
122 Rajmund Kazmierkiewicz (Univ. of Gdansk, Poland)
123 Jooyoung Lee (Korea Institute for Advanced Studies, Korea)
124 Adam Liwo (Univ. of Gdansk, Poland)
125 Mariusz Makowski (Univ. of Gdansk, Poland)
126 Magdalena Mozolewska (Univ. of Gdansk, Poland)
127 Marian Nanias (formerly Cornell Univ., USA)
128 Stanislaw Oldziej (Univ. of Gdansk, Poland)
129 Jaroslaw Pillardy (Cornell Univ., USA)
130 Shelly Rackovsky (Mout Sinai School of Medicine, USA)
131 Daniel Ripoll (formerly Cornell Univ., USA)
132 Jeff Saunders (Schrodinger Inc., USA)
133 Harold A. Scheraga (Cornell Univ., USA)
134 Hujun Shen (Dalian Institute of Chemical Physics, P.R. China)
135 Adam Sieradzan (Univ. of Gdansk, Poland)
136 Ryszard Wawak (formerly Cornell Univ., USA)
137 Tomasz Wirecki (Univ. of Gdansk, Poland)
138 Marta Wisniewska (Univ. of Gdansk, Poland)
139 Yanping Yin (Cornell Univ., USA)
140 Bartlomiej Zaborowski (Univ. of Gdansk, Poland)
141 }
142
143 \newpage
144
145 \section{GENERAL INFORMATION}
146 \label{sect:geninfo}
147
148 \subsection{Purpose}
149 \label{sect:geninfo:purpose}
150
151 Run coarse-grained calculations of polypeptide chains with the UNRES force field.
152 There are two versions of the package which should be kept separate because of 
153 non-overlapping functions: version which runs global optimization (Conformational
154 Space Annealing, CSA) and version that runs coarse-grained molecular dynamics and
155 its extension. Because the installation, input file preparation and running CSA 
156 and MD versions are similar, a common manual is provided. Items specific
157 for the CSA and MD version are marked ``CSA'' and ``MD'', respectively.
158
159 MD version can be used to run multiple-chain proteins (however, that version of
160 the code is a new release and might fail if yet un-checked functions are used). 
161 The multi-chain CSA version for this purpose is another package (written largely in 
162 C++).
163
164 \subsection{Functions of the program}
165 \label{sect:geninfo:functions}
166
167 \begin{enumerate}
168
169 \item
170         Perform energy evaluation of a single or multiple conformations (serial and parallel) (CSA and MD).
171
172 \item
173         Run canonical mesoscopic molecular dynamics (serial and parallel) (MD).
174
175 \item
176         Run replica exchange (REMD) and multiplexing replica exchange (MREMD) dynamics (parallel only) (MD).
177
178 \item
179         Run multicanonical molecular dynamics (parallel only) (MD).
180
181 \item
182         Run energy minimization (serial and parallel) (CSA and MD).
183
184 \item
185         Run conformational space annealing (CSA search) (parallel only) (CSA).
186
187 \item
188         Run Monte Carlo plus Minimization (MCM) (parallel only) (CSA).
189
190 \item
191         Run conformational family Monte Carlo (CFMC) calculations (CSA).
192
193 \item
194         Thread the sequence against a database from the PDB and minimize energy of each structure (CSA).
195
196 \end{enumerate}
197
198 Energy and force evaluation is parallelized in MD version.
199
200
201 \subsection{Companion programs}
202 \label{sect:geninfo:companion}
203
204 The structures produced by UNRES can be used as inputs to the following programs provided
205 with this package or separately:
206
207 \begin{description}
208
209 \item{xdrf2pdb}   -- converts the compressed coordinate files from MD (but not MREMD)runs into 
210              PDB format.
211
212 \item{xdrf2pdb-m} -- same for MREMD runs (multiple trajectory capacity).
213
214 \item{xdrf2x}     -- converts the plain Cartesian coordinate files into PDB format.
215
216 \item{WHAM}       -- processes the coordinate files from MREMD runs and computes temperature profiles
217              of ensemble averages and computes the probabilities of conformations at selected
218              temperatures; also prepares data for CLUSTER and ZSCORE.
219
220 \item{CLUSTER}    -- does the cluster analysis of the conformations; for MREMD runs takes the 
221              coordinate files from WHAM which contain information to compute probabilities
222              of conformations at any temperature. 
223
224 \item{PHOENIX}    -- conversion of UNRES conformations to all-atom conformations.
225
226 \item{ZSCORE}     -- force field optimization (for developers).
227
228 \end{description}
229
230 Please consult the manuals of the corresponding packages for details. Note that not
231 all of these packages are released yet; they will be released depending on their 
232 readiness for distribution. Contact Adam Liwo, Cezary Czaplewski or Stanislaw Oldziej
233 for developmental versions of these programs.
234
235 \subsection{Programming language}
236 \label{sect:geninfo:language}
237
238 This version of UNRES is written almost exclusively in Fortran 77; some subroutines
239 for data management are in ansi-C. The package was parallelized with MPI.
240
241 \newpage
242
243 \subsection{References}
244 \label{sect:geninfo:references}
245
246 Citing the following references in your work that makes use of UNRES is gratefully
247 acknowledged:
248
249 \begingroup
250 \renewcommand{\section}[2]{}%
251 \begin{thebibliography}{10}
252
253 \bibitem{liwo_1997}
254     A. Liwo, S. Oldziej, M.R. Pincus, R.J. Wawak, S. Rackovsky, H.A. Scheraga.
255     A united-residue force field for off-lattice protein-structure simulations.
256     I: Functional forms and parameters of long-range side-chain interaction potentials 
257     from protein crystal data.  {\it J. Comput. Chem.}, {\bf 1997}, 18, 849-873.
258
259 \bibitem{liwo_1997_02}
260     A. Liwo, M.R. Pincus, R.J. Wawak, S. Rackovsky, S. Oldziej, H.A. Scheraga.
261     A united-residue force field for off-lattice protein-structure simulations.
262     II: Parameterization of local interactions and determination
263     of the weights of energy terms by Z-score optimization.
264     {\it J. Comput. Chem.}, {\bf 1997}, 18, 874-887.
265
266 \bibitem{liwo_1997_03}
267 A. Liwo, S. O{\l}dziej, R. Ka\'zmierkiewicz, M. Groth, C. Czaplewski.
268 Design of a knowledge-based force field for off-lattice simulations of protein
269 structure.
270 {\it Acta Biochim. Pol.}, {\bf 1997}, 44, 527-548.
271
272
273 \bibitem{liwo_1998}
274     A. Liwo, R. Kazmierkiewicz, C. Czaplewski, M. Groth, S. Oldziej, R.J. Wawak, 
275     S. Rackovsky, M.R. Pincus, H.A. Scheraga.
276     United-residue force field for off-lattice protein-structure simulations. 
277     III. Origin of backbone hydrogen-bonding cooperativity in united-residue potentials.
278     {\it J. Comput. Chem.}, {\bf 1998}, 19, 259-276.
279
280 \bibitem{liwo_2001}
281     A. Liwo, C. Czaplewski, J. Pillardy, H.A. Scheraga.
282     Cumulant-based expressions for the multibody terms for the correlation between
283     local and electrostatic interactions in the united-residue force field.
284     {\it J. Chem. Phys.}, {\bf 2001}, 115, 2323-2347.
285
286 \bibitem{lee_2001}
287     J. Lee, D.R. Ripoll, C. Czaplewski, J. Pillardy,  W.J. Wedemeyer,  H.A. Scheraga, 
288     Optimization of parameters in macromolecular potential energy functions by 
289     conformational space annealing. {\it J. Phys. Chem. B}, {\bf 2001}, 105, 7291-7298
290
291 \bibitem{pillardy_2001}
292     J. Pillardy,  C. Czaplewski, A. Liwo, W.J. Wedemeyer, J. Lee, D.R. Ripoll, 
293     P. Arlukowicz, S. Oldziej, Y.A. Arnautova,  H.A. Scheraga, 
294     Development of physics-based energy functions that predict medium-resolution 
295     structures for proteins of the $\alpha, \beta$, and $\alpha/\beta$  structural classes. 
296     {\it J. Phys. Chem. B}, {\bf 2001}, 105, 7299-7311
297
298 \bibitem{liwo_2002}
299     A. Liwo, P. Arlukowicz, C. Czaplewski, S. Oldziej, J. Pillardy, H.A. Scheraga.
300     A method for optimizing potential-energy functions by a hierarchical design
301     of the potential-energy landscape: Application to the UNRES force field.
302     {\it Proc. Natl. Acad. Sci. U.S.A.}, {\bf 2002}, 99, 1937-1942.
303
304 \bibitem{saunders_2003}
305     J. A. Saunders and H.A. Scheraga.
306     Ab initio structure prediction of two $\alpha$-helical oligomers
307     with a multiple-chain united-residue force field and global search.
308     {\it Biopolymers}, {\bf 2003}, 68, 300-317.
309
310 \bibitem{saunders_2003_02}
311     J.A. Saunders and H.A. Scheraga.
312     Challenges in structure prediction of oligomeric proteins at the united-residue
313     level: searching the multiple-chain energy landscape with CSA and CFMC procedures.
314     {\it Biopolymers}, {\bf 2003}, 68, 318-332.
315
316 \bibitem{oldziej_2003}
317      S. Oldziej, U. Kozlowska, A. Liwo, H.A. Scheraga.
318      Determination of the potentials of mean force for rotation about C$^\alpha$-C$^\alpha$
319      virtual bonds in polypeptides from the ab initio energy surfaces of terminally 
320      blocked glycine, alanine, and proline. {\it J. Phys. Chem. A}, {\bf 2003}, 107, 8035-8046.
321
322 \bibitem{liwo_2004}
323      A. Liwo, S. Oldziej, C. Czaplewski, U. Kozlowska, H.A. Scheraga.
324      Parameterization of backbone-electrostatic and multibody contributions
325      to the UNRES force field for protein-structure prediction from ab initio
326      energy surfaces of model systems. {\it J. Phys. A}, {\bf 2004}, 108, 9421-9438.
327
328 \bibitem{oldziej_2004}
329      S. Oldziej, A. Liwo, C. Czaplewski, J. Pillardy, H.A. Scheraga.
330      Optimization of the UNRES force field by hierarchical design of the
331      potential-energy landscape. 2. Off-lattice tests of the method with single
332      proteins.  {\it J. Phys. Chem. B.}, {\bf 2004}, 108, 16934-16949.
333
334 \bibitem{oldziej_2004_02}
335      S. Oldziej, J. Lagiewka, A. Liwo, C. Czaplewski, M. Chinchio,
336      M. Nanias, H.A. Scheraga.
337      Optimization of the UNRES force field by hierarchical design of the
338      potential-energy landscape. 3. Use of many proteins in optimization.
339      {\it J. Phys. Chem. B.}, {\bf 2004}, 108, 16950-16959.
340
341 \bibitem{oldziej_2004_03}
342      M. Khalili, A. Liwo, F. Rakowski, P. Grochowski, H.A. Scheraga.
343      Molecular dynamics with the united-residue model of polypeptide chains.
344      I. Lagrange equations of motion and tests of numerical stability in the
345      microcanonical mode, {\it J. Phys. Chem. B}, {\bf 2005}, 109, 13785-13797.
346
347 \bibitem{khalili_2005}
348      M. Khalili, A. Liwo, A. Jagielska, H.A. Scheraga.
349      Molecular dynamics with the united-residue model of polypeptide chains.
350      II. Langevin and Berendsen-bath dynamics and tests on model $\alpha$-helical
351      systems. {\it J. Phys. Chem. B}, {\bf 2005}, 109, 13798-13810.
352
353 \bibitem{khalili_2005_02}
354      A. Liwo, M. Khalili, H.A. Scheraga.
355      Ab initio simulations of protein-folding pathways by molecular dynamics with
356      the united-residue model of polypeptide chains.
357      {\it Proc. Natl. Acad. Sci. U.S.A.}, {\bf 2005}, 102, 2362-2367.
358
359 \bibitem{rakowski_2006}
360      F. Rakowski, P. Grochowski, B. Lesyng, A. Liwo, H. A. Scheraga.
361      Implementation of a symplectic multiple-time-step molecular dynamics algorithm,
362      based on the united-residue mesoscopic potential energy function.
363      {\it J. Chem. Phys.}, {\bf 2006}, 125, 204107.
364
365 \bibitem{nanias_2006}
366      M. Nanias, C. Czaplewski, H.A. Scheraga.
367      Replica exchange and multicanonical algorithms with the coarse-grained
368      united-residue (UNRES) force field.
369      {\it J. Chem. Theory and Comput.}, {\bf 2006}, 2, 513-528.
370
371 \bibitem{liwo_2007}
372      A. Liwo, M. Khalili, C. Czaplewski, S. Kalinowski, S. Oldziej, K. Wachucik, H.A. Scheraga.
373      Modification and optimization of the united-residue (UNRES) potential energy
374      function for canonical simulations. I. Temperature dependence of the effective
375      energy function and tests of the optimization method with single training
376      proteins.
377      {\it J. Phys. Chem. B}, {\bf 2007}, 111, 260-285.
378
379 \bibitem{kozlowska_2007}
380      U. Kozlowska, A. Liwo, H.A. Scheraga.
381      Determination of virtual-bond-angle potentials of mean force for coarse-grained
382      simulations of protein structure and folding from ab initio energy surfaces of
383      terminally-blocked glycine, alanine, and proline.
384      {\it J. Phys.: Condens. Matter}, {\bf 2007}, 19, 285203.
385
386 \bibitem{chichio_2007}
387      M. Chinchio, C. Czaplewski, A. Liwo, S. Oldziej, H.A. Scheraga.
388      Dynamic formation and breaking of disulfide bonds in molecular dynamics
389      simulations with the UNRES force field.
390      {\it J. Chem. Theory Comput.}, {\bf 2007}, 3, 1236-1248.
391
392 \bibitem{rojas_2007}
393      A.V. Rojas, A. Liwo, H.A. Scheraga.
394      Molecular dynamics with the united-residue force field: Ab Initio folding
395      simulations of multichain proteins.
396      {\it J. Phys. Chem. B}, {\bf 2007}, 111, 293-309.
397
398 \bibitem{liwo_2008}
399      A. Liwo, C. Czaplewski, S. Oldziej, A.V. Rojas, R. Kazmierkiewicz,
400      M. Makowski, R.K. Murarka, H.A. Scheraga.
401      Simulation of protein structure and dynamics with the coarse-grained UNRES
402      force field. In: Coarse-Graining of Condensed Phase and Biomolecular
403      Systems., ed. G. Voth, Taylor \& Francis, 2008, Chapter 8, pp. 107-122.
404
405 \bibitem{czaplewski_2009}
406      C. Czaplewski, S. Kalinowski, A. Liwo, H.A. Scheraga.
407      Application of multiplexed replica exchange molecular dynamics
408      to the UNRES force field: tests with $\alpha$ and $\alpha+\beta$ proteins.
409      {\it J. Chem. Theory Comput.}, {\bf 2009}, 5, 627-640.
410
411 \bibitem{he_2009}
412      Y. He, Y. Xiao, A. Liwo, H.A. Scheraga.
413      Exploring the parameter space of the coarse-grained UNRES force field by random 
414      search: selecting a transferable medium-resolution force field.
415      {\it J. Comput.  Chem.}, {\bf 2009}, 30, 2127-2135.
416  
417 \bibitem{kozlowska_2010}
418      U. Kozlowska, A. Liwo. H.A. Scheraga.
419      Determination of side-chain-rotamer and side-chain and backbone
420      virtual-bond-stretching potentials of mean force from AM1 energy surfaces of
421      terminally-blocked amino-acid residues, for coarse-grained simulations of
422      protein structure and folding. 1. The Method.
423      {\it J. Comput. Chem.}, {\bf 2010}, 31, 1143-1153.
424
425 \bibitem{kozlowska_2010_02}
426      U. Kozlowska, G.G. Maisuradze, A. Liwo, H.A. Scheraga.
427      Determination of side-chain-rotamer and side-chain and backbone
428      virtual-bond-stretching potentials of mean force from AM1 energy surfaces of
429      terminally-blocked amino-acid residues, for coarse-grained simulations of
430      protein structure and folding. 2. Results, comparison with statistical
431      potentials, and implementation in the UNRES force field.
432      {\it J. Comput. Chem.}, {\bf 2010}, 31, 1154-1167.
433
434 \bibitem{liwo_2010}
435      A. Liwo, S. Oldziej, C. Czaplewski, D.S. Kleinerman, P. Blood, H.A. Scheraga.
436      Implementation of molecular dynamics and its extensions with the coarse-grained 
437      UNRES force field on massively parallel systems; towards millisecond-scale 
438      simulations of protein structure, dynamics, and thermodynamics.
439      {\it J. Chem. Theory Comput.}, {\bf 2010}, 6, 890-909.
440
441 \bibitem{sieradzan_2012}
442 A.K. Sieradzan, U.H.E. Hansmann, H.A. Scheraga, A. Liwo.
443 Extension of UNRES force field to treat polypeptide chains with D-amino-acid residues.
444 {\it J. Chem. Theory Comput.}, {\bf 2012}, 8, 4746-4757.
445
446 \bibitem{krupa_2013}
447 P. Krupa, A.K. Sieradzan, S. Rackovsky, M. Baranowski, S. O{\l}dziej,
448 H.A. Scheraga, A. Liwo, C. Czaplewski.
449 Improvement of the treatment of loop structures in the UNRES
450 force field by inclusion of coupling between backbone- and
451 side-chain-local conformational states
452 {\it J. Chem. Theory Comput.}, {\bf 2013}, 4620-4632.
453
454 \bibitem{sieradzan_2014}
455 A.K. Sieradzan, A. Niadzvedtski, H.A. Scheraga, A. Liwo.
456 Revised backbone-virtual-bond-angle potentials to treat the L- and D-amino
457 acid residues in the coarse-grained united residue (UNRES) force field.
458 {\it J. Chem. Theory Comput.}, {\bf 2014}, 10, 2194-2203.
459
460 \bibitem{sieradzan_2015}
461 A.K. Sieradzan, P. Krupa, H.A. Scheraga, A. Liwo, C. Czaplewski.
462 Physics-based potentials for the coupling between backbone- and
463 side-chain-local conformational states in the united residue
464 (UNRES) force field for protein simulations. 
465 {\it J. Chem. Theory Comput.}, {\bf 2015}, 11, 817-831.
466
467 \bibitem{krupa_2017}
468 P. Krupa, A. Ha"labis, W. "Rmudzi"nska, S. O"ldziej, H.A. Scheraga, A. Liwo.
469 Maximum Likelihood Calibration of the UNRES Force Field for
470 Simulation of Protein Structure and Dynamics.
471 \textit{J. Chem. Inf. Model}. \textbf{2017}, 57, 2364-2377
472
473 \bibitem{karczynska_2018}
474 A.S. Karczy"nska, M.A. Mozolewska, P. Krupa, A. Gie"ldo"n, A. Liwo, C. Czaplewski.
475 Prediction of protein structure with the coarse-grained UNRES
476 force field assisted by small X-ray scattering data and
477 knowledge-based information.
478 \textit{Proteins: Struct. Func. Bioinfo.}, \textbf{2018}, 86 (S1), 228-239. %DOI: 10.1002/prot.25421.
479
480 \bibitem{czaplewski_2018}
481 C. Czaplewski, A. Karczy"nska, A.K. Sieradzan, A. Liwo.
482 UNRES server for physics-based coarse-grained simulations and prediction 
483 of protein structure, dynamics and thermodynamics.
484 \textit{Nucleic Acids Research}, \textbf{2018}, 46, W304-W309.
485
486 \end{thebibliography}
487 \endgroup
488
489 \newpage
490
491 \section{INSTALLATION}
492 \label{sect:install}
493
494 Please follow the instructions in the installation guide to download and put the package on your
495 system. In what follows, \$UNRESROOT is the location of the UNRES package in your system. 
496
497 It is recommended to install all components of the package using the Cmake utility. 
498 Please follow the instructions in the installation guide.
499
500 This section describes the installation of only the UNRES component of the package,
501 using make program. Sample Makefiles are present in the respective source directories.
502
503 To produce the executable do the following:
504
505 \begin{enumerate}[(a)]
506 %a) 
507 \item
508   To build parallel version, make sure that MPI is installed in your system. 
509    Note that the package will have limited functions when compiled in a single-CPU mode.
510    On linux cluster the command source \$HOME/.env should be added to .tcshrc
511    or equivalent file to use parallel version of the program, the
512    alternative is to use queuing system like PBS.
513    In some cases the FORTRAN library subroutine GETENV does not work properly
514    with MPI, if the script is run interactively. In such a case try to 
515    add the source mygentenv.F and turn on the -DMYGETENV preprocessor flag.
516 %b) 
517 \item
518    Change directory to the respective source directory.
519 %c) 
520 \item
521    Select the appropriate Makefile\_xxxx or copy the most matching Makefile\_xxx 
522    to another name (e.g., Makefile\_MySystem) and edit it to customize to your
523    system. Note that the CSA version works only with MPI.
524
525    Makefile\_pgf90 - Linux, the pgf90 compiler,
526    Makefile\_intel  - Linux, Intel Fortran compiler,
527    Makefile\_gfortran - Gnu Fortran compiler,
528    Makefile\_bluegene - BlueGene/Q (AIX Fortan).
529
530 \textbf{
531    Please note that Makefile must be a symbolic link to the Makefile\_xxx of choice. Make sure 
532 that the file cinfo.f is present; if not, execute:
533 }   
534
535 \begin{verbatim}
536 touch cinfo.f
537 \end{verbatim}
538
539    Other systems should not cause problems; all you have to do is to change 
540    the compiler, compiler options, and preprocessor options. 
541
542    By default, the executables will be placed in \$UNRESROOT/bin/unres/CSA
543    \$UNRESROOT/bin/unres/MD and UNRES/bin/unres/MINIM, respectively.
544
545    The following architectures are defined in the .F source files:
546
547 \begin{description}
548
549    \item{AIX} -- AIX systems (put -DAIX as one of the preprocessor options, if
550      this is your system).
551
552    \item{LINUX} -- Linux (put -DLINUX).
553
554    \item{G77} -- Gnu-Fortran compilers (might require sum moderate source code editing)
555          (put -DG77). The recommended compiler is gfortran and not g77.
556
557    \item{PGI} -- PGI compilers.
558
559    \item{WINPGI} -- additional setting for PGI compilers for MS Windows.
560
561    \item{SGI} -- all SGI platforms; should also be good for SUN platforms (put -DSGI). 
562
563    \item{CRAY} -- handles some Cray-specific I/Os and other instructions.
564
565    \item{WIN} -- MS Windows with Digital Fortran compiler (put -DWIN)
566
567 \end{description}
568
569    For other platforms, the only problems might appear in connection with
570    machine-specific I/O instructions. Many files are opened in the append
571    mode, whose specification in the OPEN statement is quite machine-dependent. 
572    In this case you might need to modify the source code accordingly.
573    The other platform dependent routines are the timing routines contained
574    in timing.F. In addition to the platforms specified above, ES9000, SUN, 
575    KSR, and CRAY are defined there.
576
577    For parallel build -DMP and -DMPI must be set (these are set in Makefile). 
578
579    IMPORTANT! Apart from this, two define flags: -DCRYST\_TOR and -DMOMENT
580    define earlier versions of the force field. The MUST NOT be entered, if
581    the CASP5 and later versions of the force field are used.
582
583 %d)
584 \item
585    Build the unres executables by typing at your UNIX prompt:
586
587 \begin{verbatim}
588    make                    # will build unres
589    make clean              # will remove the object files
590 \end{verbatim}
591
592    The bin directory contains pre-built binaries for Red Hat Linux. These 
593    executables are specified in the csh scripts listed in section 4.
594
595 %e) 
596 \item
597    Customize the C-shell scripts unres.unres (to run the parallel version on
598    set of workstation). See the next section of this manual for guidance.
599
600 After the executables are build and C-shell scripts customized, you can run the
601 test examples contained in UNRES/examples.
602
603 \end{enumerate}
604
605 \newpage
606
607 \section{CUSTOMIZING YOUR C-SHELL SCRIPT}
608 \label{sect:custom}
609
610 IMPORTANT NOTE -- The unres.csh script is for Linux and should also be easily
611 adaptable to other systems running MPICH. This script is for interactive
612 parallel jobs. Examples of scripts compatible with PBS (pbs.sub) and LoadLever 
613 (sp2.sub) queuing systems are also provided.
614
615 Edit the following lines in your unres.csh script:
616
617 \begin{verbatim}
618 set DD = your_database_directory
619 \end{verbatim}
620
621 e.g., if you installed the package on the directory /usr/local, this line
622 looks like this:
623
624 \begin{verbatim}
625 set DD = /usr/local/UNRES/PARAM
626 set BIN = your_binaries_directory
627 set FGPROCS = number_of_processors_per_energy/force_evaluation (MD)
628 \end{verbatim}
629
630 e.g., if the root directory is as above:
631
632 \begin{verbatim}
633 set BIN = /usr/local/UNRES/bin
634 \end{verbatim}
635
636 \section{COMMAND LINE AND FILES}
637 \label{sect:command}
638
639 To run UNRES interactively enter the following command at your Unix prompt 
640 or put it in the batch script:
641
642 \begin{verbatim}
643 unres.csh POTENTIAL INPUT N_PROCS
644 \end{verbatim}
645
646 where:
647
648 POTENTIAL specifies the side-chain interaction potential type and must be
649 one  of the following:
650
651 \begin{description}
652
653 \item{LJ}  -- 6-12 radial Lennard-Jones.
654
655 \item{LJK} -- 6-12 radial Lennard-Jones-Kihara (shifted Lennard Jones).
656
657 \item{BP}  -- 6-12 anisotropic Berne-Pechukas based on Gaussian overlap (dilated
658       Lennard-Jones).
659
660 \item{GB}  -- 6-12 anisotropic Gay-Berne (shifted Lennard-Jones).
661
662 \item{GBV} -- 6-12 anisotropic Gay-Berne-Vorobjev (shifted Lennard-Jones).
663
664 See section \ref{sect:forcefields} (Force Fields) for explanation and usage.
665
666 At present, only the LJ and GB potentials are applied. The LJ potential
667 is used in the ``CASP3'' version of the UNRES force field that is able
668 to predict only $\alpha$-helical structures. All further version of the
669 UNRES force field use the GB potential. For the description of all above-mentioned 
670 potentials see ref. \cite{liwo_1997_02}.
671
672 \item{INPUT} is the prefix for input and output files (see below)
673
674 \item{N\_PROCS} is the number of processors; for a CSA or REMD/MREMD run it MUST be at least 2.
675
676 \end{description}
677
678 Note! The script takes one more variable, FGPROCS, as the fourth argument,
679 which is the number of fine-grain processors to parallelize energy
680 evaluations. The corresponding code is in UNRES/CSA, but it was written
681 using MPL instead of MPI and therefore is never used in the present version.
682 At present we have no plans to rewrite fine-grain parallelization using MPI,
683 because we found that the scalability for up to 200 residue polypeptide
684 chains was very poor, due to a small number of interactions and,
685 correspondingly, unfavorable ratio of the overhead to the computation time.
686
687 \begin{description}
688
689 \item{INPUT.inp} contains the main input data and the control parameters of the CSA
690    method. 
691
692 \item{INPUT.out\_POTENTIAL\_xxx} is the main output files from different processors; xxx
693    denotes the number of the processor
694
695 \item{INPUT\_POTENTIALxxx.stat} is the summary files with the energies, energy components,
696    and RMS deviations of the conformations produced by each of the processors;
697    not used in CSA runs; also it outputs different quantity in MD/MREMD runs.
698
699 CSA version specific files:
700
701 \item{INPUT\_POTENTIALxxx.int} is the internal coordinates; in the CSA run 
702
703 \item{INPUT\_POTENTIAL\_000.int} contains the coordinates of the conformations,
704    and the other files are empty
705
706 \item{INPUT.CSA.history} is the history file from a CSA run. This is an I/O file, because
707    it can be used to restart an interrupted CSA run.
708
709 \item{INPUT.CSA.seed} stores the random seed generated in a CSA run; written for
710    restart purposes.
711
712 \item{INPUT.CSA.bank} is the current bank of conformations obtained in CSA calculations
713    (expressed as internal coordinates). This information is also stored in
714    INPUT\_POTENTIAL000.int
715
716 \item{INPUT.CSA.rbank} -- as above, but contains random-generated conformations.
717
718 \end{description}
719
720 MD version specific files:
721
722 \begin{description}
723
724 \item{INPUT\_MDyyy.pdb} is the Cartesian coordinates of the conformations in PDB format.
725
726 \item{INPUT\_MDyyy.x} is the Cartesian coordinates of the conformations in ASCII format.
727
728 \item{INPUT\_MDyyy.cx} is the Cartesian coordinates of the conformations in compressed format
729                  (need xdr2pdb to convert to PDB format).
730 \end{description}
731
732 The program currently produces some more files, but they are not used
733 for any purposes and most of them are scratched after a run is completed.
734
735 The run script also contains definitions of the parameter files through the
736 following environmental variables:
737
738 \begin{description}
739
740 \item{SIDEPAR} -- parameters of the SC-SC interaction potentials ($U_{SC SC}$);
741
742 \item{SCPPAR} -- parameters of the SC-p interaction potential ($U_{SCp}$); this file can 
743   be ignored by specifying the -DOLDSCP preprocessor flag, which means that the 
744   built-in parameters are used; at present they are the same as the parameters 
745   in the file specified by SCPPAR;
746
747 \item{ELEPAR} -- parameters of the p-p interaction potentials ($U_{pp}$);
748
749 \item{FOURIER} -- parameters of the multibody potentials of the coupling between the
750           backbone-local and backbone-electrostatic interactions ($U_{corr}$);
751
752 \item{THETPAR} -- parameters of the virtual-bond-angle bending potentials ($U_b$);
753
754 \item{ROTPAR}  -- parameters of the side-chain rotamer potentials ($U_{rot}$);
755
756 \item{TORPAR} -- parameters of the torsional potentials ($U_{rot}$);
757
758 \item{TORDPAR} -- parameters of the double-torsional potentials.
759
760 \item{SCCORPAR} -- parameters of the torsional potentials that account for the
761 coupling between the local backbone and local sidechain states (implemented recently).
762
763 \end{description}
764
765 \newpage
766
767 \section{FORCE FIELDS}
768 \label{sect:forcefields}
769
770 UNRES is being developed since 1997 and several versions of the force field
771 were produced. The settings and references to these force fields are
772 summarized below.
773
774 Force fields for CSA version (can be used in MD but haven't been parameterized for this 
775 purpose).
776
777 {\small
778 \hspace{-2cm}\begin{longtable}{|l|l|l|l|l|l|l|}\hline
779 \small
780 %---------------------------------------------------------------------------------------
781             & Additional    & SC-SC    & Example script   &  Structural    &\\
782 Force field & compiler flags& potential& and executables  & classes covered& References\\
783             &               &          & (Linux; PGF90    &&\\
784             &               &          & and IFC)         &&\\ \hline
785 %---------------------------------------------------------------------------------------
786 CASP3       & -DCRYST\_TOR   & LJ       & unres\_CASP3.csh    &only $\alpha$ &\cite{liwo_1997,liwo_1997_02,liwo_1998}\\
787             & -DCRYST\_BOND  &     &unres\_pgf90\_cryst\_tor.exe&&\\
788             & -DCRYST\_THETA &     &unres\_ifc6\_cryst\_tor.exe &&\\
789             & -DCRYST\_SC    &&&&\\
790             & -DMOMENT      &&&&\\
791 &&&&&\\
792 ALPHA       & -DMOMENT      & GB  &      unres\_CASP4.csh    &only $\alpha$ &\cite{liwo_2001,lee_2001,pillardy_2001}\\
793             & -DCRYST\_BOND  &     &unres\_pgf90\_moment.exe   &&\\
794             & -DCRYST\_THETA &     &unres\_ifc6\_moment.exe    &&\\
795             & -DCRYST\_SC    &&&&\\
796 &&&&&\\ 
797 BETA        & -DMOMENT      & GB  &      unres\_CASP4.csh    &only $\beta$  &\cite{liwo_2001,lee_2001,pillardy_2001}\\
798             & -DCRYST\_BOND  &     &unres\_pgf90\_moment.exe   &&\\
799             & -DCRYST\_THETA &     &unres\_ifc6\_moment.exe    &&\\
800             & -DCRYST\_SC&&&&\\
801 &&&&&\\
802 ALPHABETA   & -DMOMENT      & GB  &      unres\_CASP4.csh    & all       &\cite{liwo_2001,lee_2001,pillardy_2001}\\
803             & -DCRYST\_BOND  &     &unres\_pgf90\_moment.exe   &&\\
804             & -DCRYST\_THETA &     &unres\_ifc6\_moment.exe    &&\\
805             & -DCRYST\_SC &&&&\\
806 &&&&&\\
807 CASP5       & -DCRYST\_BOND  & GB  &      unres\_CASP5.csh    & all       &\cite{liwo_2002,saunders_2003,saunders_2003_02,liwo_2004}\\
808             & -DCRYST\_THETA &     &      unres\_pgf90.exe    &&\\
809             & -DCRYST\_SC    &     &      unres\_ifc6.exe     &&\\
810 &&&&&\\
811 3P          & -DCRYST\_BOND  & GB  &      unres\_3P.csh       & all       &\cite{oldziej_2004,oldziej_2004_02}\\
812             & -DCRYST\_THETA &     &      unres\_pgf90.exe    &&\\
813             & -DCRYST\_SC    &     &      unres\_ifc6.exe     &&\\
814 &&&&&\\
815 4P          & -DCRYST\_BOND  & GB  &      unees\_4P.csh       & all       &\cite{oldziej_2004,oldziej_2004_02}\\
816             & -DCRYST\_THETA &     &      unres\_pgf90.exe&&\\
817             & -DCRYST\_SC    &     &      unres\_ifc6.exe&&\\ \hline
818 %---------------------------------------------------------------------------------------
819 \end{longtable}
820 }
821
822 \newpage
823
824 Force fields for MD version \cite{khalili_2005,khalili_2005_02}.
825
826 {\small
827 \begin{longtable}{|l|l|l|l|l|l|l|}\hline
828 %---------------------------------------------------------------------------------------
829             & Additional    & SC-SC    & Example script   &  Structural    &\\
830 Force field & compiler flags& potential& and executables  & classes covered& References\\
831             &               &          & (Linux; PGF90&&\\
832             &               &          & and IFC)&&\\ \hline
833 %---------------------------------------------------------------------------------------
834 GAB         & -DCRYST\_BOND  & GB       & unres\_GAB.csh    &  mostly $\alpha$  & \cite{liwo_2007}\\
835             & -DCRYST\_THETA &&&&\\
836             & -DCRYST\_SC    &&&&\\     
837             & -DPROCOR       &&&&\\     
838 &&&&&\\
839 E0G         & -DCRYST\_BOND  & GB       & unres\_E0G.csh    &  mostly $\alpha$  & \cite{liwo_2007}\\
840             & -DCRYST\_THET  &&&&\\
841             & -DCRYST\_SC    &&&&\\
842             & -DPROCOR       &&&&\\
843 &&&&&\\ 
844 E0LL2Y      &-DPROCOR        & GB       & unres\_ab.csh     &  all           & \cite{liwo_2007,kozlowska_2007,he_2009,kozlowska_2010,kozlowska_2010_02}\\ \hline
845 %---------------------------------------------------------------------------------------
846 \end{longtable}
847 }
848
849 The example scripts (the *.csh filed) contain all appropriate parameter files, while 
850 the energy-term weights are provided in the example input files listed in EXAMPLES.TXT
851 (*.inp; see section \ref{sect:input}. for description of the input files). However, it is user's 
852 responsibility to specify appropriate compiler flags. Note that a version WILL NOT work, 
853 if the force-field specific compiler flags are not set. The parameter files specified 
854 in the run script also must strictly correspond to the energy-term weights specified in 
855 the input file. The parameter files for specific force fields are also specified below 
856 and the energy-term weights are specified in section \ref{sect:input}.
857
858 The parameter files are as follows (the environment variables from section \ref{sect:command} are
859 used to identify the parameters):
860
861 CASP3:
862
863 \begin{longtable}{ll}
864 BONDPAR &bond.parm \\
865 THETPAR &thetaml.5parm\\
866 ROTPAR  &scgauss.parm\\
867 TORPAR  &torsion\_cryst.parm\\
868 TORDPAR &torsion\_double\_631Gdp.parm (not used)\\
869 SIDEPAR &scinter\_LJ.parm\\
870 ELEPAR  &electr.parm\\
871 SCPPAR  &scp.parm\\
872 FOURIER &fourier\_GAP.parm (not used)\\
873 SCCORPAR&sccor\_am1\_pawel.dat (not used)\\
874 \end{longtable}
875
876 ALPHA, BETA, ALPHABETA (CASP4):
877
878 \begin{longtable}{ll}
879 BONDPAR &bond.parm \\
880 THETPAR &thetaml.5parm\\
881 ROTPAR  &scgauss.parm\\
882 TORPAR  &torsion\_ecepp.parm\\
883 TORDPAR &torsion\_double\_631Gdp.parm (not used)\\
884 SIDEPAR &scinter\_GB.parm\\
885 ELEPAR  &electr.parm\\
886 SCPPAR  &scp.parm\\
887 FOURIER &fourier\_GAP.parm\\
888 SCCORPAR&sccor\_am1\_pawel.dat (not used)\\
889 \end{longtable}
890
891 CASP5:
892
893 \begin{longtable}{ll}
894 BONDPAR &bond.parm\\
895 THETPAR &thetaml.5parm\\
896 ROTPAR  &scgauss.parm\\
897 TORPAR  &torsion\_631Gdp.parm\\
898 TORDPAR &torsion\_double\_631Gdp.parm\\
899 SIDEPAR &scinter\_GB.parm\\
900 ELEPAR  &electr\_631Gdp.parm\\
901 SCPPAR  &scp.parm\\
902 FOURIER &fourier\_opt.parm.1igd\_iter7n\_c\\
903 SCCORPAR&sccor\_am1\_pawel.dat (not used)\\
904 \end{longtable}
905
906 3P:
907
908 \begin{longtable}{ll}
909 BONDPAR &bond.parm\\
910 THETPAR &thetaml.5parm\\
911 ROTPAR  &scgauss.parm\\
912 TORPAR  &torsion\_631Gdp.parm\\
913 TORDPAR &torsion\_double\_631Gdp.parm\\
914 SIDEPAR &sc\_GB\_opt.3P7\_iter81\_1r\\
915 ELEPAR  &electr\_631Gdp.parm\\
916 SCPPAR  &scp.parm\\
917 FOURIER &fourier\_opt.parm.1igd\_hc\_iter3\_3\\
918 SCCORPAR&sccor\_am1\_pawel.dat (not used)\\
919 \end{longtable}
920
921 4P:
922
923 \begin{longtable}{ll}
924 BONDPAR &bond.parm\\
925 THETPAR &thetaml.5parm\\
926 ROTPAR  &scgauss.parm\\
927 TORPAR  &torsion\_631Gdp.parm\\
928 TORDPAR &torsion\_double\_631Gdp.parm\\
929 SIDEPAR &sc\_GB\_opt.4P5\_iter33\_3r\\
930 ELEPAR  &electr\_631Gdp.parm\\
931 SCPPAR  &scp.parm\\
932 FOURIER &fourier\_opt.parm.1igd\_hc\_iter3\_3\\
933 SCCORPAR&sccor\_am1\_pawel.dat (not used)\\
934 \end{longtable}
935
936 GAB:
937
938 \begin{longtable}{ll}
939 BONDPAR &bond.parm\\
940 THETPAR &thetaml.5parm\\
941 ROTPAR  &scgauss.parm\\
942 TORPAR  &torsion\_631Gdp.parm\\
943 TORDPAR &torsion\_double\_631Gdp.parm\\
944 SIDEPAR &sc\_GB\_opt.1gab\_3S\_qclass5no310-shan2-sc-16-10-8k\\
945 ELEPAR  &electr\_631Gdp.parm\\
946 SCPPAR  &scp.parm\\
947 FOURIER &fourier\_opt.parm.1igd\_hc\_iter3\_3\\
948 SCCORPAR&sccor\_pdb\_shelly.dat\\
949 \end{longtable}
950
951 E0G:
952
953 \begin{longtable}{ll}
954 BONDPAR &bond.parm\\
955 THETPAR &thetaml.5parm\\
956 ROTPAR  &scgauss.parm\\
957 TORPAR  &torsion\_631Gdp.parm\\
958 TORDPAR &torsion\_double\_631Gdp.parm\\
959 SIDEPAR &sc\_GB\_opt.1e0g-52-17k-2k-newclass-shan1e9\_gap8g-sc\\
960 ELEPAR  &electr\_631Gdp.parm\\
961 SCPPAR  &scp.parm\\
962 FOURIER &fourier\_opt.parm.1igd\_hc\_iter3\_3\\
963 SCCORPAR&sccor\_pdb\_shelly.dat\\
964 \end{longtable}
965
966 E0LL2Y:
967
968 \begin{longtable}{ll}
969 BONDPAR &bond\_AM1.parm\\
970 THETPAR &theta\_abinitio.parm\\
971 ROTPAR  &rotamers\_AM1\_aura.10022007.parm\\
972 TORPAR  &torsion\_631Gdp.parm\\
973 TORDPAR &torsion\_double\_631Gdp.parm\\
974 SIDEPAR &scinter\_\${POT}.parm\\
975 ELEPAR  &electr\_631Gdp.parm\\
976 SCPPAR  &scp.parm\\
977 FOURIER &fourier\_opt.parm.1igd\_hc\_iter3\_3\\
978 SCCORPAR&sccor\_am1\_pawel.dat\\
979 \end{longtable}
980
981 Additionally, for E0LL2Y, the following environment variables and files are required
982 to generate random conformations:
983
984 THETPARPDB thetaml.5parm\\
985 ROTPARPDB scgauss.parm
986
987 For CSA, the best force field is 4P. For MD, the E0LL2Y force field is best for
988 ab initio prediction but provides medium resolution (5 A for 60-residue proteins) and 
989 overemphasizes $\beta$-structures and has to be run with secondary-structure-prediction
990 information. For prediction of the structure of mostly $\alpha$-protein, and for running
991 dynamics of large proteins, the best is the GAB force field. All these force fields
992 were trained by using our procedure of hierarchical optimization \cite{oldziej_2004,oldziej_2004_02}.
993 The 4P and E0LL2Y force fields have considerable power independent of structural class. 
994 The ALPHA, BETA, and ALPHABETA force fields (for CSA) were used in the CASP4 exercises
995 and the CASP5 force field was used in the CASP5 exercise with some success; ALPHA 
996 predicts reasonably the structure of $\alpha$-helical proteins and is still not obsolete, 
997 while for $\beta$- and $\alpha+\beta$-structure prediction
998 3P or 4P should be used, because they are cheaper and more reliable than BETA and
999 ALPHABETA. The early CASP3 force field is included for historical reasons only.
1000
1001 \newpage
1002
1003 \section{INPUT FILES}
1004 \label{sect:input}
1005
1006 \subsection{Main input data file}
1007 \label{sect:input:main}
1008
1009 Most of the data are organized as data lists, where the data can be put
1010 in any order, using a series of statements of the form:
1011
1012 KEYWORD=value
1013
1014 for simple non-logical variables
1015
1016 or just
1017
1018 KEYWORD
1019
1020 to indicate that the corresponding option is turned on. For array variables
1021 the assignment statement is:
1022
1023 KEYWORD=value1,value2,...
1024
1025 However, the data lists are unnamed and that must be placed EXACTLY in the 
1026 order indicated below. The presence of an \& in the 80th column of a line
1027 indicates that the next line will belong to the same data group. The parser
1028 subroutines that interpret the keywords are case insensitive.
1029
1030 Each group of data organized as a data list is indicated as data list format 
1031 input.
1032
1033 \subsubsection{Title}
1034 \label{sect:input:main:title}
1035
1036 Any string containing up to 80 characters. The first input line is always 
1037 interpreted as title.
1038
1039 \subsubsection{Control data} 
1040 \label{sect:input:main:control}
1041
1042 This data section is in data list format and is read in the READ\_CONTROL subroutine.
1043
1044 \paragraph{Keywords to chose calculation type}
1045
1046 \begin{description}
1047
1048 \item{TIMLIM} -- time limit in minutes (960)
1049
1050 %\item{OUT1FILE} -- only the master processor prints the output file in a parallel job
1051
1052 \item{MINIMIZE} -- if present, energy minimization will be carried out.
1053
1054 \item{REGULAR} -- regularize the read in conformation (usually a crystal or
1055            NMR structure) by doing a series of three constrained minimizations,
1056            to keep the structure as close as possible to the starting
1057            (experimental) structure. The constraints are the CA-CA distances 
1058            of the initial structure. The constraints are gradually diminished
1059            and removed in the last minimization. 
1060
1061 \item{SOFTREG} -- regularize the read in conformation (usually a crystal or NMR
1062            structure) by doing a series of constrained minimizations, with
1063            additional use of soft potential and secondary structure
1064            freezing, to keep the structure as close as possible to the
1065            starting (experimental) structure. 
1066
1067            
1068 \item{CSA}    -- if present, the run is a CSA run. At present, this is the only 
1069           reliable mode of doing global conformational search with this
1070           package; it is NOT recommended to use MCM or THREAD for this
1071           purpose.
1072
1073 \item{MCM}  -- if present, this is a Monte Carlo Minimization (MCM) run. 
1074
1075 \item{MULTCONF} -- if present, conformations will be read from the INPUT.intin
1076           file.
1077
1078 \item{MD}  -- run canonical MD (single or multiple trajectories).
1079
1080 \item{RE}  -- run REMD or MREMD (parallel jobs only).
1081
1082 \item{MUCA}  -- run multicanonical MD calculations (parallel jobs only).
1083
1084 \item{MAP=number} (integer) --
1085 Conformational map will be calculated in chosen angles.
1086
1087 \item{THREAD=number} (integer) --
1088 Threading or threading-with-minimization run, using a database of structures 
1089 contained in the \$DD/patterns.cart pattern data base (502 chains or chain
1090 fragments), using a total number patterns. It is recommended to use this with 
1091 energy minimization; this implies regularization of each minimized pattern.
1092 See refs. \cite{liwo_1997_02} and \cite{liwo_1997_03}.
1093
1094 \item{CHECKGRAD} -- compare numerical and analytical gradient; to be followed by:
1095
1096 \item{CART}  -- energy gradient in virtual-bond vectors (Cartesian coordinates)
1097
1098 \item{INT}  -- energy gradient in internal coordinates (default)
1099
1100 \item{CARINT} -- derivatives of the internal coordinates in the virtual-bond vectors.
1101
1102 \end{description}
1103
1104 \paragraph{Specification of protein and structure output in non-MD applications}
1105
1106 \begin{description}
1107
1108 \item{ONE\_LETTER} -- one-letter and not three-letter code of the amino-acid residues 
1109             is used.
1110
1111 \item{SYM} (1) -- number of chains with same sequence (for oligomeric proteins only).
1112
1113 \item{PDBSTART} -- the initial conformation is read in from a PDB file.
1114
1115 \item{UNRES\_PDB} -- the starting conformation is in UNRES representation (C$^\alpha$
1116             and SC coordinates only). This keyword MUST appear in such a case
1117             or the program will generate erroneous and unrealistic side-chain
1118             coordinates.
1119
1120 \item{RAND\_CONF} -- start from a random conformation.
1121
1122 \item{EXTCONF}  -- start from an extended chain conformation.
1123
1124 \item{PDBOUT}  -- if present, conformations will be output in PDB format. Note that
1125            this keyword affects only the output from single energy evaluation,
1126            energy minimization and multiple-conformation data. To request
1127            conformations from MD/MREMD runs in PDB format, the MDPDB keyword
1128            must be placed on the MD input record.
1129
1130 \item{MOL2OUT} -- if present, conformations will be output in SYBYL mol2 format.
1131
1132 \item{REFSTR}  -- if present, reference structure will be read (e.g., to monitor
1133            the RMS deviation from the crystal structure).
1134
1135 \item{PDBREF} -- if present, a reference structure will be read in to compare
1136            the calculated conformations with it.
1137
1138 \item{UNRES\_PBD} -- the starting/reference structure is read from an UNRES-generated
1139             PDB file.
1140
1141 \item{NSAXS} -- number of distance-distribution bins corresponding to to SAXS
1142 restraints (to be included in further section of the input).
1143
1144 \item{SCAL\_RAD} -- scaling factor of sidechain radii in calculating Gaussian-smoothed distance distribution.
1145
1146 \item{BOXX, BOXY, BOXZ} - periodic-box dimensions.
1147
1148 \end{description}
1149
1150 Keywords: PDBOUT, MOL2OUT, PDBREF, and PDBSTART are ignored for a CSA run.
1151 Output mode for MD version is specified in MD input (see section \ref{sect:input:main:MD}).
1152
1153 \paragraph{Miscellaneous}
1154
1155 \begin{description}
1156
1157 \item{CONSTR\_DIST=number}
1158
1159 \begin{description}
1160 \item{0} -- no distance restraints,
1161 \item{$>0$} -- imposes harmonic restraints on selected distances; see section 5.12.
1162 In MD version, also restraints on the q variable \cite{liwo_2007} can be used.
1163 \end{description}
1164
1165 \item{WEIDIS=number} (real)
1166 the weight of the distance term; applies for REGULARIZE and THREAD, otherwise
1167 ignored.
1168
1169 \item{USE\_SEC\_PRED} -- use secondary-structure prediction information.
1170
1171 \item{SEED=number} (integer) (no default)
1172 Random seed (required, even if the run is not a CSA, MCM, MD or MREMD run).
1173
1174 \item{PHI} -- only the virtual-bond dihedral angles $\gamma$ are considered as
1175            variables in energy minimization.
1176
1177 \item{BACK} -- only the backbone virtual angles (virtual-bond angles theta and 
1178            virtual-bond dihedral angles $\gamma$) are considered as variables 
1179            in energy minimization.
1180
1181 By default, all internal coordinates: $\theta$, $\gamma$, and the side-chain
1182 centroid polar angles $\alpha$ and $\beta$ are considered as variables in energy
1183 minimization. 
1184
1185 \item{RESCALE\_MODE=number} (real)
1186 Choice of the type of temperature dependence of the force field.
1187 \begin{description}
1188 \item{0}  -- no temperature dependence
1189 \item{1}  -- homographic dependence (not implemented yet with any force field)
1190 \item{2}  -- hyperbolic tangent dependence \cite{liwo_2007}.
1191 \end{description}
1192
1193 \item{T\_BATH=number} (real)
1194 temperature (for MD runs and temperature-dependent force fields).
1195 \end{description}
1196
1197 The following keywords apply to MCM only:
1198
1199 \begin{description}
1200
1201 \item{MAXGEN=number} (integer) (10000)
1202 maximum number of conformations generated in a single MCM iteration
1203
1204 \item{MAXOVERLAP=number} (integer) (1000)
1205 maximum number of conformations with ``bad'' overlaps allowed to appear in a
1206 row in a single MCM iteration.
1207
1208 \item{DISTCHAINMAX} -- (multi-chain capacity only) maximum distance between the
1209                last residue of a given chain and the first residue of the
1210                next chain such that restraints will not be imposed; quartic
1211                restraints will be imposed for greater distances.
1212
1213 \item{ENERGY\_DEC} -- detailed energies will be printed for each interacting pair
1214              or each virtual bond, virtual-bond angle and dihedral angle,
1215              side chain, etc. DO NOT use unless a single energy evaluation
1216              was requested.
1217 \end{description}
1218
1219 \subsubsection{Minimizer options}
1220
1221 This data section is in data list format and is read in the READ\_MINIM subroutine.
1222
1223 This data group is present, if MINIMIZE was specified on the control card.
1224 Otherwise, it must not appear.
1225
1226 \begin{description}
1227
1228 \item{CART} -- minimize in virtual-bond vectors instead of angles.
1229
1230 \item{MAXMIN=number} (integer) (2000)
1231 maximum number of iterations of the SUMSL minimizer.
1232
1233 \item{MAXFUN=number} (integer) (5000)
1234 maximum number of function evaluations in a single minimization.
1235
1236 \item{TOLF=number} (real) (1.0e-2)
1237 Tolerance on function.
1238
1239 \item{RTOLF=number} (real) (1.0d-4)
1240 Relative tolerance on function.
1241
1242 \item{PRINT\_INI} -- turns on printing nondefault minimization parameters, 
1243 initial variables, and gradients in the SUMSL procedures.
1244
1245 \item{PRINT\_FINAL} -- turns on printing final variables and gradients in
1246 SUMSL.
1247
1248 \item{PRINT\_STAT} -- turns on printing abbreviated minimization protocol.
1249
1250 \end{description}
1251
1252 The SUMSL minimizer is used in UNRES/CSA. For detailed description of
1253 the control parameters see the source file cored.f and sumsld.f
1254
1255
1256 \subsubsection{CSA control parameters}
1257 \label{sect:input:main:CSA}
1258
1259 This data group should be present only, if CSA was specified on the control
1260 card. It is recommended that the readers to read publications on CSA method
1261 for more complete description of the parameters. Brief description of
1262 parameters:
1263
1264 \begin{description}
1265
1266 \item{NCONF=number} (integer) (50) 
1267 This corresponds to the size of the bank at the beginning of the
1268 CSA procedure. The size of the bank, nbank, is set to nconf.
1269 If necessary (at much later stages of the CSA: see icmax below), 
1270 nbank increases by multiple of nconf.
1271
1272 \item{JSTART=number} (integer) (1)
1273
1274 \item{JEND}=number (integer) (1)
1275 This corresponds to the limit values of do loop, each of which
1276 corresponds to an separate CSA run. If jstart=1, and jstart=100,
1277 this routine will repeat 100 separate CSA runs (limited by CPU)
1278 each one with separate random number initialization.
1279 The only difference between two CSA runs (one with jstart=jend=1 
1280 and another one with jstart=jend=2) would be different random
1281 number initializations if other parameters are identical.
1282
1283 \item{NSTMAX=number} (integer) (500000)
1284 This is to set a limit the total number of local minimizations of CSA
1285 before termination.
1286
1287 \end{description}
1288
1289 N1=number (integer) (6)\\
1290 N2=number (integer) (4)\\
1291 N3=number (integer) (0)\\
1292 N4=number (integer) (0)\\
1293 N5=number (integer) (0)\\
1294 N6=number (integer) (10)\\
1295 N7=number (integer) (0)\\
1296 N8=number (integer) (0)\\
1297 N9=number (integer) (0)\\
1298 IS1=number (integer) (1)\\
1299 IS2=number (integer) (8)\\
1300
1301 These numbers are used to generate trial conformations for each seed.
1302 See the file newconf.f for more details.
1303
1304 \begin{description}
1305  \item{n1:} the total number of trial conformations for each seed by substituting
1306      nran number of variable angles (see subroutine newconf1ab and 
1307      subroutine newconf1ar),
1308  \item{n2:} the total number of trial conformations for each seed by substituting
1309      nran number of groups of variable angles (see subroutine newconf1bb and 
1310      subroutine newconf1br),
1311  \item{n3:} the total number of trial conformations for each seed by substituting 
1312      a window of residues which forms a $\beta$-hairpin, if there is no enough
1313      $\beta$-hairpins uses the same algorithm as n6,
1314  \item{n4:} the total number of trial conformations for each seed by shifting the 
1315      turn in $\beta$-hairpin by +/- 1 or 2 residues, if there is no enough
1316      $\beta$-hairpins uses the same algorithm as n6,
1317  \item{n5:} not used, 
1318  \item{n6:} the total number of trial conformations for each seed by substituting
1319      a window of residues [is1,is2] inclusive. The size of the window is
1320      determined in a random fashion (see subroutine newconf\_residue for 
1321      generation of the trial conformations),
1322  \item{n7:} the total number of trial conformations for each seed by copying a 
1323      remote strand pair forming nonlocal $\beta$-sheet contact,
1324  \item{n8:} the total number of trial conformations for each seed by copying an
1325      $\alpha$-helical segment,
1326  \item{n9:} the total number of trial conformations for each seed by shifting the
1327      $\alpha$-helical segment by +/- 1 or 2 residues. 
1328 \end{description}
1329
1330 Typical values used for a 75-residue helical protein is
1331 (6 4 0 0 0 10 1 26) for (n1,n2,n3,n4,n5,n6,is1,is2), respectively.
1332 In this example, a total of 20 trial conformations are generated for a seed
1333 Usually is1=1 is used for all applications, and the value of is2 is set about
1334 to 1/3 of the total number of residues. n3, n4 and n7 are design to help in 
1335 case of proteins with $\beta$-sheets
1336
1337 NRAN0=number (integer) (4)\\
1338 NRAN1=number (integer) (2)\\
1339 IRR=number (integer) (1)\\
1340
1341 These numbers are used to determine if the CSA stage is very early.
1342 One can use (4 2 1) for these values. For more details one should look into
1343 the file, newconf.f, for more details.
1344
1345 NTOTAL=number (integer) (10000)\\
1346 CUT1=number (real) (2.0)\\
1347 CUT2=number (real) (5.0)\\
1348
1349 Annealing schedule is set in following fashion.
1350 The value of D\_cut is reduced geometrically from 1/cut1 of D\_ave (at the 
1351 beginning) to 1/cut2 of D\_ave (after ntotal number of minimizations) where 
1352 D\_ave is the average distance between two conformations in the First\_bank.
1353
1354 \begin{description}
1355
1356 \item{ESTOP=number} (real) (-3000.0)
1357 The CSA procedure stops if a conformations with energy lower than estop is
1358 obtained. If the do-loop set by jstart and jend requires more than one loop, 
1359 the program will go on until the  do-loop is finished.
1360
1361 \item{ICMAX=number} (integer) (3)
1362 The maximum value of cycle (see the original publications for details).
1363 If the number of cycle exceeds this value the program will add nconf
1364 more conformations to Bank and First\_bank to continue CSA procedure if
1365 the new size of the nbank is within the maximum set by nbankm (see above).
1366 If the size of  nbank exceeds the maximum set by nbankm the CSA procedure
1367 for this run will stop and next CSA will begin depending on the do-loop 
1368 set by jstart and jend.
1369
1370 \item{IRESTART=number} (integer) (0)
1371 This tells you if the run is fresh start (irestart=0) or a restart (irestart=1)
1372 starting from an old results 
1373
1374 \item{NDIFF=number} (integer) (2) 
1375 The number of variables use in comparison when structure is added to the
1376 bank,4 - all angels, 2 - only backbone angles $\gamma$ and $\theta$
1377
1378 \item{NBANKTM=number} (integer) (0)
1379 The maximum number of structures saved in *.CSA.bankt as history of the run
1380 Do not use bankt on massively parallel computation as it kills scalability.
1381
1382 \item{DELE=number} (real) (20.0)
1383 Energy cutoff for bankt.
1384
1385 \item{DIFCUT=number} (real) (720.0)
1386 Angle cutoff for bankt.
1387
1388 \item{IREF=number} (integer) (0)
1389 0 - normal run, 1 - local CSA which generates only structures close to the
1390 reference one read from *.CSA.native.int file.
1391
1392 \item{RMSCUT=number} (real) (4.0)
1393 CA RMSD cut off used in local CSA
1394
1395 \item{PNCCUT=number} (real) (0.5)
1396 Percentage of native contact used in local CSA
1397
1398 \item{NCONF\_IN=number} (integer) (0)
1399 The number of conformation read for the first bank from the input file
1400 *.intin
1401 \end{description}
1402
1403 Optionally, the CSA parameters can be read from file INPUT.CSA.in, if
1404 this file exists. If so, they are read in free format in the following 
1405 order:
1406
1407 nconf\\
1408 jstart,jend\\
1409 nstmax\\
1410 n1,n2,n3,n4,n5,n6,n7,n8,is1,is2\\
1411 nran0,nran1,irr\\
1412 nseed\\
1413 ntotal,cut1,cut2\\
1414 estop\\
1415 icmax,irestart\\
1416 ntbankm,dele,difcut\\
1417 iref,rmscut,pnccut\\
1418 ndiff\\
1419
1420
1421 \subsubsection{MCM data}
1422 \label{sect:input:main:MCM}
1423
1424 (Data list format, subroutine MCMREAD.)
1425
1426 This data group is present, if MCM was specified on the control card.
1427 Otherwise it must not appear.
1428
1429 \begin{description}
1430
1431 \item{MAXACC=number} (integer) (100)
1432 Maximum number of accepted conformations.
1433
1434 \item{MAXTRIAL=number} (integer) (100)
1435 Maximum number of unsuccessful trials in a row.
1436
1437 \item{MAXTRIAL\_ITER=number} (integer) (1000)
1438 Maximum number of unsuccessful trials in a single iteration.
1439
1440 \item{MAXREPM=number} (integer) (200)
1441 Maximum number of repetitions of the same minimum.
1442
1443 \item{RANFRACT=number} (real) (0.5d0)
1444 Fraction of chain-rebuild motions.
1445
1446 \item{OVERLAP=number} (real) (1.0d3)
1447 Bad contact energy criterion.
1448
1449 \item{NSTEPH=number} (integer) (0)
1450 Number of heating step in adaptive sampling.
1451
1452 \item{NSTEPC=number} (integer) (0)
1453 Number of cooling step in adaptive sampling.
1454
1455 \item{TMIN=number} (real) (298.0d0)
1456 Minimum temperature in adaptive-temperature sampling).
1457
1458 \item{TMAX=number} (real) (298.0d0)
1459 Maximum temperature in adaptive-temperature sampling).
1460
1461 The temperature is changed according to the formula:
1462
1463 T = TMIN*EXP(ISTEPH*(TMAX-TMIN)/NSTEPH) when heating
1464
1465 and
1466
1467 T = TMAX*EXP(-ISTEPC*(TMAX-TMIN)/NSTEPC) when cooling
1468
1469 The default is to use a constant temperature.
1470
1471 \item{NWINDOW=number} (integer) (0)
1472 Number of windows in which the variables will be perturbed; the windows are
1473 defined by the numbers of the respective amino-acid residues. If NWINDOW
1474 is nonzero, after specifying all MCM input the next lines must define the
1475 windows. Each line looks like this:
1476
1477 winstart winend (free format)
1478
1479 e.g. if NWINDOW=2, the input:
1480
1481 4 10\\
1482 15 20\\
1483
1484 will mean that only the variables of residues 4-10 and 15-20 will be perturbed.
1485 However, in general, all variables will be considered in minimization.
1486
1487 \item{PRINT\_MC=number} (0)
1488 Printout level in MCM. 0 - no intermediate printing, 1 and 2 - moderate
1489 printing, 3 - extensive printing.
1490
1491 \item{NO\_PRINT\_STAT} -- no output to INPUT\_POTENTIALxxx.stat.
1492
1493 \item{NO\_PRINT\_INT} -- no internal-coordinate output to INPUT\_POTENTIALxxx.int.
1494
1495 \end{description}
1496
1497 \subsubsection{MD data}
1498 \label{sect:input:main:MD}
1499
1500 (Mixed format;  subroutine READ\_MDPAR.)
1501
1502 \begin{description}
1503
1504 \item{NSTEP} (1000000) number of time steps per trajectory.
1505
1506 \item{NTWE} (100) NTWX (1000) frequency of energy and coordinate output, respectively.
1507 The coordinates are dumped in the pdb or compressed Gromacs (cx) format,
1508 depending on the next keyword.
1509 NTWE=0 means no energy dump.
1510
1511 \item{MDPDB} - dump coordinates in the PDB format (cx otherwise)
1512
1513 \item{TRAJ1FILE} only the master processor outputs coordinates. This feature pertains
1514   only to REMD/MREMD jobs and overrides NTWX; coordinates are dumped at every
1515   exchange in MREMD.
1516
1517 \item{REST1FILE} only the master writes the restart file
1518
1519 \item{DT} (real) (0.1) time step; the unit is ``molecular time unit'' (mtu); 1 mtu = 48.9 fs
1520
1521 \item{DAMAX} (real) (1.0) maximum allowed change of acceleration during a single time step.
1522 The time step gets scaled down, if this is exceeded.
1523
1524 \item{DVMAX} (real) (20.0) -- maximum allowed velocity (in A/mtu)
1525
1526 \item{EDRIFTMAX} (real) (10.0) -- maximum allowed energy drift in a single MD step (10 kcal/mol)
1527
1528 \item{REST} -- restart flag. The calculation is restarted if present.
1529
1530 \item{LARGE} -- very detailed output. Don't use except for debugging.
1531
1532 \item{PRINT\_COMPON} -- prints energy components.
1533
1534 \item{RESET\_MOMENT} (1000) -- frequency of zeroing out the total angular momentum when 
1535 running Berendsen mode calculations (for Langevin calculations meaningless).
1536
1537 \item{RESET\_VEL}=number (integer) (1000) -- frequency of resetting velocities to values
1538 from Gaussian distribution.
1539
1540 \item{RATTLE} -- use the RATTLE algorithm (constraint bonds); not yet implemented.
1541
1542 \item{RESPA} -- use the Multiple Time Step (MTS) or Adaptive Multiple Time Step (A-MTS) 
1543 algorithm \cite{rakowski_2006}.  Without this flag the variable time step (VTS) \cite{khalili_2005} is run.
1544
1545 \item{NTIME\_SPLIT=number} (integer) (1) -- initial number of time-split steps
1546
1547 \item{MAXTIME\_SPLIT=number} (integer) (64) -- maximum number of time-split step
1548
1549 If NTIME\_SPLIT==MAXTIME\_SPLIT, MTS is run. 
1550
1551 \item{R\_CUT=number} (real) (2.0) -- the cut-off distance in splitting the forces into short- and
1552 long-range in site-site VDW distance units.
1553
1554 \item{LAMBDA} (real) (0.3) -- the transition length (in site-site VDW distance units) between
1555 short- and long-range forces.
1556
1557 \item{XIRESP} --  flag to use MTS/A-MTS with Nos\'e-Hoover/Nos\'e-Poincar\'e thermostats.
1558
1559 \item{LANG=number} (integer) (0) Langevin dynamics flag:
1560
1561 \begin{description}
1562 \item{0} -- No explicit Langevin dynamics.
1563 \item{1} -- Langevin with direct integration of the equations of motion (recommended 
1564     for Langevin calculations)
1565 \item{2} -- Langevin calculation with analytical pre-integration of the friction and 
1566     stochastic part of the equations of motion using an algorithm adapted from TINKER.
1567     This is MUCH MORE time- and memory-consuming than 1 and requires compiling without 
1568     the -DLANG0 flag and enormously increases memory requirements.
1569 \item{3} -- The stochastic integrator developed by Cicotti and coworkers.
1570 \item{4} -- for other stochastic integrators (not used at present).
1571 \end{description}
1572
1573 Note: With the enclosed code, the -DLANG0 compiler flag is included which disables
1574 LANG=2 and LANG=3
1575
1576 \item{TBF} -- Berendsen thermostat.
1577
1578 \item{TAU\_BATH} (1.0) (units are mtus; 1mtu=48.9 fs) -- constant of the coupling to the thermal bath
1579    used with the Berendsen thermostat.
1580
1581 \item{NOSEPOINCARE99} -- the Nose-Poincare thermostat as of 1999 will be used.
1582
1583 \item{NOSEPOINCARE01} -- the Nose-Poincare thermostat as of 2001 will be used.
1584
1585 \item{NOSEHOOVER96} -- the Nose-Hoover thermostat will be used.
1586
1587 \item{Q\_NP=number} (real) (0.1) -- the value of the mass of the fictitious particle in the calculations
1588   with the Nose-Poincare thermostat.
1589
1590 \item{T\_BATH} (300.0) (in K) -- temperature of canonical simulation or temperature to generate
1591 velocities.
1592
1593 \item{ETAWAT} (0.8904) -- viscosity of water (in centipoises).
1594
1595 \item{RWAT} (1.4) -- radius of water molecule (in A)
1596
1597 \item{SCAL\_FRIC=number} (real) (0.02) -- scaling factor of the friction coefficients.
1598
1599 \item{SURFAREA} -- scale friction acting on atoms by atoms' solvent accessible area.
1600
1601 \item{RESET\_FRICMAT=number} (integer) (1000) -- recalculate friction matrix every RESET\_FRICMAT MD steps.
1602
1603 \item{USAMPL} -- restraints on q (see reference 5 for meaning) will be imposed (see section .
1604 In this case, the next records specify the restraints; these records are
1605 placed before the list of temperatures or numbers of trajectories.
1606
1607 \item{EQ\_TIME=number} (real) (1.0e4) -- time (in mtus; 1 mtu=48.9 fs) after which restraints
1608 on q will start to be in force.
1609
1610 \end{description}
1611
1612 If USAMPL has been specified, the following information must be supplied after the 
1613 main MD input data record (subroutine READ\_FRAGMENTS):
1614
1615 Line 1: nset, npair, nfrag\_back (number of sets of restraints, number of restrained 
1616 fragments, number of restrained pairs, number of restrained backbone fragments
1617 (in terms of $\theta$ and $\gamma$ angles) 
1618
1619 For each set of restraints (1, 2,..., nset):
1620
1621 \begin{description}
1622
1623 \item{mset(iset)} -- how many times the set is multiplied.
1624
1625 \item{wfrag(i,iset), ifrag(1,i,iset), ifrag2(2,i,iset),qfrag(i,iset)} --
1626 weight of the restraint, first and last residue of the fragment, target q value.
1627 This information is repeated through nfrag.
1628
1629 \item{wpair(i,iset), ipair(1,i,iset), ipair(2,i,iset),qinpair(i,iset)} --
1630 weight of the restraint, first and second fragment of the pair (according to fragment
1631 list), target q value.  This information is repeated through npair
1632
1633 \item{wfrag\_back(1,i,iset), wfrag\_back(2,i,iset), wfrag\_back(3,i,iset), 
1634 ifrag\_back(1,i,iset),ifrag\_back(2,i,iset)} --
1635 weight of the restraints on $\theta$ angles, weight on the restraints on $\gamma$ angles,
1636 weight of the restraints on side-chain rotamers, first residue of the fragment,
1637 last residue of the fragment. This information is repeated through nfrag\_back.
1638
1639 \end{description}
1640
1641 \subsubsection{REMD/MREMD data}
1642 label{sect:input:main:MREMD}
1643
1644 (Miced format; subroutine READ\_REMDPAR.)
1645
1646 \begin{description}
1647
1648 \item{NREP} (3) -- number of replicas in a REMD/MREMD run.
1649
1650 \item{NSTEX} (1000) -- number of steps after which exchange is performed in REMD/MREMD
1651   runs.
1652
1653 The temperatures in replicas can be specified through
1654
1655 \item{RETMIN} (10.0) -- minimum temperature in a REMD/MREMD run,
1656
1657 \item{RETMAX} (1000.0) -- maximum temperature in a REMD/MREMD run.
1658
1659 \end{description}
1660
1661 Then the range from retmin to retmax is divided into equal segments and
1662 temperature of the replicas assigned accordingly,
1663
1664 or 
1665
1666 \begin{description}
1667
1668 \item{TLIST} means that the NREP temperature of the replicas will be input in the
1669 next record.
1670
1671 \item{MLIST} numbers of trajectories per each of the NREP temperatures will be 
1672 specified in the record after the list of temperatures; this specifies
1673 a MREMD run. 
1674
1675 \end{description}
1676
1677 Important! The number of processors must be exactly equal to the number of
1678 trajectories, i.e., NREP for a REMD run or $\sum_i mlist(i)$ for a MREMD run.
1679
1680 \begin{description}
1681
1682 \item{SYNC} -- all trajectories will be synchronized every NSTEX time steps 
1683 (by default, they are not synchronized).
1684
1685 \item{TRAJ1FILE} -- only the master processor outputs coordinates. This feature pertains
1686   only to REMD/MREMD jobs and overrides NTWX; coordinates are dumped at every
1687   exchange in MREMD.
1688
1689 \item{REST1FILE} -- only the master writes the restart file.
1690
1691 \item{HREMD} -- Hamiltonian replica exchange flag; not only temperatures but also
1692 sets energy-term weights are exchanged between conformations. 
1693
1694 \item{TONLY} -- run a ``fake'' HREMD with many sets of energy-term weights in a 
1695 single run but only temperature exchange.
1696
1697 \end{description}
1698
1699 \subsubsection{Energy-term and restraint weights}
1700 \label{sect:input:main:weights}
1701
1702 (Data list format; subroutine MOLREAD.)
1703
1704 \begin{description}
1705
1706 \item{WLONG=number} (real) (1.0d0) --
1707 common weight of the U(SC-SC) (side-chain side-chain interaction) 
1708 and U(SC,p) (side-chain peptide-group) term.
1709
1710 \item{WSCC=number} (real) (WLONG) --
1711 weight of the U(SC-SC) term.
1712
1713 \item{WSCP=number} (real) (WLONG)
1714 weight of the U(SC-p) term.
1715
1716 \item{WELEC=number} (real) (1.0d0)
1717 weight of the U(p-p) (peptide-group peptide-group interaction) term.
1718
1719 \item{WEL\_LOC=number} (real) (1.0d0)
1720 weight of the $U_{el;loc}^3$ (local-electrostatic cooperativity, third-order) term.
1721
1722 \item{WCORRH=number} (real) (1.0d0)
1723 weight of the U(corr) (cooperativity of hydrogen-bonding interactions, fourth-order) term.
1724
1725 \item{WCORR5=number} (real) (0.0d0) --
1726 weight of the $U_{el;loc}^5$ (local-electrostatic cooperativity, 5th order
1727 contributions).
1728
1729 \item{WCORR6=number} (real) (0.0d0) --
1730 weight of the $U_{el;loc}^6$ (local-electrostatic cooperativity, 6th order
1731 contributions).
1732
1733 \item{WTURN3=number} (real) (1.0d0) --
1734 weight of the $U_{turn}^3$ (local-electrostatic cooperativity within 3 residue
1735 segment, 3rd order contribution).
1736
1737 \item{WTURN4=number} (real) (1.0d0) --
1738 weight of the $U_{turn}^4$ (local-electrostatic cooperativity within 4 residue
1739 segment, 4rd order contributions).
1740
1741 \item{WTURN6=number} (real) (1.0d0) --
1742 weight of the $U_{turn}^6$ (local-electrostatic cooperativity within 6 residue
1743 segment, 6rd order contributions).
1744
1745 \item{WTOR=number} (real) (1.0d0) --
1746 weight of the torsional term, $U_{tor}$.
1747
1748 \item{WTORD=number} (real) (1.0d0) --
1749 weight of the double-torsional term, $U_{tord}$.
1750
1751 \item{WSCCOR=number} (real) (1.0d0) --
1752 weight of the backbone-sidechain-torsional term, $U_{sccor}$.
1753
1754 \item{WANG=number} (real) (1.0d0) --
1755 weight of the virtual-bond angle bending term, $U_b$.
1756
1757 \item{WSCLOC=number} (real) (1.0d0) --
1758 weight of the side-chain rotamer term, $U_{SC}$.
1759
1760 \item{WSTRAIN=number} (real) (1.0d0) --
1761 scaling factor of the distance-constrain or disulfide-bond strain energy term.
1762
1763 \item{SCALSCP=number} (real) (1.0d0) --
1764 scaling factor of $U_{SCp}$; this is an alternative to specifying WSCP; in
1765 this case WSCP will be calculated as WLONG*SCALSCP.
1766
1767 \item{SCAL14=number} (real) (1.0d0) --
1768 scaling factor of the 1,4 SC-p interactions.
1769
1770 \item{CUTOFF} (7.0) -- cut-off on backbone-electrostatic interactions to compute 4-
1771 and higher-order correlations.
1772
1773 \item{DELT\_CORR} (0.5) - thickness of the distance range in which the energy is
1774 decreased to zero.
1775
1776 \item{WSAXS=number} (real) (1.0d0) -- weight of the maximum-likelihood SAXS-restraint term.
1777
1778 \end{description}
1779
1780 The defaults are NOT the recommended values. No ``working'' default values 
1781 have been set, because the force field is still under development. The values 
1782 corresponding to the force fields listed in section 4 are as follows:
1783
1784 CASP3:
1785 \begin{verbatim}
1786 WELEC=1.5 WSTRAIN=1.0 WTOR=0.08617 WANG=0.10384 WSCLOC=0.10384 WCORR=1.5       &
1787 WTURN3=0 WTURN4=0 WTURN6=0 WEL_LOC=0 WCORR5=0 WCORR6=0 SCAL14=0.40 SCALSCP=1.0 &
1788 CUTOFF=7.00000 WSCCOR=0.0
1789 \end{verbatim}
1790
1791 ALPHA:
1792 \begin{verbatim}
1793 WSC=1.00000 WSCP=0.72364 WELEC=1.10890 WANG=0.68702 WSCLOC=1.79888             &
1794 WTOR=0.30562 WCORRH=1.09616 WCORR5=0.17452 WCORR6=0.36878 WEL_LOC=0.19508      &
1795 WTURN3=0.00000 WTURN4=0.55588 WTURN6=0.11539 CUTOFF=7.00000 WCORR4=0.0000      &
1796 WTORD=0.0 WSCCOR=0.0
1797 \end{verbatim}
1798
1799 BETA:
1800 \begin{verbatim}
1801 WSC=1.00000 WSCP=1.10684 WELEC=0.70000 WANG=0.80775 WSCLOC=1.91939             &
1802 WTOR=3.36070 WCORRH=2.50000 WCORR5=0.99949 WCORR6=0.46247 WEL_LOC=2.50000      &
1803 WTURN3=1.80121 WTURN4=4.35377 WTURN6=0.10000 CUTOFF=7.00000 WCORR4=0.00000     &
1804 WSCCOR=0.0
1805 \end{verbatim}
1806
1807 ALPHABETA:
1808 \begin{verbatim}
1809 WSC=1.00000 WSCP=1.43178 WELEC=0.41501 WANG=0.37790 WSCLOC=0.12880             &
1810 WTOR=1.98784 WCORRH=2.50526 WCORR5=0.23873 WCORR6=0.76327 WEL_LOC=2.97687      &
1811 WTURN3=0.09261 WTURN4=0.79171 WTURN6=0.01074 CUTOFF=7.00000 WCORR4=0.00000     &
1812 WSCCOR=0.0
1813 \end{verbatim}
1814
1815 CASP5:
1816 \begin{verbatim}
1817 WSC=1.00000 WSCP=1.54864 WELEC=0.20016 WANG=1.00572 WSCLOC=0.06764             &
1818 WTOR=1.70537 WTORD=1.24442 WCORRH=0.91583 WCORR5=0.00607 WCORR6=0.02316        &
1819 WEL_LOC=1.51083 WTURN3=2.00764 WTURN4=0.05345 WTURN6=0.05282 WSCCOR=0.0        &
1820 CUTOFF=7.00000 WCORR4=0.00000 WSCCOR=0.0
1821 \end{verbatim}
1822
1823 3P:
1824 \begin{verbatim}
1825 WSC=1.00000 WSCP=2.85111 WELEC=0.36281 WANG=3.95152 WSCLOC=0.15244             &
1826 WTOR=3.00008 WTORD=2.89863 WCORRH=1.91423 WCORR5=0.00000 WCORR6=0.00000        &
1827 WEL_LOC=1.72128 WTURN3=2.99827 WTURN4=0.59174 WTURN6=0.00000                   &
1828 CUTOFF=7.00000 WCORR4=0.00000 WSCCOR=0.0
1829 \end{verbatim}
1830
1831 4P:
1832 \begin{verbatim}
1833 WSC=1.00000 WSCP=2.73684 WELEC=0.06833 WANG=4.15526 WSCLOC=0.16761             &
1834 WTOR=2.99546 WTORD=2.89720 WCORRH=1.98989 WCORR5=0.00000 WCORR6=0.00000        &
1835 WEL_LOC=1.60072 WTURN3=2.36351 WTURN4=1.34051 WTURN6=0.00000                   &
1836 CUTOFF=7.00000 WCORR4=0.00000 WSCCOR=0.0
1837 \end{verbatim}
1838
1839 GAB:
1840 \begin{verbatim}
1841 WLONG=1.35279 WSCP=1.59304 WELEC=0.71534 WBOND=1.00000 WANG=1.13873            &
1842 WSCLOC=0.16258 WTOR=1.98599 WTORD=1.57069 WCORRH=0.42887 WCORR5=0.00000        &
1843 WCORR6=0.00000 WEL_LOC=0.16036 WTURN3=1.68722 WTURN4=0.66230 WTURN6=0.00000    &
1844 WVDWPP=0.11371 WHPB=1.00000                                                    &
1845 CUTOFF=7.00000 WCORR4=0.00000
1846 \end{verbatim}
1847
1848 E0G:
1849 \begin{verbatim}
1850 WLONG=1.70905 WSCP=2.18310 WELEC=1.06684 WBOND=1.00000 WANG=1.17536            &
1851 WSCLOC=0.22070 WTOR=2.65798 WTORD=2.00646 WCORRH=0.23541 WCORR5=0.00000        &
1852 WCORR6=0.00000 WEL_LOC=0.42789 WTURN3=1.68126 WTURN4=0.75080 WTURN6=0.00000    &
1853 WVDWPP=0.27044 WHPB=1.00000 WSCP14=0.00000                                     &
1854 CUTOFF=7.00000 WCORR4=0.00000
1855 \end{verbatim}
1856
1857 E0LL2Y:
1858 \begin{verbatim}
1859 WLONG=1.00000 WSCP=1.23315 WELEC=0.84476 WBOND=1.00000 WANG=0.62954            &
1860 WSCLOC=0.10554 WTOR=1.84316 WTORD=1.26571 WCORRH=0.19212 WCORR5=0.00000        &
1861 WCORR6=0.00000 WEL_LOC=0.37357 WTURN3=1.40323 WTURN4=0.64673 WTURN6=0.00000    &
1862 WVDWPP=0.23173 WHPB=1.00000 WSCCOR=0.0                                         &
1863 CUTOFF=7.00000 WCORR4=0.00000
1864 \end{verbatim}
1865
1866 \subsubsection{Input and/or reference PDB file name}
1867 \label{sect:input:main:PDB}
1868
1869 (Text format; subroutine MOLREAD.)
1870
1871 If PDBSTART or PDBREF was specified in the control card, this line contains
1872 the PDB file name. Trailing slashes to specify the full path are permitted.
1873 The file name can contain up to 64 characters.
1874
1875 \subsubsection{Amino-acid sequence}
1876 \label{sect:input:main:sequence}
1877
1878 (Mixed format.)
1879
1880 This data appears, if PDBSTART was not specified, otherwise must not be present
1881 because the sequence would be taken from the PDB file. The first line contains
1882 the number of amino-acid residues, including the end groups (free format),
1883 the next lines contain the sequence in 20(1X,A3) format for the three-letter
1884 or 80A1 format for the one-letter code. There are two types of end-groups:
1885 Gly (three-letter code) or G (one-letter code), if an end group contains a full
1886 peptide bond (e.g., the acetyl N-terminal group or the carboxyamide C-terminal 
1887 group) and D (in the three-letter code) or X (in the one-letter code), if the 
1888 end group does not contain a peptide group (e.g., the NH2 N-terminal end group 
1889 or the COOH C-terminal end group). (Note the Gly or G also denotes the regular
1890 glycine residue, if found in the middle of a chain).
1891 In the second case the end group is considered as a ``dummy'' group and serves
1892 only to define the first (last) virtual-bond dihedral angle $\gamma$ for the
1893 first (last) full amino-acid residue.
1894
1895 Consider, for example, the Ac-Ala(19)-NHMe polypeptide. The three-letter code
1896 input will look like this:
1897
1898 \begin{verbatim}
1899 21
1900  Gly Ala Ala Ala Ala Ala Ala Ala Ala Ala Ala Ala Ala Ala Ala Ala Ala Ala Ala Ala
1901  Gly
1902 \end{verbatim}
1903
1904 And the one-letter code input will be:
1905
1906 \begin{verbatim}
1907 21
1908 GAAAAAAAAAAAAAAAAAAAG
1909 \end{verbatim}
1910
1911 If the sequence is changed to NH3(+)-Ala(19)-COO(-),  the inputs will look
1912 like this:
1913
1914 \begin{verbatim}
1915 21
1916  D   Ala Ala Ala Ala Ala Ala Ala Ala Ala Ala Ala Ala Ala Ala Ala Ala Ala Ala Ala
1917  D  
1918 \end{verbatim}
1919
1920 and
1921
1922 \begin{verbatim}
1923 21
1924 XAAAAAAAAAAAAAAAAAAAX
1925 \end{verbatim}
1926
1927 The sequence input is case-insensitive, because the present version of UNRES 
1928 considers each amino-acid residue as an L-residue (there are no torsional 
1929 parameters for the combinations of the D- and L-residues yet). Furthermore,
1930 each peptide group is considered as a trans group.
1931
1932 If the version of UNRES has multi-chain capacity, placing a dummy residue
1933 inside the sequence indicates start of a new chain. For example, a system
1934 composed of two Ala(10) chains can be specified as follows (3-letter code):
1935
1936 \begin{verbatim}
1937 23
1938  D   Ala Ala Ala Ala Ala Ala Ala Ala Ala Ala D   Ala Ala Ala Ala Ala Ala Ala Ala
1939  Ala Ala D
1940 \end{verbatim}
1941
1942 or (1-letter code)
1943
1944 \begin{verbatim}
1945 23
1946 XAAAAAAAAAAXAAAAAAAAAAX
1947 \end{verbatim}
1948
1949 \subsubsection{Disulfide-bridge information}
1950 \label{sect:input:main:disulphide}
1951
1952 (Free format; subroutine READ\_BRIDGE.)
1953
1954 1st line:
1955
1956 NS,(ISS(i),i=1,NS)
1957
1958 \begin{description}
1959
1960 \item{NS} -- the number of half-cystines (required even if no half-cystines are present).
1961
1962 \item{ISS(i)} -- the position of ith half-cystine in the sequence (starting from the
1963 N-terminal end group)
1964
1965 \end{description}
1966
1967 Next line(s) (present only, if $ns>0$ and must not appear otherwise):
1968
1969 NSS,(IHPB(i),JHPB(i),i=1,NSS)
1970
1971 \begin{description}
1972
1973 \item{NSS} -- the number of disulfide bridges; must not be greater than NS/2.
1974
1975 \item{IHPB(i),JHPB(i)} -- the cystine residue forming the ith bridge.
1976
1977 \end{description}
1978
1979 The program will check, whether the residues specified in the ISS list 
1980 are cystines and terminate with error, if any of them is not. The program
1981 also checks, if the numbers from the IHPB and the JHPB lists have appeared
1982 in the ISS list.
1983
1984 \subsubsection{Dihedral-angle restraint data}
1985 \label{sect:input:main:dihedral-restraints}
1986
1987 (Free format; subroutine MOLREAD.)
1988
1989 This set of data specifies the harmonic constraints (if any) imposed on selected
1990 virtual-bond dihedral angles $\gamma$.
1991
1992 1st line:
1993
1994 \begin{description}
1995
1996 \item{NDIH\_CONSTR} -- the number of restrained $\gamma$ angles (required even if no
1997 restrains are applied).
1998
1999 \end{description}
2000
2001 2nd line (present only, if NDIH\_CONSTR$>$0; must not appear otherwise):
2002 FTORS - the force constant expressed in kcal/(mol*rad**2)
2003
2004 next NDIH\_CONSTR lines (present only, if NDIH\_CONSTR$>$0):
2005
2006 IDIH\_CONSTR(i),PHI0(i),DRANGE(i)
2007
2008 \begin{description}
2009
2010 \item{IDIH\_CONSTR(i)} -- the number of ith restrained $\gamma$ angle. The angles are 
2011 numbered after the LAST $\alpha$-carbons. Thus, the first ``real'' angle has number 
2012 4 and it corresponds to the rotation about the CA(2)-CA(3) virtual-bond axis
2013 and the last angle has the number NRES and corresponds to the rotation about
2014 the CA(NRES-2)-CA(NRES-1) virtual-bond axis. 
2015
2016 \item{PHI0(i)} -- the ``center'' of the restraint (expressed in degrees).
2017
2018 \item{DRANGE(i)} -- the ``flat well'' range of the restraint (in degrees).
2019
2020 \end{description}
2021
2022 The restraint energy for the ith restrained angle is expressed as:
2023
2024 \begin{displaymath}
2025 E_{dih} = \begin{cases}
2026 \rm FTORS\times(\gamma_{IDIH\_CONSTR(i)}-PHI0(i)+DRANGE(i))^2&\mbox{if}\ \ \rm \gamma_{IDIH\_CONSTR(i)}\\
2027                                                              &<PHI0(i)+DRANGE(i)\\
2028 \\
2029 0                            &\rm if\ \ PHI0(i)-DRANGE(i) \\
2030                              &\le \gamma_{IDIH\_CONSTR(i)} \\
2031                              &\le PHI0(i)+DRANGE(i)\\
2032 \\
2033 \rm FTORS\times(\gamma_{IDIH\_CONSTR(i)}-PHI0(i)+DRANGE(i))^2&\mbox{if}\ \ \rm \gamma_{IDIH\_CONSTR(i)}\\
2034                                                              &>PHI0(i)+DRANGE(i)
2035 \end{cases}
2036 \end{displaymath}
2037
2038 Applying dihedral-angle constraints also implies that for ith constrained
2039 $\gamma$ angle the sampling be carried out from the 
2040 [PHI0(i)-DRANGE(i)..PHI0(i)+DRANGE(i)] interval and not from the $[-\pi..\pi]$
2041 interval, if random conformations are generated. If only this and not 
2042 restrained minimization is required, just set FTORS to 0.
2043
2044 \subsubsection{Distance restraints}
2045 \label{sect:input:main:disance-restraints}
2046
2047 (Mixed format; subroutine READ\_DIST\_CONSTR.)
2048
2049 Restraints are imposed on C$^\alpha\cdots$C$^\alpha$ SC$\cdots$SC distances (C$^\beta\cdots$C$^\beta$.
2050
2051 \begin{description}
2052
2053 \item{NDIST=number} (integer) (0) -- number of restraints on specific distances.
2054
2055 \item{NFRAG=number} (integer) (0) -- number of distance-restrained protein segments.
2056
2057 \item{NPAIR=number} (integer) (0) -- number of distance-restrained pairs of segments.
2058  Specifying NPAIR requires specification of segments.
2059
2060 \item{IFRAG=start(1),end(1),start(2),end(2)...start(NFRAG),end(NFRAG)} (integers) --
2061 First and last residues of the distance restrained segments.
2062
2063 \item{WFRAG=w(1),w(2),...,w(NFRAG) (reals)} -- force constants or bases for force 
2064 constant calculation corresponding to fragment restraints.
2065
2066 \item{IPAIR=start(1),end(1),start(2),end(2),...,start(NPAIR),end(NPAIR)} (integers)
2067 -- numbers of segments (consecutive numbers of start or end pairs in IFRAG
2068 specification), the distances between which will be restrained.
2069
2070 \item{WPAIR=w(1),w(2),...,w(NFRAG)} (reals) -- force constants or bases for force
2071 constant calculation corresponding to pair restraints.
2072
2073 \item{DIST\_CUT=number} (real) (5.0) -- the cut-off distance in angstroms for force-
2074 constant calculations.
2075
2076 The force constants within fragments/between pairs of fragments are calculated
2077 depending on the value of DIST\_CONSTR described in section 5.1:
2078
2079 \begin{description}
2080
2081 \item{1} -- all force constants are equal to the respective entries of WFRAG/WPAIR
2082
2083 \item{2} -- the force constants are equal to the respective entries of WFRAG/WPAIR
2084     when the distance between the C$^\alpha$ atoms in the reference structure
2085     $\le$D\_CUT, 0 otherwise.
2086
2087 \item{3} -- the force constants are calculated from the formula:
2088
2089 \end{description}
2090
2091 \item{$k(C^\alpha_j,C^\alpha_k)=W\times\exp{-[d(C^\alpha_j,C^\alpha_k)/DIST\_CUT)]^2/2}$}
2092
2093 where $k(C^\alpha_j,C^\alpha_k)$ is the force constant between the respective C$^\alpha$ atoms,
2094 $d(C^\alpha_j,C^\alpha_k)$ is the distance between these C$^\alpha$ atoms in the reference
2095 structure, and W is the basis for force-constant calculation (see above).
2096
2097 \end{description}
2098
2099 The above restraints are harmonic resatraints of the form 
2100
2101 \begin{displaymath}
2102 E_{dis} = \sum_i k_i \left(d_i - d_i^{ref}\right)^2
2103 \end{displaymath}
2104
2105 where $d_i$ is the distance in the calculated structure and $d_i^{ref}$ is the respective
2106 distance in the reference (PDB) structure. The reference structure is required.
2107
2108 If NDIST$>$0, the restraints on specific distance are input explicitly (no reference structure is requires).
2109 The restraints are quartic restraints of a similar form as that in section 
2110 \ref{sect:input:main:dihedral-restraints} but with angles replaced with distances.
2111
2112 ihpb(i), jhpb(i), dhpb(i), dhpb1(i), ibecarb(i), forcon(i), i=1,NDIST
2113
2114 \begin{description}
2115
2116 \item{ihpb(i)} and jhpb(i) are the numbers of the residues the distance
2117 between the C$^\alpha$ atoms of which will be distance restrained, 
2118
2119 \item{dhpb(i)} and dhpb1(i) are the lower and upper distance-restraint, 
2120
2121 \item{ibecarc(i)} is the restraint-type flag;
2122 ibecarb(i)==0 indicates that the restraints are imposed on the 
2123 C$^\alpha\cdots$C$^\alpha$ distances; otherwise restraints on the 
2124 SC$\cdots$SC distances are imposed, 
2125
2126 \item{forcon(i)}
2127 is the respective force constant.
2128
2129 \end{description}
2130
2131 \subsubsection{Internal coordinates of the reference structure}
2132 \label{sect:input:main:internalref}
2133
2134 (Free format; subroutine READ\_ANGLES.)
2135
2136 This part of the data is present, if REFSTR, but not PDBREF was specified, 
2137 otherwise must not appear. It contains the following group of variables:
2138
2139 \begin{description}
2140 \item{(THETA(i),i=3,NRES)} -- the virtual-bond valence angles THETA.
2141 \item{(PHI(i),i=4,NRES)}   -- the virtual-bond dihedral angles GAMMA.
2142 \item{(ALPH(i),i=2,NRES-1)} -- the ALPHA polar angles of consecutive side chains.
2143 \item{(OMEG(i),i=2,NRES-1)} -- the BETA polar angles of consecutive side chains.
2144 \end{description}
2145
2146 ALPHA(i) and OMEG(i) correspond to the side chain attached to CA(i). THETA(i)
2147 is the CA(i-2)-CA(i-1)-CA(i) virtual-bond angle and PHI(i) is the
2148 CA(i-3)-CA(i-2)-CA(i-1)-CA(i) virtual-bond dihedral angle $\gamma$.
2149
2150
2151 \subsubsection{Distance-distribution (SAXS-restraint) data}
2152
2153 This section contains the probability distribution ($P(r)$) from SAXS
2154 measurements to be used as restraints through introduction of a maximum-likelihood term. 
2155 Each entry is in a separate like and the number of entries must equal to 
2156 NSAXS specified in the first data record. Each line contains the position
2157 of the left side of the distance bin and probability-distribution value, for
2158 example:
2159
2160 \begin{verbatim}
2161 0.7100E-00 0.2036E-03
2162 0.1420E+01 0.4221E-03
2163 \end{verbatim}
2164
2165 The distance-distribution values do not need to be input in normalized form.
2166 Normalization is carried out automatically. It should be noted that neither 
2167 probabilities nor distances can be zero; otherwise the calculations will crash.
2168 Therefore, entries with zeros must be eliminated from the data.
2169
2170 \subsubsection{Internal coordinates of the initial conformation}
2171 \label{sect:input:main:intcoord}
2172
2173 (Free format; subroutine READ\_ANGLES.)
2174
2175 This part of the data is present, if RAND\_CONF, MULTCONF, THREAD, or PDBSTART
2176 were not specified, otherwise must not appear. This input is as in section \ref{sect:support}.
2177
2178 \paragraph{File name with internal coordinates of the conformations to be processed}
2179 \label{sect:input:main:intcord:files}
2180
2181 (Text format; subroutine MOLREAD.)
2182
2183 This data is present only, if MULTCONF was specified. It contains the name of
2184 the file with the internal coordinates. Up to 64 characters are allowed.
2185 The structure of the file is that of the *.int file produced by UNRES/CSA.
2186 See section ``The structure of the INT files'' for details.
2187
2188 \subsubsection{Control data for energy map construction}
2189 \label{sect:input:main:map}
2190
2191 (Data list format; subroutine MAP\_READ.)
2192
2193 These data lists appear, if NMAP=n was specified, where n is the number of
2194 variables that will be grid-searched. One list is per one variable or a
2195 group of variables set equal (see below):
2196
2197 \begin{description}
2198 \item{PHI} -- the variable is a virtual-bond dihedral angle $\gamma$.
2199 \item{THE} -- the variable is a virtual-bond angle $\theta$.
2200 \item{ALP} -- the variable is a side-chain polar angle $\alpha$.
2201 \item{OME} -- the variable is a side-chain polar angle $\beta$.
2202 \end{description}
2203
2204 \begin{description}
2205 \item{RES1=number} (integer)
2206 \item{RES2=number} (integer)
2207 \end{description}
2208
2209 The range of residues for which the values will be set; all these variables
2210 will be set at the same value. It is required that RES2$>$RES1.
2211
2212 \begin{description}
2213 \item{FROM=angle} (real)
2214 \item{TO=angle} (real)
2215 \end{description}
2216
2217 Lower and upper limit of scanning in grid search (in degrees)
2218
2219 \begin{description}
2220 \item{NSTEP=number} (integer)
2221 \end{description}
2222
2223 Number of steps in scanning along this variable/group of variables.
2224
2225 \subsection{Input coordinate files}
2226 \label{sect:input:coordfiles}
2227
2228 (Text format; subroutine MOLREAD.)
2229
2230 At present, geometry can be input either from the external files in the PDB 
2231 format (with the PDBSTART option) or multiple conformations can be read
2232 as virtual-bond-valence and virtual-bond dihedral angles when the MULTCONF
2233 option is used (the latter, however, implies using standard virtual-bond
2234 lengths as initial values). The structure of internal-coordinate files
2235 is the same as that of output internal-coordinate files described in section
2236 9.1.1.
2237
2238 \subsection{Other input files}
2239 \label{sect:input:otherfiles}
2240
2241 CSA parameters can optionally be read in free format from file INPUT.CSA.in
2242 (see section 8.1.4). When a CSA run is restarted, the CSA-specific output files 
2243 also serve as input files. INPUT is the prefix of input and output files
2244 as explained in section \ref{sect:command}.
2245
2246 Restart files for MD and REMD simulations. They are read when the keyword 
2247 RESTART appears on the MD/REMD data group (section \ref{sect:input:main:MD}).
2248
2249 \newpage
2250
2251 \section{OUTPUT FILES}
2252 \label{sect:output}
2253
2254 UNRES ``main'' output files (INPUT.out\_\$\{POT\}[processor]) are log files from
2255 a run. They contain the information of the molecule, force field, calculation
2256 type, control parameters, etc.; however, not the structures produced during
2257 the run or their energies except single-point energy evaluation and 
2258 minimization-related runs. The structural information is included in 
2259 coordinate files (*.int, *.x, *.pdb, *.mol2, *.cx) and statistics files (*.stat), 
2260 respectively; these files are further processed by other programs (WHAM, 
2261 CLUSTER) or can be viewed by molecular viewers (pdb or mol2 files).
2262
2263 \subsection{Coordinate files}
2264 \label{sect:output:coord}
2265
2266 \subsubsection{The internal coordinate (INT) file}
2267 \label{sect:output:coord:int}
2268     
2269 This file contains the internal coordinates of the conformations produced 
2270 by UNRES in non-MD runs. The virtual-bond lengths are assumed constant so
2271 only the angular variables are provided.
2272
2273 IT,ENER,NSS,(IHPB(I),JHPB(I),I=1,NSS)\\
2274 (I5,F12.5,I2,9(1X,2I3))
2275
2276 \begin{description}
2277 \item{IT} -- the number of the conformation.
2278 \item{ENER} -- total energy.
2279 \item{NSS} -- the number of disulfide bridges.
2280 \item{(IHPB(I),JHPB(I),I=1,NSS)} -- the positions of the pairs of half-cystines .
2281 forming the bridges. If NSS$>9$9, the remaining pairs are written in the 
2282 following lines in the (3X,11(1X,2I3)) format.
2283 \end{description}
2284
2285 (THETA(I),I=3,NRES)\\
2286 (8F10.4)
2287
2288 The virtual-bond angles THETA (in degrees)
2289
2290 (PHI(I),I=4,NRES)\\
2291 (8F10.4)
2292
2293 The virtual-bond dihedral angles GAMMA (in degrees)
2294
2295 (ALPH(I),I=2,NRES-1)\\
2296 (OMEG(I),I=2,NRES-1)\\
2297 (8F10.4)
2298
2299 The polar angles ALPHA and BETA of the side-chain centers (in degrees).
2300
2301 \subsubsection{The plain Cartesian coordinate (X) files} 
2302 \label{sect:output:coord:cart}
2303
2304 (Subroutine CARTOUT.)
2305
2306 This file contains the Cartesian coordinates of the $\alpha$-carbon and
2307 side-chain-center coordinates. All conformations from an MD/MREMD
2308 trajectory are collated to a single file. The structure of each
2309 conformation's record is as follows:
2310
2311 1st line: time, potE, uconst, t\_bath,nss, (ihpb(j), jhpb(j), j=1,nss),
2312 nrestr, (qfrag(i), i=1,nfrag), (qpair(i), i=1,npair),
2313 (utheta(i), ugamma(i), uscdiff(i), i=1,nfrag\_back)
2314
2315 \begin{description}
2316 \item{time:} MD time (in ``molecular time units'' 1 mtu = 4.89 fs),
2317 \item{potE:} potential energy,
2318 \item{uconst:} restraint energy corresponding to restraints on Q and backbone geometry,
2319 (see section \ref{sect:input:main:MD}),
2320 \item{t\_bath:} thermostat temperature,
2321 \item{nss:} number of disulfide bonds,
2322 \item{ihpb(j), jhpb(j):} the numbers of linked cystines for jth disulfide bond,
2323 \item{nrestr:} number of restraints on q and local geometry,
2324 \item{qfrag(i):} q value for ith fragment,
2325 \item{qpair(i):} q value for ith pair,
2326 \item{utheta(i):} sum of squares of the differences between the theta angles 
2327    of the current conformation from those of the experimental conformation,
2328 \item{ugamma(i):} sum of squares of the differences beaten the gamma angles 
2329    of the current conformation from those of the experimental conformation,
2330 \item{uscdiff(i):} sum of squares of the differences between the Cartesian difference
2331    of the unit vector of the C$^\alpha$-SC axis of the current conformation from 
2332    those of the experimental conformation.
2333 \end{description}
2334
2335 Next lines: Cartesian coordinates of the C$^\alpha$ atoms (including dummy atoms)
2336 (sequentially, 10 coordinates per line)
2337 Next lines: Cartesian coordinates of the SC atoms (including glycines and
2338 dummy atoms) (sequentially, 10 coordinates per line)
2339
2340 \subsubsection{The compressed Cartesian coordinate (CX) files}
2341 \label{sect:output:coord:cx}
2342
2343 These files are compressed binary files (extension cx). For each conformation, 
2344 the items are written in the same order as specified in section \ref{sect:output:coord:cx}. For 
2345 MREMD runs, if TRAJ1FILE is specified on MREMD record (see section \ref{sect:input:main:MD}),
2346 snapshots from all trajectories are written every time the coordinates
2347 are dumped. Thus, the file contains snapshot 1 from trajectory 1, ...,
2348 snapshot 1 from trajectory M, snapshot 2 from trajectory 1, ..., etc.
2349
2350 The compressed cx files can be converted to pdb file by using the xdrf2pdb
2351 auxiliary program (single trajectory files) or xdrf2pdb-m program (multiple
2352 trajectory files from MREMD runs generated by using the TRAJ1FILE option).
2353 The multiple-trajectory cx files are also input files for the auxiliary
2354 WHAM program.
2355
2356 \subsubsection{The Brookhaven Protein Data Bank format (PDB) files}
2357 \label{sect:output:coord:PDB}
2358
2359 (Subroutine PDBOUT.)
2360
2361 \sloppy
2362 These files are written in PDB standard (see. e.g., 
2363 \href{ftp://ftp.wwpdb.org/pub/pdb/doc/format_descriptions/Format_v33_Letter.pdf}{\textcolor{blue}{ftp://ftp.wwpdb.org/pub/pdb\-/doc/\-format\_descriptions}}). %\-/Format\_v33\_Letter.pdf}.
2364 The REMARK, ATOM, SSBOND, HELIX, SHEET, CONECT, TER, and ENDMDL are used.
2365 The C$^\alpha$ (marked CA) and SC (marked CB) coordinates are output. The CONECT
2366 records specify the C$^\alpha\cdots$C$^\alpha$ and C$^\alpha\cdots$SC virtual bonds. Secondary
2367 structure is detected based on peptide-group contacts, as specified in 
2368 ref 12. Dummy residues are omitted from the output. If the program has
2369 multiple-chain function, the presence of a dummy residue in a sequence 
2370 starts a new chain, which is assigned the next alphabet letter as ID, and
2371 residue numbering is started over.
2372
2373 \subsubsection{The SYBYLL (MOL2) files}
2374 \label{sect:output:coord:subyll}
2375
2376 See the description of mol2 format (e.g., 
2377 \href{http://tripos.com/data/support/mol2.pdf}{http://tripos.com/data/support/mol2.pdf}. 
2378 Similar remarks apply as for
2379 the PDB format (section \ref{sect:output:coord:PDB}). 
2380
2381 \subsection{The summary (STAT) file}
2382
2383 \subsubsection{Non-MD runs}
2384
2385 This file contains a short summary of the quantities characterizing the
2386 conformations produced by UNRES/CSA. It is created for MULTCONF and MCM.
2387
2388 NOUT,EVDW,EVDW2,EVDW1+EES,ECORR,EBE,ESCLOC,ETORS,ETOT,RMS,FRAC\\
2389 (I5,9(1PE14.5))
2390
2391 \begin{description}
2392 \item{NOUT} -- the number of the conformations
2393 \item{EVDW,EVDW2,EVDW1+EES,ECORR,EBE,ESCLOC,ETORS} -- energy components
2394 \item{ETOT} -- total energy
2395 \item{RMS} -- RMS deviation from the reference structure (if REFSTR was specified)
2396 \item{FRAC} -- fraction of side chain - side chain contacts of the reference 
2397        structure present in this conformation (if REFSTR was specified)
2398 \end{description}
2399
2400 \subsubsection{MD and MREMD runs}
2401 \label{sect:output:coord:MD}
2402
2403 Each line of the stat file generated by MD/MREMD runs contains the following
2404 items in sequence:
2405
2406 \begin{description}
2407 \item{step}   -- the number of the MD step 
2408 \item{time}   -- time [unit is MTU (molecular time unit) equal to 48.9 fs]        
2409 \item{Ekin}   -- kinetic energy [kcal/mol]        
2410 \item{Epot}   -- potential energy [kcal/mol]
2411 \item{Etot}   -- total energy (Ekin+Epot)
2412 \item{H-H0}   -- the difference between the cureent and initial extended Hamiltionian
2413          in Nose-Hoover or Nose-Poincare runs; not present for other thermostats.
2414 \item{RMSD}   -- root mean square deviation from the reference structure (only in 
2415          REFSTR has been specified)
2416 item{damax}  -- maximum change of acceleration between two MD steps
2417 \item{fracn}  -- fraction of native side-chain concacts (very crude, based on 
2418          SC-SC distance only)
2419 \item{fracnn} -- fraction of non-native side-chain contacts
2420 \item{co}     -- contact order
2421 \item{temp}   -- actual temperature [K]    
2422 \item{T0}     -- initial (microcanonical runs) or thermostat (other run types) 
2423          temperature [K] 
2424 \item{Rgyr}   -- radius of gyration based on C$^\alpha$ coordinates [A]   
2425 \item{proc}   -- in MREMD runs the number of the processor (the number of the 
2426          trajectory less 1); not present for other runs. 
2427 \end{description}
2428
2429 For an USAMPL run, the following items follow the above list:
2430
2431 \begin{description}
2432 \item{iset}   -- the number of the restraint set
2433 \item{uconst} -- restraint energy pertaining to q-values 
2434 \item{uconst\_back} -- restraint energy pertaining to virtual-backbone restraints
2435 \item{(qfrag(i),i=1,nfrag)} -- q values of the specified fragments
2436 \item{(qpair(ii2),ii2=1,npair)} -- q values of the specified pairs of fragments
2437 \item{(utheta(i),ugamma(i),uscdiff(i),i=1,nfrag\_back)} -- virtual-backbone and
2438       side-chain-rotamer restraint energies of the fragments specified
2439 \end{description}
2440
2441 If PRINT\_COMPON has been specified, the energy components are printed
2442 after the items described above.
2443
2444 \subsection{CSA-specific output files}
2445 \label{sect:output:coord:CSA}
2446
2447 There are several output files from the CSA routine:
2448 INPUT.CSA.seed, INPUT.CSA.history, INPUT.CSA.bank, INPUT.CSA.bank1, 
2449 INPUT.CSA.rbank INPUT.CSA.alpha, INPUT.CSA.alpha1.
2450
2451 The most informative outfile is INPUT.CSA.history. This file first write down 
2452 the parameters in INPUT.CSA.csa file. Later it shows the energies of random 
2453 minimized conformations in its generation. After sorting the First\_bank
2454 in energy (ascending order), the energies of the First\_bank is re-written here.
2455 After this the output looks like:
2456
2457 \begin{verbatim}
2458    1   0     100  6048.2   1 100-224.124-114.346    202607  100  100
2459    1   0     700  5882.6   2  29-235.019-203.556   1130308  100  100
2460    1   0    1300  5721.5   2  18-242.245-212.138   2028008  100  100
2461    1   0    1900  5564.8  13  54-245.185-218.087   2897988   98  100
2462    1   0    2500  5412.4  13  61-246.214-222.068   3706478   97  100
2463    1   0    3100  5264.2  13  89-248.715-224.939   4514196   96  100
2464 \end{verbatim}
2465
2466 Each line is written between each iteration (just after selection
2467 of seed conformations) containing following data:
2468 jlee,icycle,nstep,cutdif,ibmin,ibmax,ebmin,ebmax,nft,iuse,nbank
2469 ibmin and ibmax lists the index of bank conformations corresponding to the
2470 lowest and highest energies with ebmin and ebmax.
2471 nft is the total number of function evaluations so far.
2472 iuse is the total number of conformations which have not been used as seeds
2473 prior to calling subroutine select\_is which select seeds.
2474
2475 Therefore, in the example shown above, one notes that so far 3100 
2476 minimizations has been performed corresponding to the total of  4514196
2477 function evaluations. The lowest and highest energy in the Bank is 
2478 -248.715 (\#13) and -224.939 (\#89), respectively. The number of conformations
2479 already used as seeds (not including those selected as seeds in this iteration)
2480 so far is 4 (100-96).
2481
2482 The files INPUT.CSA.bank and INPUT.CSA.rbank contains data of Bank and
2483 First\_bank. For more information on these look subroutines  write\_bank
2484 and write\_rbank. The file INPUT.CSA.bank is overwritten between each
2485 iteration whereas Bank is accumulated in INPUT.CSA.bank1 (not for every
2486 iteration but as specified in the subroutine together.f).
2487
2488 The file INPUT.CSA.seed lists the index of the seed conformations with their
2489 energies. Files INPUT.CSA.alpha, INPUT.CSA.alpha1 are written only once
2490 at the beginning of the CSA run. These files contain some arrays used
2491 in CSA procedure.
2492
2493 \newpage
2494
2495 \section{TECHNICAL SUPPORT CONTACT INFORMATION}
2496 \label{sect:support}
2497
2498    Dr. Adam Liwo\\
2499    Faculty of Chemistry, University of Gdansk\\
2500    ul. Wita Stwosza 63, 80-308 Gdansk Poland.\\
2501    phone: +48 58 523 5124\\
2502    fax: +48 58 523 5012\\
2503    e-mail: \href{mailto:adam@sun1.chem.univ.gda.pl}{adam@sun1.chem.univ.gda.pl}\\
2504
2505    Dr. Cezary Czaplewski\\
2506    Faculty of Chemistry, University of Gdansk\\
2507    ul. Wita Stwosza 63, 80-308 Gdansk Poland.\\
2508    phone: +48 58 523 5126\\
2509    fax: +48 58 523 5012\\
2510    e-mail: \href{mailto:cezary.czaplewski@ug.edu.pl}{cezary.czaplewski@ug.edu.pl}\\
2511
2512    Dr. Adam Sieradzan\\
2513    Faculty of Chemistry, University of Gdansk\\
2514    ul. Wita Stwosza 63, 80-308 Gdansk Poland.\\
2515    phone: +48 58 523 5124\\
2516    fax: +48 58 523 5012\\
2517    e-mail: \href{mailto:adasko@sun1.chem.univ.gda.pl}{adasko@sun1.chem.univ.gda.pl}\\
2518
2519    Dr. Stanislaw Oldziej\\
2520    Intercollegiate Faculty of Biotechnology\\
2521    University of Gdansk, Medical University of Gdansk\\
2522    ul. Kladki 22, 80-922 Gdansk, Poland\\
2523    phone: +48 58 523 5361\\
2524    fax: +48 58 523 5472\\
2525    e-mail: \href{mailto:stan@biotech.ug.edu.pl}{stan@biotech.ug.edu.pl}\\
2526
2527    Dr. Jooyoung Lee\\
2528    Korea Institute for Advanced Study\\
2529    207-43 Cheongnyangni 2-dong, Dongdaemun-gu,\\
2530    Seoul 130-722, Korea\\
2531    phone: +82-2-958-3890\\
2532    fax: +82-2-958-3731\\
2533    email: \href={mailto:jlee@kias.re.kr}{jlee@kias.re.kr}
2534
2535 \small{
2536         Prepared by Adam Liwo and Jooyoung Lee, 7/17/99\\
2537         Revised by Cezary Czaplewski 1/4/01\\
2538         Revised by Cezary Czaplewski and Adam Liwo 8/26/03\\
2539         Revised by Cezary Czaplewski and Adam Liwo 11/26/11\\
2540         Revised by Adam Liwo 02/19/12\\
2541         LaTeX version by Adam Liwo 09/25/12\\
2542         revised by Adam Liwo 12/04/14
2543 }
2544 \end{document}