doc update
[unres.git] / doc / 3.2.1 / latex / clusterman.tex
1 \documentclass[12pt]{article}
2 %\usepackage{latex2html}
3 \usepackage{enumerate}
4 \usepackage{longtable}
5 \usepackage{hyperref}
6 \usepackage{amsmath}
7 \usepackage{color}
8 \parindent=0pt
9 \parskip=12pt
10 \textheight=24cm
11 \textwidth=18cm
12 \topmargin=-2.5cm
13 \oddsidemargin=-0.5cm
14 \setcounter{secnumdepth}{5}
15 \setcounter{tocdepth}{5}
16 \begin{document}
17 \sloppy
18
19 \title{CLUSTER\\
20 Cluster analysis of UNRES simulation results}
21
22 \author{Laboratory of Molecular Modeling\\ Faculty of Chemistry\\ University of Gdansk\\ Wita Stwosza 63\\ 80-308 Gdansk, Poland\\
23 \\
24 \\
25 Scheraga Group\\ Baker Laboratory of Chemistry \\
26 and Chemical Biology\\ Cornell University\\ Ithaca, NY 14853-1301, USA}
27
28 \maketitle
29
30 \newpage
31
32 \tableofcontents
33
34 % 1. License terms
35 % 2. References
36 % 3. Functions of the program
37 % 4. Installation
38 % 5. Running the program
39 % 6. Input and output files
40 %    6.1. Summary of files
41 %    6.2. The main input file
42 %         6.2.1. Title
43 %         6.2.2. General data
44 %         6.2.3. Energy-term weights and parameter files
45 %         6.2.4 Molecule data
46 %               6.2.4.1. Sequence information
47 %               6.2.4.2. Dihedral angle restraint information
48 %               6.2.4.3. Disulfide-bridge data
49 %         6.2.5. Reference structure
50 %    6.3. Main output file (out)
51 %    6.4. Output coordinate files
52 %         6.4.1. The internal coordinate (int) files
53 %         6.4.2. The Cartesian coordinate (x) files
54 %         6.4.3. The PDB files
55 %                6.4.3.1. CLUST-UNRES runs
56 %                6.4.3.2. CLUST-WHAM runs
57 %                         6.4.3.2.1. Conformation family files
58 %                         6.4.3.2.2. Average-structure file
59 %    6.5. The conformation-distance file
60 %    6.6. The clustering-tree PicTeX file
61 % 7. Support
62
63 \newpage
64
65 \section{LICENSE TERMS}
66 \label{sect:license}
67
68 \begin{itemize}
69
70 \item
71                 This software is provided free of charge to academic users, subject to the condition that no part of it be sold or used otherwise for commercial purposes, including, but not limited to its incorporation into commercial software packages, without written consent from the authors. For permission contact Prof. H. A. Scheraga, Cornell University.
72
73 \item
74                 This software package is provided on an ``as is'' basis. We in no way warrant either this software or results it may produce.
75
76 \item
77                 Reports or publications using this software package must contain an acknowledgment to the authors and the NIH Resource in the form commonly used in academic research.
78
79 \end{itemize}
80
81 \newpage
82
83 \section{REFERENCES}
84 \label{sect:references}
85
86 The program incorporates the hierarchical-clustering subroutine, hc.f written
87 by G. Murtagh (refs 1 and 2). The subroutine contains seven methods of 
88 hierarchical clustering.
89
90 \begingroup
91 \renewcommand{\section}[2]{}%
92 \begin{thebibliography}{10}
93
94 \bibitem{murtagh_1985}
95 Murtagh. Multidimensional clustering algorithms; Physica-Verlag: 
96 Vienna, Austria, 1985.
97
98 \bibitem{murtagh_1987}
99 F. Murtagh, A. Heck. MultiVariate data analysis; Kluwer Academic:
100 Dordrecht, Holland, 1987.
101
102 \bibitem{liwo_2007}
103 A. Liwo, M. Khalili, C. Czaplewski, S. Kalinowski, S. Oldziej, K. Wachucik,
104 H.A. Scheraga.
105 Modification and optimization of the united-residue (UNRES) potential
106 energy function for canonical simulations. I. Temperature dependence of the
107 effective energy function and tests of the optimization method with single
108 training proteins. {\it J. Phys. Chem. B}, {\bf 2007}, 111, 260-285.
109
110 \bibitem{oldziej_2004}
111 S. Oldziej, A. Liwo, C. Czaplewski, J. Pillardy, H.A. Scheraga.
112 Optimization of the UNRES force field by hierarchical design of the
113 potential-energy landscape. 2. Off-lattice tests of the method with single
114 proteins.  {\it J. Phys. Chem. B.}, {\bf 2004}, 108, 16934-16949.
115
116 \end{thebibliography}
117 \endgroup
118
119 \newpage
120
121 \section{FUNCTIONS OF THE PROGRAM}
122 \label{sect:functions}
123
124 The program runs cluster analysis of UNRES simulation results. There are two
125 versions of the program depending on the origin of input conformation: 
126
127 \begin{enumerate}
128
129 \item
130    CLUST-UNRES: performs cluster analysis of conformations that are obtained 
131    directly from UNRES runs (CSA, MCM, MD, (M)REMD, multiple-conformation 
132    energy minimization). The source code and other important files are
133    deposited in CLUST-UNRES subdirectory
134
135    The source code of this version is deposited in clust-unres/src
136
137 \item
138    CLUST-WHAM: performs cluster analysis of conformations obtained in UNRES
139    MREMD simulations and then processed with WHAM (weighted histogram analysis 
140    method). This enables the user to obtain clusters as conformational 
141    ensembles at a given temperature and to compute their probabilities 
142    (section 2.5 of ref 3). This version is deposited in the CLUST-WHAM
143    subdirectory. This version has single- and multichain variants, whose
144    source codes are deposited in the following subdirectories:
145
146 \begin{enumerate}
147
148 \item
149    clust-wham/src    single-chain proteins
150
151 \item
152    clust-wham/src-M  oligomeric proteins
153
154 \end{enumerate}
155
156 \end{enumerate}
157
158 The version developed for oligomeric proteins treats whole system as a single
159 chain with dummy residues inserted. It also works for single chains but is
160 not fully checked and it is recommended to use single-chain version for 
161 single-chain proteins.
162
163 \section{INSTALLATION}
164 \label{sect:install}
165
166 It is recommended to use Cmake to install the whole package; please see
167 Installation Guide.
168
169 Customize Makefile to your system. See section 7 of the description of UNRES
170 for compiler flags that are used to created executables for a particular
171 force field. There are already several Makefiles prepared for various
172 systems and force fields.
173
174 Run make in the appropriate source directory version. CLUST-UNRES runs
175 only in single-processor mode an CLUST-WHAM runs in both serial and parallel 
176 mode [only conformation-distance (rmsd) calculations are parallelized]. 
177 The parallel version uses MPI.
178
179 \section{RUNNING THE PROGRAM}
180 \label{sect:running}
181
182 The program requires a parallel system to run. Depending on system,
183 either the wham.csh C-shell script (in WHAM/bin directory) can be started
184 using mpirun or the binary in the C-shell script must be executed through
185 mpirun. See the wham.csh C-shell script and section 6 for the files 
186 processed by the program.
187
188 \newpage
189
190 \section{INPUT AND OUTPUT FILES}
191 \label{sect:inoutfiles}
192
193 \subsection{Summary of files}
194 \label{sect:inoutfiles:summary}
195
196 The C-shell script wham.csh is used to run the program (see the 
197 bin/WHAM directory). The data files that the script needs are mostly the same as 
198 for UNRES (see section 6 of UNRES description). In addition, the environmental
199 variable CONTFUN specifies the method to assess whether two side chains
200 are at contact; if EONTFUN=GB, the criterion defined by eq 8 of ref 4 is
201 used to assess whether two side chains are at contact. Also, the parameter
202 files from the C-shell scripts are overridden if the data from Hamiltonian
203 MREMD are processed; if so, the parameter files are defined in the main
204 input file.
205
206 The main input file must have inp extension. If it is INPUT.inp, the output
207 files are as follows:
208
209 Coordinate input file COORD.ext, where ext denotes file extension in one of the 
210 following formats:
211
212 \begin{description}
213 \item{int} (extension int; UNRES angles theta, gamma, alpha, and beta),
214 \item{x}   (extension x; UNRES Cartesian coordinate format; from MD),
215 \item{pdb} (extension pdb; Protein Data Bank format; fro MD),
216 \item{cx}  (extension cx; xdrf format; from WHAM).
217 \end{description}
218
219 \begin{description}
220 \item{INPUT\_clust.out} (single-processor mode) or INPUT\_clust.out\_xxx (parallel mode) --
221      output file(s) (INPUT.out\_000 is the main output file for parallel mode).
222
223 \item{COORD\_clust.int} -- leading (lowest-energy) members of the families.
224     in internal-coordinate format.
225 \item{COORD\_clust.x} -- leading members of the families in UNRES Cartesian coordinate
226     format.
227 \item{COORD\_xxxx.pdb} or COORD\_xxxx\_yyy.pdb (CLUST-UNRES) -- PDB file of member yyy
228     of family xxxx; yyy is omitted if the family contains only one member
229     within a given energy cut-off.
230 \item{COORD\_TxxxK\_yyyy.pdb} -- concatenated conformations in PDB format of the 
231     members of family yyyy clustered at T=xxxK ranked by probabilities in
232     descending order at this temperature (CLUST-WHAM).
233 \item{COORD\_T\_xxxK\_ave.pdb} -- cluster-averaged coordinates and coordinates of a 
234     member of each family that is closest to the cluster average in PDB
235     format, concatenated in a single file (CLUST-WHAM).
236  
237 \item{INPUT\_clust.tex} -- PicTeX code of the cluster tree.
238
239 \item{INPUT.rms} -- rmsds between conformations.
240
241 \end{description}
242
243 \subsection{Main input file}
244 \label{sect:inoutfiles:main}
245
246 This file has the same structure as the UNRES input file; most of the data are 
247 input in a keyword-based form (see section 7.1 of UNRES description). The data
248 are grouped into records, referred to as lines. Each record, except for the 
249 records that are input in non-keyword based form, can be continued by placing
250 an ampersand (\&) in column 80. Such a format is referred to as the data list
251 format.
252
253 In the following description, the default values are given in parentheses.
254
255 \subsubsection{Title}
256
257 An 80-character string from the first line is input.
258
259 \subsubsection{General data}
260 \label{sect:inoutfiles:main:general}
261
262 (Data list format.)
263
264 \begin{description}
265
266 \item{NRES} (0) -- the number of residues.
267
268 \item{ONE\_LETTER} -- if present, the sequence is input in one-letter code.
269
270 \item{SYM} (1) -- number of chains with same sequence (for oligomeric proteins only).
271
272 \item{WITH\_DIHED\_CONSTR} -- if present, dihedral-angle restraints were imposed in the
273     processed MREMD simulations
274
275 \item{RESCALE} (1) -- Choice of the type of temperature dependence of the force field.
276
277 \begin{description}
278 \item{0}  -- no temperature dependence,
279 \item{1}  -- homographic dependence (not implemented yet with any force field)
280 \item{2}  -- hyperbolic tangent dependence \cite{liwo_2007}.
281 \end{description}
282
283 \item{DISTCHAINMAX} (50.0) -- for oligomeric proteins, distance between the chains
284      above which restraints will be switched on to keep the chains at a
285      reasonable distance.
286
287 \item{PDBOUT} -- clusters will be printed in PDB format.
288
289 \item{ECUT} -- energy cut-off criterion to print conformations (UNRES-CLUST runs).
290      Only those families will be output the energy of the lowest-energy
291      conformation of which is within ECUT kcal/mol above that of the 
292      lowest-energy conformation and for a family only those members will be
293      output which have energy within ECUT kcal/mol above the energy of the 
294      lowest-energy member of the family.
295
296 \item{PRINT\_CART} -- output leading members of the families in UNRES x format.
297
298 \item{PRINT\_INT} -- output leading members of the families in UNRES int format.
299
300 \item{REF\_STR} -- if present, reference structure is input and rmsd will be computed 
301       with respect to it (CLUST-UNRES only; rmsd is provided in the cx file 
302       from WHAM for CLUST-WHAM runs).
303
304 \item{PDBREF} -- if present, reference structure will be read in from a pdb file.
305
306 \item{SIDE} -- side chains will be considered in superposition when calculating rmsd.
307
308 \item{CA\_ONLY} -- only the Calpha atoms will be used in rmsd calculation.
309
310 \item{NSTART} (0) -- first residue to superpose.
311
312 \item{NEND} (0) -- last residue to superpose.
313
314 \item{NTEMP} (1) -- number of temperatures at which probabilities will be calculated
315          and clustering performed (CLUST-WHAM).
316
317 \item{TEMPER} (NTEMP tiles) -- temperatures at which clustering will be performed
318         (CLUST-WHAM).
319
320 \item{EFREE} -- if present, conformation entropy factor is read if the conformation
321         is input from an x or pdb file.
322
323 \item{PROB} (0.99) -- cut-off on the summary probability of the conformations that
324      are clustered at a given temperature (CLUST-WHAM).
325
326 \item{IOPT} (2) - clustering algorithm:
327
328 \begin{description}
329 \item{1} -- Ward's minimum variance method.
330 \item{2} -- single link method.
331 \item{3} -- complete link method.
332 \item{4} -- average link (or group average) method.
333 \item{5} -- McQuitty's method.
334 \item{6} -- Median (Gower's) method.
335 \item{7} -- centroid method.
336 \end{description}
337
338 Instead of IOPT=1, MINTREE and instead of IOPT=2 MINVAR can be specified
339
340 \item{NCUT} (1) -- number of cut-offs in clustering.
341
342 \item{CUTOFF} (-1.0; NCUT values) cut-offs at which clustering will be performed;
343     at the cut-off flagged by a ``-'' sign clustering will be performed with
344     cutoff value=abs(cutoff(i)) and conformations corresponding to clusters
345     will be output in the desired format.
346
347 \item{MAKE\_TREE} -- if present, produce a clustering-tree graph.
348
349 \item{PLOT\_TREE} -- if present, the tree is written in PicTeX format to a file.
350
351 \item{PRINT\_DIST} -- if present, distance (rmsd) matrix is printed to main output
352     file.
353
354 \item{PUNCH\_DIST} -- if present, the upper-triangle of the distance matrix will be 
355     printed to a file.
356
357 \item{NSAXS} -- number of distance-distribution bins corresponding to to SAXS
358 restraints (to be included in further section of the input).
359
360 \item{SCAL\_RAD} -- scaling factor of sidechain radii in calculating Gaussian-smoothed distance distribution.
361
362 \item{BOXX, BOXY, BOXZ} - periodic-box dimensions.
363 \end{description}
364
365 \subsubsection{Energy-term weights and parameter files}
366 \label{sect:inoutfiles:main:weights}
367
368 \begin{description}
369 \item{WSC (1.0)}  --  side-chain-side-chain interaction energy.
370
371 \item{WSCP} (1.0)  --  side chain-peptide group interaction energya.
372
373 \item{WELEC} (1.0) --  peptide-group-peptide group interaction energy.
374
375 \item{WEL\_LOC} (1.0) -- third-order backbone-local correlation energy.
376
377 \item{WCORR} (1.0) -- fourth-order backbone-local correlation energy.
378
379 \item{WCORR5} (1.0) -- fifth-order backbone-local correlation energy.
380
381 \item{WCORR6} (1.0) -- sixth-order backbone-local correlation energy.
382
383 \item{WTURN3} (1.0) -- third-order backbone-local correlation energy of pairs of 
384                peptide groups separated by a single peptide group.
385
386 \item{WTURN4} (1.0) -- fourth-order backbone-local correlation energy of pairs of 
387                peptide groups separated by two peptide groups.
388
389 \item{WTURN6} (1.0) -- sixth-order backbone-local correlation energy for pairs of 
390                peptide groups separated by four peptide groups.
391
392 \item{WBOND} (1.0) -- virtual-bond-stretching energy.
393
394 \item{WANG} (1.0) --  virtual-bond-angle-bending energy.
395
396 \item{WTOR} (1.0) --  virtual-bond-torsional energy.
397
398 \item{WTORD} (1.0) -- virtual-bond-double-torsional energy.
399
400 \item{WSCCOR} (1.0) -- sequence-specific virtual-bond-torsional energy.
401
402 \item{WDIHC} (0.0) -- dihedral-angle-restraint energy.
403
404 \item{WHPB} (1.0)  -- distance-restraint energy.
405
406 \item{SCAL14} (0.4) -- scaling factor of 1,4-interactions
407
408 \item{WSAXS=number} (real) (1.0d0) -- weight of the maximum-likelihood SAXS-restraint term.
409
410 \end{description}
411
412 \subsubsection{Molecule information}
413 \label{sect:inoutfiles:main:molinfo}
414
415 \paragraph{Sequence information\\ \\}
416 \label{sect:inoutfiles:main:molinfo:sequence}
417
418 Amino-acid sequence
419
420 3-letter code: Sequence is input in format 20(1X,A3) 
421
422 1-letter code: Sequence is input in format 80A1
423
424 \paragraph{Dihedral angle restraint information\\ \\}
425 \label{sect:inoutfiles:molinfo:dihrestr}
426
427 This is the information about dihedral-angle restraints, if any are present.
428 It is specified only when WITH\_DIHED\_CONSTR is present in the first record.
429
430 1st line: ndih\_constr -- number of restraints (free format)
431
432 2nd line: ftors -- force constant (free format)
433
434 Each of the following ndih\_constr lines:
435
436 idih\_constr(i),phi0(i),drange(i)  (free format)
437
438 \begin{description}
439 \item{idih\_constr(i)} -- the number of the dihedral angle gamma corresponding to the
440 ith restraint
441
442 \item{phi0(i)} -- center of dihedral-angle restraint
443
444 \item{drange(i)} -- range of flat well (no restraints for phi0(i) +/- drange(i))
445
446 \end{description}
447
448 \paragraph{Disulfide-bridge data \\ \\}
449 \label{sect:inoutfiles:molinfo:disulfide}
450
451 1st line: NS, (ISS(I),I=1,NS)    (free format)
452
453 \begin{description}
454
455 \item{NS} -- number of cystine residues forming disulfide bridges.
456
457 \item{ISS(I)} -- the number of the Ith disulfide-bonding cystine in the sequence.
458
459 \end{description}
460
461 2nd line: NSS, (IHPB(I),JHPB(I),I=1,NSS) (free format)
462
463 \begin{description}
464
465 \item{NSS} -- number of disulfide bridges
466
467 \item{IHPB(I),JHPB(I)} -- the first and the second residue of ith disulfide link.
468
469 Because the input is in free format, each line can be split
470 \end{description}
471
472 \subsubsection{Reference structure}
473 \label{sect:inoutfiles:molinfo:refstr}
474
475 If PDBREF is specified, filename with reference (experimental) structure,
476 otherwise UNRES internal coordinates as the theta, gamma, alpha, and beta 
477 angles.
478
479 \subsection{Main output file}
480 \label{sect:inoutfiles:mainoutput}
481
482 The main (with name INPUT\_clust.out or INPUT\_clust.out\_000 for parallel runs)
483 output file contains the results of clustering (numbers of families
484 at different cut-off values, probabilities of clusters, composition of 
485 families, and rmsd values corresponding to families (0 if rmsd was not
486 computed or read from WHAM-generated cx file).
487
488 The output files corresponding to non-master processors
489 (INPUT\_clust.out\_xxx where xxx$>$0 contain only the information up to the
490 clustering protocol. These files can be deleted right after the run.
491
492 Excerpts from the a sample output file are given below:
493
494 CLUST-UNRES:
495
496 \begin{verbatim}
497
498 THERE ARE   20 FAMILIES OF CONFORMATIONS
499
500 FAMILY    1 CONTAINS    2 CONFORMATION(S):
501   42 -2.9384E+03  50 -2.9134E+03
502
503
504 Max. distance in the family:    14.0; average distance in the family:    14.0
505
506 FAMILY    2 CONTAINS    3 CONFORMATION(S):
507   13 -2.9342E+03   7 -2.8827E+03  10 -2.8682E+03
508 \end{verbatim}
509
510 CLUST-WHAM:
511
512 \begin{verbatim}
513 AT CUTOFF: 200.00000
514 Maximum distance found:  137.82
515 Free energies and probabilities of clusters at 325.0 K
516 clust   efree    prob sumprob
517     1   -76.5 0.25035 0.25035
518     2   -76.5 0.24449 0.49484
519     3   -76.4 0.21645 0.71129
520     4   -76.4 0.20045 0.91174
521     5   -75.8 0.08826 1.00000
522
523
524 THERE ARE    5 FAMILIES OF CONFORMATIONS
525
526 FAMILY    1 WITH TOTAL FREE ENERGY   -7.65228E+01 CONTAINS  548 CONFORMATION(S):
527 8363  -7.332E+013939  -7.332E+012583  -7.332E+017395  -7.332E+019932  -7.332E+01
528 5816  -7.332E+013096  -7.332E+012663  -7.332E+014099  -7.332E+016822  -7.332E+01
529 3176  -7.332E+017542  -7.332E+018933  -7.332E+017315  -7.332E+01 200  -7.332E+01.
530 .
531 5637  -7.062E+018060  -7.061E+013797  -7.060E+018800  -7.057E+016295  -7.057E+01
532 6298  -7.057E+012332  -7.057E+012709  -7.057E+01
533
534 Max. distance in the family:    16.5; average distance in the family:     8.8
535 Average RMSD 8.22 A
536 \end{verbatim}
537
538 \subsection{Output coordinate files}
539 \label{sect:inoutfiles:outcoord}
540
541 \subsubsection{The internal coordinate (int) files}
542 \label{sect:inoutfiles:int}
543
544 The file with name COORD\_clust.int contains the angles theta, gamma, alpha,
545 and beta of all residues of the leaders (lowest UNRES energy conformations
546 from consecutive families for CLUST-UNRES runs and lowest free energy 
547 conformations for CLUST-WHAM runs). The format is the same as that of the 
548 file output by UNRES; see section 9.1.1 of UNRES description.
549
550 For CLUST-WHAM runs, the first line contains more items:
551
552 \begin{tabular}{ll}
553 number of family                             &(format i5)\\
554 UNRES free energy of the conformation        &(format f12.3)\\
555 Free energy of the entire family             &(format f12.3)\\
556 number of disulfide bonds                    &(format i2)\\
557 list disulfide-bonded pairs                  &(format 2i3)\\
558 conformation class number (0 if not provided)&(format i10)\\
559 \end{tabular}
560
561 \subsubsection{The Cartesian coordinate (x) files}
562 \label{sect:inoutfiles:card}
563
564 The file with name COORD\_clust.x contains the Cartesian coordinates of the 
565 alpha-carbon and side-chain-center coordinates. The coordinate format is
566 as in section 9.1.2 of UNRES description and the first line contains the
567 following items:
568
569 \begin{tabular}{ll}
570 Number of the family                         &(format I5)\\
571 UNRES free energy of the conformation        &(format f12.3)\\
572 Free energy of the entire family             &(format f12.3)\\
573 number of disulfide bonds                    &(format i2)\\
574 list disulfide-bonded pairs                  &(format 2i3)\\
575 conformation class number (0 if not provided)&(format i10)\\
576 \end{tabular}
577
578 \subsubsection{The PDB files}
579 \label{sect:inoutfiles:PDB}
580
581 The PDB files are in standard format (see 
582 \href{ftp://ftp.wwpdb.org/pub/pdb/doc/format_descriptions/Format_v33_Letter.pdf}{ftp://ftp.wwpdb.org/pub/pdb/doc/format\_descriptions}).
583 The ATOM records contain Calpha coordinates (CA) or UNRES side-chain-center
584 coordinates (CB). For oligomeric proteins chain identifiers are present
585 (A, B, ..., etc.) and each chain ends with a TER record. Coordinates of a 
586 single conformation or multiple conformations  The header (REMARK) records 
587 and the contents depends on cluster run type. The next subsections are devoted 
588 to different run types. 
589
590 \paragraph{CLUST-UNRES runs \\ \\}
591 \label{sect:inoutfiles:PDB:clust-unres}
592
593 The files contain the members of the families obtained from clustering such
594 that the lowest-energy conformation of a family is within ECUT kcal/mol higher
595 in energy than the lowest-energy conformation. Again, within a family, only
596 those conformations are output whose energy is within ECUT kcal/mol above
597 that of the lowest-energy member of the family. Families and the members 
598 of a family within a family are ranked by increasing energy. The file names are:
599
600 COORD\_xxxx.pdb  where xxxx is the number of the family, if the family contains
601     only one member of if only one member is output.
602
603 COORD\_xxxx\_yyy.pdb where xxxx is the number of the family and yyy is the number
604     of the member of this family.
605
606 An example is the following:
607
608 \begin{verbatim}
609 REMARK R0001                            ENERGY    -2.93843E+03
610 ATOM      1  CA  GLY     1       0.000   0.000   0.000
611 ATOM      2  CA  HIS     2       3.800   0.000   0.000
612 ATOM      3  CB  HIS     2       5.113   1.656   0.015
613 ATOM      4  CA  VAL     3       5.927  -3.149   0.000
614 .
615 .
616 .
617 ATOM    346  CB  GLU   183     -43.669 -32.853  -7.320
618 TER
619 CONECT    1    2
620 CONECT    2    4    3
621 .
622 .
623 .
624 CONECT  341  343  342
625 CONECT  343  344
626 CONECT  345  346
627 \end{verbatim}
628
629 where ENERGY is the UNRES energy. The CONECT records defined the Calpha-Calpha
630 and Calpha-SC connection.
631
632 \paragraph{CLUST-WHAM runs\\ \\}
633 \label{sect:inoutfiles:PDB:clust-wham}
634
635 The program generates a file for each family with its members and a summary
636 file with ensemble-averaged conformations for all families. These are described
637 in the two next sections.
638
639 \subparagraph{Conformation family files\\ \\}
640 \label{sect:inoutfiles:PDB:clust-unres:family}
641
642 For each family, the file name is COORD\_TxxxK\_yyyy.pdb, where yyyy is the
643 number of the family and xxx is the integer part of the temperature (K).
644 The first REMARK line in the file contains the information about the free
645 energy and average rmsd of the entire cluster and, for each conformation,
646 the initial REMARK line contains these quantities for this conformation.
647 Same applies to oligomeric proteins, for which the TER records separate the 
648 chains and the ENDMDL record separates conformations.
649 An example is given below. 
650
651 \begin{verbatim}
652 REMARK CLUSTER    1 FREE ENERGY  -7.65228E+01 AVE RMSD 8.22
653 REMARK 1BDD L18G full clust ENERGY    -7.33241E+01 RMS  10.40
654 ATOM      1  CA  VAL     1      18.059 -33.585   4.616  1.00  5.00
655 ATOM      2  CB  VAL     1      18.720 -32.797   3.592  1.00  5.00
656 .
657 .
658 .
659 ATOM    115  CA  LYS    58      29.641 -44.596  -8.159  1.00  5.00
660 ATOM    116  CB  LYS    58      27.593 -45.927  -8.930  1.00  5.00
661 TER
662 CONECT    1    3    2
663 CONECT    3    5    4
664 .
665 .
666 CONECT  113  114
667 CONECT  115  116
668 TER
669 REMARK 1BDD L18G full clust ENERGY    -7.33240E+01 RMS  10.04
670 ATOM      1  CA  VAL     1       3.174   2.833 -34.386  1.00  5.00
671 ATOM      2  CB  VAL     1       3.887   2.811 -33.168  1.00  5.00
672 .
673 .
674 ATOM    115  CA  LYS    58      16.682   6.695 -20.438  1.00  5.00
675 ATOM    116  CB  LYS    58      18.925   5.540 -20.776  1.00  5.00
676 TER
677 CONECT    1    3    2
678 CONECT    3    5    4
679 CONECT  113  114
680 CONECT  115  116
681 TER
682 \end{verbatim}
683
684 \subparagraph{Average-structure file\\ \\}
685 \label{sect:inoutfiles:PDB:clust-unres:average}
686
687 The file name is COORD\_T\_xxxK\_ave.pdb. The entries are in pairs; the first
688 one is cluster-averaged conformation and the second is a family member which
689 has the lowest rmsd from this average conformation. Computing average 
690 conformations is explained in section 2.5 of ref 3. Example excerpts from
691 an entry corresponding to a given family are shown below.
692
693 \begin{verbatim}
694 REMAR AVERAGE CONFORMATIONS AT TEMPERATURE  300.00
695 REMARK CLUSTER    1
696 REMARK 2HEP clustering 300K ENERGY    -8.22572E+01 RMS   3.29
697 ATOM      1  CA  MET     1     -17.748  48.148 -19.284  1.00  5.96
698 ATOM      2  CB  MET     1     -17.373  47.911 -19.294  1.00  6.34
699 ATOM      3  CA  ILE     2     -18.770  49.138 -18.133  1.00  3.98
700 .
701 .
702 .
703 ATOM     80  CB  PHE    41     -14.353  44.680 -15.642  1.00  2.62
704 ATOM     81  CA  ARG    42     -11.619  41.645 -13.117  1.00  4.06
705 ATOM     82  CB  ARG    42     -11.330  40.378 -13.313  1.00  5.19
706 TER
707 CONECT    1    3    2
708 CONECT    3    5    4
709 .
710 .
711 .
712 CONECT   76   78   77
713 CONECT   78   79
714 CONECT   79   80
715 CONECT   81   82
716 TER
717 REMARK 2HEP clustering 300K ENERGY    -8.22572E+01 RMS   3.29
718 ATOM      1  CA  MET     1     -37.698  40.489 -32.408  1.00  5.96
719 ATOM      2  CB  MET     1     -38.477  39.426 -34.159  1.00  6.34
720 .
721 .
722 .
723 ATOM     80  CB  PHE    41     -35.345  50.342 -31.371  1.00  2.62
724 ATOM     81  CA  ARG    42     -33.603  54.332 -27.130  1.00  4.06
725 ATOM     82  CB  ARG    42     -33.832  53.074 -24.415  1.00  5.19
726 TER
727 CONECT    1    3    2
728 CONECT    3    5    4
729 .
730 .
731 .
732 CONECT   76   78   77
733 CONECT   78   79
734 CONECT   79   80
735 CONECT   81   82
736 TER
737 \end{verbatim}
738
739 \subsection{The conformation-distance file}
740 \label{sect:inoutfiles:confdist}
741
742 The file name is INPUT\_clust.rms. It contains the upper-diagonal part of 
743 the matrix of rmsds between conformations and differences between their
744 energies:
745
746 i,j,rmsd,energy(j)-energy(i) (format 2i5,2f10.5)
747
748 where i and j, j$>$i are the numbers of the conformations, rmsd is the rmsd
749 between conformation i and conformation j and energy(i) and energy(j) are
750 the UNRES energies of conformations i and j, respectively.
751
752 \subsection{The clustering-tree PicTeX file}
753 \label{sect:inoutfiles:tree}
754
755 This file contains the PicTeX code of the clustering tree. The file name is
756 INPUT\_clust.tex. It should be supplemented with LaTeX preamble and final 
757 commands or incorporated into a LaTeX source and compiled with LaTeX. The 
758 picture is produced by running LaTeX followed by dvips, dvipdf or other command
759 to convert LaTeX-generated dvi files into a human-readable files.
760
761 \newpage
762
763 \section{SUPPORT}
764 \label{sect:support}
765
766    Dr. Adam Liwo\\
767    Faculty of Chemistry, University of Gdansk\\
768    ul. Wita Stwosza 63, 80-308 Gdansk Poland.\\
769    phone: +48 58 523 5124\\
770    fax: +48 58 523 5012\\
771    e-mail: \href{mailto:adam@sun1.chem.univ.gda.pl}{\textcolor{blue}{adam@sun1.chem.univ.gda.pl}}\\
772
773    Dr. Cezary Czaplewski\\
774    Faculty of Chemistry, University of Gdansk\\
775    ul. Wita Stwosza 63, 80-308 Gdansk Poland.\\
776    phone: +48 58 523 5126\\
777    fax: +48 58 523 5012\\
778    e-mail: \href{mailto:cezary.czaplewski@ug.edu.pl}{cezary.czaplewski@ug.edu.pl}
779
780
781 Prepared by Adam Liwo, 02/19/12
782
783 \LaTeX versioin, 09/28/12
784
785 Revised by Adam Liwo, 12/04/14
786
787 \end{document}