Added the change docs by Adam
[unres.git] / doc / 3.1 / latex / clusterman.tex
1 \documentclass[12pt]{article}
2 %\usepackage{latex2html}
3 \usepackage{enumerate}
4 \usepackage{longtable}
5 \usepackage{hyperref}
6 \usepackage{amsmath}
7 \usepackage{color}
8 \parindent=0pt
9 \parskip=12pt
10 \textheight=24cm
11 \textwidth=18cm
12 \topmargin=-2.5cm
13 \oddsidemargin=-0.5cm
14 \setcounter{secnumdepth}{5}
15 \setcounter{tocdepth}{5}
16 \begin{document}
17 \sloppy
18
19 \title{CLUSTER\\
20 Cluster analysis of UNRES simulation results}
21
22 \author{Department of Molecular Modeling\\ Faculty of Chemistry\\ University of Gdansk\\ Sobieskiego 18\\ 80-952 Gdansk, Poland\\
23 \\
24 \\
25 Scheraga Group\\ Baker Laboratory of Chemistry \\
26 and Chemical Biology\\ Cornell University\\ Ithaca, NY 14853-1303, USA}
27
28 \maketitle
29
30 \newpage
31
32 \tableofcontents
33
34 % 1. License terms
35 % 2. References
36 % 3. Functions of the program
37 % 4. Installation
38 % 5. Running the program
39 % 6. Input and output files
40 %    6.1. Summary of files
41 %    6.2. The main input file
42 %         6.2.1. Title
43 %         6.2.2. General data
44 %         6.2.3. Energy-term weights and parameter files
45 %         6.2.4 Molecule data
46 %               6.2.4.1. Sequence information
47 %               6.2.4.2. Dihedral angle restraint information
48 %               6.2.4.3. Disulfide-bridge data
49 %         6.2.5. Reference structure
50 %    6.3. Main output file (out)
51 %    6.4. Output coordinate files
52 %         6.4.1. The internal coordinate (int) files
53 %         6.4.2. The Cartesian coordinate (x) files
54 %         6.4.3. The PDB files
55 %                6.4.3.1. CLUST-UNRES runs
56 %                6.4.3.2. CLUST-WHAM runs
57 %                         6.4.3.2.1. Conformation family files
58 %                         6.4.3.2.2. Average-structure file
59 %    6.5. The conformation-distance file
60 %    6.6. The clustering-tree PicTeX file
61 % 7. Support
62
63 \newpage
64
65 \section{LICENSE TERMS}
66 \label{sect:license}
67
68 \begin{itemize}
69
70 \item
71                 This software is provided free of charge to academic users, subject to the condition that no part of it be sold or used otherwise for commercial purposes, including, but not limited to its incorporation into commercial software packages, without written consent from the authors. For permission contact Prof. H. A. Scheraga, Cornell University.
72
73 \item
74                 This software package is provided on an ``as is'' basis. We in no way warrant either this software or results it may produce.
75
76 \item
77                 Reports or publications using this software package must contain an acknowledgment to the authors and the NIH Resource in the form commonly used in academic research.
78
79 \end{itemize}
80
81 \newpage
82
83 \section{REFERENCES}
84 \label{sect:references}
85
86 The program incorporates the hierarchical-clustering subroutine, hc.f written
87 by G. Murtagh (refs 1 and 2). The subroutine contains seven methods of 
88 hierarchical clustering.
89
90 \begingroup
91 \renewcommand{\section}[2]{}%
92 \begin{thebibliography}{10}
93
94 \bibitem{murtagh_1985}
95 Murtagh. Multidimensional clustering algorithms; Physica-Verlag: 
96 Vienna, Austria, 1985.
97
98 \bibitem{murtagh_1987}
99 F. Murtagh, A. Heck. MultiVariate data analysis; Kluwer Academic:
100 Dordrecht, Holland, 1987.
101
102 \bibitem{liwo_2007}
103 A. Liwo, M. Khalili, C. Czaplewski, S. Kalinowski, S. Oldziej, K. Wachucik,
104 H.A. Scheraga.
105 Modification and optimization of the united-residue (UNRES) potential
106 energy function for canonical simulations. I. Temperature dependence of the
107 effective energy function and tests of the optimization method with single
108 training proteins. {\it J. Phys. Chem. B}, {\bf 2007}, 111, 260-285.
109
110 \bibitem{oldziej_2004}
111 S. Oldziej, A. Liwo, C. Czaplewski, J. Pillardy, H.A. Scheraga.
112 Optimization of the UNRES force field by hierarchical design of the
113 potential-energy landscape. 2. Off-lattice tests of the method with single
114 proteins.  {\it J. Phys. Chem. B.}, {\bf 2004}, 108, 16934-16949.
115
116 \end{thebibliography}
117 \endgroup
118
119 \newpage
120
121 \section{FUNCTIONS OF THE PROGRAM}
122 \label{sect:functions}
123
124 The program runs cluster analysis of UNRES simulation results. There are two
125 versions of the program depending on the origin of input conformation: 
126
127 \begin{enumerate}
128
129 \item
130    CLUST-UNRES: performs cluster analysis of conformations that are obtained 
131    directly from UNRES runs (CSA, MCM, MD, (M)REMD, multiple-conformation 
132    energy minimization). The source code and other important files are
133    deposited in CLUST-UNRES subdirectory
134
135    The source code of this version is deposited in clust-unres/src
136
137 \item
138    CLUST-WHAM: performs cluster analysis of conformations obtained in UNRES
139    MREMD simulations and then processed with WHAM (weighted histogram analysis 
140    method). This enables the user to obtain clusters as conformational 
141    ensembles at a given temperature and to compute their probabilities 
142    (section 2.5 of ref 3). This version is deposited in the CLUST-WHAM
143    subdirectory. This version has single- and multichain variants, whose
144    source codes are deposited in the following subdirectories:
145
146 \begin{enumerate}
147
148 \item
149    clust-wham/src    single-chain proteins
150
151 \item
152    clust-wham/src-M  oligomeric proteins
153
154 \end{enumerate}
155
156 \end{enumerate}
157
158 The version developed for oligomeric proteins treats whole system as a single
159 chain with dummy residues inserted. It also works for single chains but is
160 not fully checked and it is recommended to use single-chain version for 
161 single-chain proteins.
162
163 \section{INSTALLATION}
164 \label{sect:install}
165
166 Customize Makefile to your system. See section 7 of the description of UNRES
167 for compiler flags that are used to created executables for a particular
168 force field. There are already several Makefiles prepared for various
169 systems and force fields.
170
171 Run make in the appropriate source directory version. CLUST-UNRES runs
172 only in single-processor mode an CLUST-WHAM runs in both serial and parallel 
173 mode [only conformation-distance (rmsd) calculations are parallelized]. 
174 The parallel version uses MPI.
175
176 \section{RUNNING THE PROGRAM}
177 \label{sect:running}
178
179 The program requires a parallel system to run. Depending on system,
180 either the wham.csh C-shell script (in WHAM/bin directory) can be started
181 using mpirun or the binary in the C-shell script must be executed through
182 mpirun. See the wham.csh C-shell script and section 6 for the files 
183 processed by the program.
184
185 \newpage
186
187 \section{INPUT AND OUTPUT FILES}
188 \label{sect:inoutfiles}
189
190 \subsection{Summary of files}
191 \label{sect:inoutfiles:summary}
192
193 The C-shell script wham.csh is used to run the program (see the 
194 bin/WHAM directory). The data files that the script needs are mostly the same as 
195 for UNRES (see section 6 of UNRES description). In addition, the environmental
196 variable CONTFUN specifies the method to assess whether two side chains
197 are at contact; if EONTFUN=GB, the criterion defined by eq 8 of ref 4 is
198 used to assess whether two side chains are at contact. Also, the parameter
199 files from the C-shell scripts are overridden if the data from Hamiltonian
200 MREMD are processed; if so, the parameter files are defined in the main
201 input file.
202
203 The main input file must have inp extension. If it is INPUT.inp, the output
204 files are as follows:
205
206 Coordinate input file COORD.ext, where ext denotes file extension in one of the 
207 following formats:
208
209 \begin{description}
210 \item{int} (extension int; UNRES angles theta, gamma, alpha, and beta),
211 \item{x}   (extension x; UNRES Cartesian coordinate format; from MD),
212 \item{pdb} (extension pdb; Protein Data Bank format; fro MD),
213 \item{cx}  (extension cx; xdrf format; from WHAM).
214 \end{description}
215
216 \begin{description}
217 \item{INPUT\_clust.out} (single-processor mode) or INPUT\_clust.out\_xxx (parallel mode) --
218      output file(s) (INPUT.out\_000 is the main output file for parallel mode).
219
220 \item{COORD\_clust.int} -- leading (lowest-energy) members of the families.
221     in internal-coordinate format.
222 \item{COORD\_clust.x} -- leading members of the families in UNRES Cartesian coordinate
223     format.
224 \item{COORD\_xxxx.pdb} or COORD\_xxxx\_yyy.pdb (CLUST-UNRES) -- PDB file of member yyy
225     of family xxxx; yyy is omitted if the family contains only one member
226     within a given energy cut-off.
227 \item{COORD\_TxxxK\_yyyy.pdb} -- concatenated conformations in PDB format of the 
228     members of family yyyy clustered at T=xxxK ranked by probabilities in
229     descending order at this temperature (CLUST-WHAM).
230 \item{COORD\_T\_xxxK\_ave.pdb} -- cluster-averaged coordinates and coordinates of a 
231     member of each family that is closest to the cluster average in PDB
232     format, concatenated in a single file (CLUST-WHAM).
233  
234 \item{INPUT\_clust.tex} -- PicTeX code of the cluster tree.
235
236 \item{INPUT.rms} -- rmsds between conformations.
237
238 \end{description}
239
240 \subsection{Main input file}
241 \label{sect:inoutfiles:main}
242
243 This file has the same structure as the UNRES input file; most of the data are 
244 input in a keyword-based form (see section 7.1 of UNRES description). The data
245 are grouped into records, referred to as lines. Each record, except for the 
246 records that are input in non-keyword based form, can be continued by placing
247 an ampersand (\&) in column 80. Such a format is referred to as the data list
248 format.
249
250 In the following description, the default values are given in parentheses.
251
252 \subsubsection{Title}
253
254 An 80-character string from the first line is input.
255
256 \subsubsection{General data}
257 \label{sect:inoutfiles:main:general}
258
259 (Data list format.)
260
261 \begin{description}
262
263 \item{NRES} (0) -- the number of residues.
264
265 \item{ONE\_LETTER} -- if present, the sequence is input in one-letter code.
266
267 \item{SYM} (1) -- number of chains with same sequence (for oligomeric proteins only).
268
269 \item{WITH\_DIHED\_CONSTR} -- if present, dihedral-angle restraints were imposed in the
270     processed MREMD simulations
271
272 \item{RESCALE} (1) -- Choice of the type of temperature dependence of the force field.
273
274 \begin{description}
275 \item{0}  -- no temperature dependence,
276 \item{1}  -- homographic dependence (not implemented yet with any force field)
277 \item{2}  -- hyperbolic tangent dependence \cite{liwo_2007}.
278 \end{description}
279
280 \item{DISTCHAINMAX} (50.0) -- for oligomeric proteins, distance between the chains
281      above which restraints will be switched on to keep the chains at a
282      reasonable distance.
283
284 \item{PDBOUT} -- clusters will be printed in PDB format.
285
286 \item{ECUT} -- energy cut-off criterion to print conformations (UNRES-CLUST runs).
287      Only those families will be output the energy of the lowest-energy
288      conformation of which is within ECUT kcal/mol above that of the 
289      lowest-energy conformation and for a family only those members will be
290      output which have energy within ECUT kcal/mol above the energy of the 
291      lowest-energy member of the family.
292
293 \item{PRINT\_CART} -- output leading members of the families in UNRES x format.
294
295 \item{PRINT\_INT} -- output leading members of the families in UNRES int format.
296
297 \item{REF\_STR} -- if present, reference structure is input and rmsd will be computed 
298       with respect to it (CLUST-UNRES only; rmsd is provided in the cx file 
299       from WHAM for CLUST-WHAM runs).
300
301 \item{PDBREF} -- if present, reference structure will be read in from a pdb file.
302
303 \item{SIDE} -- side chains will be considered in superposition when calculating rmsd.
304
305 \item{CA\_ONLY} -- only the Calpha atoms will be used in rmsd calculation.
306
307 \item{NSTART} (0) -- first residue to superpose.
308
309 \item{NEND} (0) -- last residue to superpose.
310
311 \item{NTEMP} (1) -- number of temperatures at which probabilities will be calculated
312          and clustering performed (CLUST-WHAM).
313
314 \item{TEMPER} (NTEMP tiles) -- temperatures at which clustering will be performed
315         (CLUST-WHAM).
316
317 \item{EFREE} -- if present, conformation entropy factor is read if the conformation
318         is input from an x or pdb file.
319
320 \item{PROB} (0.99) -- cut-off on the summary probability of the conformations that
321      are clustered at a given temperature (CLUST-WHAM).
322
323 \item{IOPT} (2) - clustering algorithm:
324
325 \begin{description}
326 \item{1} -- Ward's minimum variance method.
327 \item{2} -- single link method.
328 \item{3} -- complete link method.
329 \item{4} -- average link (or group average) method.
330 \item{5} -- McQuitty's method.
331 \item{6} -- Median (Gower's) method.
332 \item{7} -- centroid method.
333 \end{description}
334
335 Instead of IOPT=1, MINTREE and instead of IOPT=2 MINVAR can be specified
336
337 \item{NCUT} (1) -- number of cut-offs in clustering.
338
339 \item{CUTOFF} (-1.0; NCUT values) cut-offs at which clustering will be performed;
340     at the cut-off flagged by a ``-'' sign clustering will be performed with
341     cutoff value=abs(cutoff(i)) and conformations corresponding to clusters
342     will be output in the desired format.
343
344 \item{MAKE\_TREE} -- if present, produce a clustering-tree graph.
345
346 \item{PLOT\_TREE} -- if present, the tree is written in PicTeX format to a file.
347
348 \item{PRINT\_DIST} -- if present, distance (rmsd) matrix is printed to main output
349     file.
350
351 \item{PUNCH\_DIST} -- if present, the upper-triangle of the distance matrix will be 
352     printed to a file.
353 \end{description}
354
355 \subsubsection{Energy-term weights and parameter files}
356 \label{sect:inoutfiles:main:weights}
357
358 \begin{description}
359 \item{WSC (1.0)}  --  side-chain-side-chain interaction energy.
360
361 \item{WSCP} (1.0)  --  side chain-peptide group interaction energya.
362
363 \item{WELEC} (1.0) --  peptide-group-peptide group interaction energy.
364
365 \item{WEL\_LOC} (1.0) -- third-order backbone-local correlation energy.
366
367 \item{WCORR} (1.0) -- fourth-order backbone-local correlation energy.
368
369 \item{WCORR5} (1.0) -- fifth-order backbone-local correlation energy.
370
371 \item{WCORR6} (1.0) -- sixth-order backbone-local correlation energy.
372
373 \item{WTURN3} (1.0) -- third-order backbone-local correlation energy of pairs of 
374                peptide groups separated by a single peptide group.
375
376 \item{WTURN4} (1.0) -- fourth-order backbone-local correlation energy of pairs of 
377                peptide groups separated by two peptide groups.
378
379 \item{WTURN6} (1.0) -- sixth-order backbone-local correlation energy for pairs of 
380                peptide groups separated by four peptide groups.
381
382 \item{WBOND} (1.0) -- virtual-bond-stretching energy.
383
384 \item{WANG} (1.0) --  virtual-bond-angle-bending energy.
385
386 \item{WTOR} (1.0) --  virtual-bond-torsional energy.
387
388 \item{WTORD} (1.0) -- virtual-bond-double-torsional energy.
389
390 \item{WSCCOR} (1.0) -- sequence-specific virtual-bond-torsional energy.
391
392 \item{WDIHC} (0.0) -- dihedral-angle-restraint energy.
393
394 \item{WHPB} (1.0)  -- distance-restraint energy.
395
396 \item{SCAL14} (0.4) -- scaling factor of 1,4-interactions
397
398 \end{description}
399
400 \subsubsection{Molecule information}
401 \label{sect:inoutfiles:main:molinfo}
402
403 \paragraph{Sequence information\\ \\}
404 \label{sect:inoutfiles:main:molinfo:sequence}
405
406 Amino-acid sequence
407
408 3-letter code: Sequence is input in format 20(1X,A3) 
409
410 1-letter code: Sequence is input in format 80A1
411
412 \paragraph{Dihedral angle restraint information\\ \\}
413 \label{sect:inoutfiles:molinfo:dihrestr}
414
415 This is the information about dihedral-angle restraints, if any are present.
416 It is specified only when WITH\_DIHED\_CONSTR is present in the first record.
417
418 1st line: ndih\_constr -- number of restraints (free format)
419
420 2nd line: ftors -- force constant (free format)
421
422 Each of the following ndih\_constr lines:
423
424 idih\_constr(i),phi0(i),drange(i)  (free format)
425
426 \begin{description}
427 \item{idih\_constr(i)} -- the number of the dihedral angle gamma corresponding to the
428 ith restraint
429
430 \item{phi0(i)} -- center of dihedral-angle restraint
431
432 \item{drange(i)} -- range of flat well (no restraints for phi0(i) +/- drange(i))
433
434 \end{description}
435
436 \paragraph{Disulfide-bridge data \\ \\}
437 \label{sect:inoutfiles:molinfo:disulfide}
438
439 1st line: NS, (ISS(I),I=1,NS)    (free format)
440
441 \begin{description}
442
443 \item{NS} -- number of cystine residues forming disulfide bridges.
444
445 \item{ISS(I)} -- the number of the Ith disulfide-bonding cystine in the sequence.
446
447 \end{description}
448
449 2nd line: NSS, (IHPB(I),JHPB(I),I=1,NSS) (free format)
450
451 \begin{description}
452
453 \item{NSS} -- number of disulfide bridges
454
455 \item{IHPB(I),JHPB(I)} -- the first and the second residue of ith disulfide link.
456
457 Because the input is in free format, each line can be split
458 \end{description}
459
460 \subsubsection{Reference structure}
461 \label{sect:inoutfiles:molinfo:refstr}
462
463 If PDBREF is specified, filename with reference (experimental) structure,
464 otherwise UNRES internal coordinates as the theta, gamma, alpha, and beta 
465 angles.
466
467 \subsection{Main output file}
468 \label{sect:inoutfiles:mainoutput}
469
470 The main (with name INPUT\_clust.out or INPUT\_clust.out\_000 for parallel runs)
471 output file contains the results of clustering (numbers of families
472 at different cut-off values, probabilities of clusters, composition of 
473 families, and rmsd values corresponding to families (0 if rmsd was not
474 computed or read from WHAM-generated cx file).
475
476 The output files corresponding to non-master processors
477 (INPUT\_clust.out\_xxx where xxx$>$0 contain only the information up to the
478 clustering protocol. These files can be deleted right after the run.
479
480 Excerpts from the a sample output file are given below:
481
482 CLUST-UNRES:
483
484 \begin{verbatim}
485
486 THERE ARE   20 FAMILIES OF CONFORMATIONS
487
488 FAMILY    1 CONTAINS    2 CONFORMATION(S):
489   42 -2.9384E+03  50 -2.9134E+03
490
491
492 Max. distance in the family:    14.0; average distance in the family:    14.0
493
494 FAMILY    2 CONTAINS    3 CONFORMATION(S):
495   13 -2.9342E+03   7 -2.8827E+03  10 -2.8682E+03
496 \end{verbatim}
497
498 CLUST-WHAM:
499
500 \begin{verbatim}
501 AT CUTOFF: 200.00000
502 Maximum distance found:  137.82
503 Free energies and probabilities of clusters at 325.0 K
504 clust   efree    prob sumprob
505     1   -76.5 0.25035 0.25035
506     2   -76.5 0.24449 0.49484
507     3   -76.4 0.21645 0.71129
508     4   -76.4 0.20045 0.91174
509     5   -75.8 0.08826 1.00000
510
511
512 THERE ARE    5 FAMILIES OF CONFORMATIONS
513
514 FAMILY    1 WITH TOTAL FREE ENERGY   -7.65228E+01 CONTAINS  548 CONFORMATION(S):
515 8363  -7.332E+013939  -7.332E+012583  -7.332E+017395  -7.332E+019932  -7.332E+01
516 5816  -7.332E+013096  -7.332E+012663  -7.332E+014099  -7.332E+016822  -7.332E+01
517 3176  -7.332E+017542  -7.332E+018933  -7.332E+017315  -7.332E+01 200  -7.332E+01.
518 .
519 5637  -7.062E+018060  -7.061E+013797  -7.060E+018800  -7.057E+016295  -7.057E+01
520 6298  -7.057E+012332  -7.057E+012709  -7.057E+01
521
522 Max. distance in the family:    16.5; average distance in the family:     8.8
523 Average RMSD 8.22 A
524 \end{verbatim}
525
526 \subsection{Output coordinate files}
527 \label{sect:inoutfiles:outcoord}
528
529 \subsubsection{The internal coordinate (int) files}
530 \label{sect:inoutfiles:int}
531
532 The file with name COORD\_clust.int contains the angles theta, gamma, alpha,
533 and beta of all residues of the leaders (lowest UNRES energy conformations
534 from consecutive families for CLUST-UNRES runs and lowest free energy 
535 conformations for CLUST-WHAM runs). The format is the same as that of the 
536 file output by UNRES; see section 9.1.1 of UNRES description.
537
538 For CLUST-WHAM runs, the first line contains more items:
539
540 \begin{tabular}{ll}
541 number of family                             &(format i5)\\
542 UNRES free energy of the conformation        &(format f12.3)\\
543 Free energy of the entire family             &(format f12.3)\\
544 number of disulfide bonds                    &(format i2)\\
545 list disulfide-bonded pairs                  &(format 2i3)\\
546 conformation class number (0 if not provided)&(format i10)\\
547 \end{tabular}
548
549 \subsubsection{The Cartesian coordinate (x) files}
550 \label{sect:inoutfiles:card}
551
552 The file with name COORD\_clust.x contains the Cartesian coordinates of the 
553 alpha-carbon and side-chain-center coordinates. The coordinate format is
554 as in section 9.1.2 of UNRES description and the first line contains the
555 following items:
556
557 \begin{tabular}{ll}
558 Number of the family                         &(format I5)\\
559 UNRES free energy of the conformation        &(format f12.3)\\
560 Free energy of the entire family             &(format f12.3)\\
561 number of disulfide bonds                    &(format i2)\\
562 list disulfide-bonded pairs                  &(format 2i3)\\
563 conformation class number (0 if not provided)&(format i10)\\
564 \end{tabular}
565
566 \subsubsection{The PDB files}
567 \label{sect:inoutfiles:PDB}
568
569 The PDB files are in standard format (see 
570 \href{ftp://ftp.wwpdb.org/pub/pdb/doc/format_descriptions/Format_v33_Letter.pdf}{ftp://ftp.wwpdb.org/pub/pdb/doc/format\_descriptions}).
571 The ATOM records contain Calpha coordinates (CA) or UNRES side-chain-center
572 coordinates (CB). For oligomeric proteins chain identifiers are present
573 (A, B, ..., etc.) and each chain ends with a TER record. Coordinates of a 
574 single conformation or multiple conformations  The header (REMARK) records 
575 and the contents depends on cluster run type. The next subsections are devoted 
576 to different run types. 
577
578 \paragraph{CLUST-UNRES runs \\ \\}
579 \label{sect:inoutfiles:PDB:clust-unres}
580
581 The files contain the members of the families obtained from clustering such
582 that the lowest-energy conformation of a family is within ECUT kcal/mol higher
583 in energy than the lowest-energy conformation. Again, within a family, only
584 those conformations are output whose energy is within ECUT kcal/mol above
585 that of the lowest-energy member of the family. Families and the members 
586 of a family within a family are ranked by increasing energy. The file names are:
587
588 COORD\_xxxx.pdb  where xxxx is the number of the family, if the family contains
589     only one member of if only one member is output.
590
591 COORD\_xxxx\_yyy.pdb where xxxx is the number of the family and yyy is the number
592     of the member of this family.
593
594 An example is the following:
595
596 \begin{verbatim}
597 REMARK R0001                            ENERGY    -2.93843E+03
598 ATOM      1  CA  GLY     1       0.000   0.000   0.000
599 ATOM      2  CA  HIS     2       3.800   0.000   0.000
600 ATOM      3  CB  HIS     2       5.113   1.656   0.015
601 ATOM      4  CA  VAL     3       5.927  -3.149   0.000
602 .
603 .
604 .
605 ATOM    346  CB  GLU   183     -43.669 -32.853  -7.320
606 TER
607 CONECT    1    2
608 CONECT    2    4    3
609 .
610 .
611 .
612 CONECT  341  343  342
613 CONECT  343  344
614 CONECT  345  346
615 \end{verbatim}
616
617 where ENERGY is the UNRES energy. The CONECT records defined the Calpha-Calpha
618 and Calpha-SC connection.
619
620 \paragraph{CLUST-WHAM runs\\ \\}
621 \label{sect:inoutfiles:PDB:clust-wham}
622
623 The program generates a file for each family with its members and a summary
624 file with ensemble-averaged conformations for all families. These are described
625 in the two next sections.
626
627 \subparagraph{Conformation family files\\ \\}
628 \label{sect:inoutfiles:PDB:clust-unres:family}
629
630 For each family, the file name is COORD\_TxxxK\_yyyy.pdb, where yyyy is the
631 number of the family and xxx is the integer part of the temperature (K).
632 The first REMARK line in the file contains the information about the free
633 energy and average rmsd of the entire cluster and, for each conformation,
634 the initial REMARK line contains these quantities for this conformation.
635 Same applies to oligomeric proteins, for which the TER records separate the 
636 chains and the ENDMDL record separates conformations.
637 An example is given below. 
638
639 \begin{verbatim}
640 REMARK CLUSTER    1 FREE ENERGY  -7.65228E+01 AVE RMSD 8.22
641 REMARK 1BDD L18G full clust ENERGY    -7.33241E+01 RMS  10.40
642 ATOM      1  CA  VAL     1      18.059 -33.585   4.616  1.00  5.00
643 ATOM      2  CB  VAL     1      18.720 -32.797   3.592  1.00  5.00
644 .
645 .
646 .
647 ATOM    115  CA  LYS    58      29.641 -44.596  -8.159  1.00  5.00
648 ATOM    116  CB  LYS    58      27.593 -45.927  -8.930  1.00  5.00
649 TER
650 CONECT    1    3    2
651 CONECT    3    5    4
652 .
653 .
654 CONECT  113  114
655 CONECT  115  116
656 TER
657 REMARK 1BDD L18G full clust ENERGY    -7.33240E+01 RMS  10.04
658 ATOM      1  CA  VAL     1       3.174   2.833 -34.386  1.00  5.00
659 ATOM      2  CB  VAL     1       3.887   2.811 -33.168  1.00  5.00
660 .
661 .
662 ATOM    115  CA  LYS    58      16.682   6.695 -20.438  1.00  5.00
663 ATOM    116  CB  LYS    58      18.925   5.540 -20.776  1.00  5.00
664 TER
665 CONECT    1    3    2
666 CONECT    3    5    4
667 CONECT  113  114
668 CONECT  115  116
669 TER
670 \end{verbatim}
671
672 \subparagraph{Average-structure file\\ \\}
673 \label{sect:inoutfiles:PDB:clust-unres:average}
674
675 The file name is COORD\_T\_xxxK\_ave.pdb. The entries are in pairs; the first
676 one is cluster-averaged conformation and the second is a family member which
677 has the lowest rmsd from this average conformation. Computing average 
678 conformations is explained in section 2.5 of ref 3. Example excerpts from
679 an entry corresponding to a given family are shown below.
680
681 \begin{verbatim}
682 REMAR AVERAGE CONFORMATIONS AT TEMPERATURE  300.00
683 REMARK CLUSTER    1
684 REMARK 2HEP clustering 300K ENERGY    -8.22572E+01 RMS   3.29
685 ATOM      1  CA  MET     1     -17.748  48.148 -19.284  1.00  5.96
686 ATOM      2  CB  MET     1     -17.373  47.911 -19.294  1.00  6.34
687 ATOM      3  CA  ILE     2     -18.770  49.138 -18.133  1.00  3.98
688 .
689 .
690 .
691 ATOM     80  CB  PHE    41     -14.353  44.680 -15.642  1.00  2.62
692 ATOM     81  CA  ARG    42     -11.619  41.645 -13.117  1.00  4.06
693 ATOM     82  CB  ARG    42     -11.330  40.378 -13.313  1.00  5.19
694 TER
695 CONECT    1    3    2
696 CONECT    3    5    4
697 .
698 .
699 .
700 CONECT   76   78   77
701 CONECT   78   79
702 CONECT   79   80
703 CONECT   81   82
704 TER
705 REMARK 2HEP clustering 300K ENERGY    -8.22572E+01 RMS   3.29
706 ATOM      1  CA  MET     1     -37.698  40.489 -32.408  1.00  5.96
707 ATOM      2  CB  MET     1     -38.477  39.426 -34.159  1.00  6.34
708 .
709 .
710 .
711 ATOM     80  CB  PHE    41     -35.345  50.342 -31.371  1.00  2.62
712 ATOM     81  CA  ARG    42     -33.603  54.332 -27.130  1.00  4.06
713 ATOM     82  CB  ARG    42     -33.832  53.074 -24.415  1.00  5.19
714 TER
715 CONECT    1    3    2
716 CONECT    3    5    4
717 .
718 .
719 .
720 CONECT   76   78   77
721 CONECT   78   79
722 CONECT   79   80
723 CONECT   81   82
724 TER
725 \end{verbatim}
726
727 \subsection{The conformation-distance file}
728 \label{sect:inoutfiles:confdist}
729
730 The file name is INPUT\_clust.rms. It contains the upper-diagonal part of 
731 the matrix of rmsds between conformations and differences between their
732 energies:
733
734 i,j,rmsd,energy(j)-energy(i) (format 2i5,2f10.5)
735
736 where i and j, j$>$i are the numbers of the conformations, rmsd is the rmsd
737 between conformation i and conformation j and energy(i) and energy(j) are
738 the UNRES energies of conformations i and j, respectively.
739
740 \subsection{The clustering-tree PicTeX file}
741 \label{sect:inoutfiles:tree}
742
743 This file contains the PicTeX code of the clustering tree. The file name is
744 INPUT\_clust.tex. It should be supplemented with LaTeX preamble and final 
745 commands or incorporated into a LaTeX source and compiled with LaTeX. The 
746 picture is produced by running LaTeX followed by dvips, dvipdf or other command
747 to convert LaTeX-generated dvi files into a human-readable files.
748
749 \newpage
750
751 \section{SUPPORT}
752 \label{sect:support}
753
754    Dr. Adam Liwo\\
755    Faculty of Chemistry, University of Gdansk\\
756    ul. Sobieskiego 18, 80-952 Gdansk Poland.\\
757    phone: +48 58 523 5430\\
758    fax: +48 58 523 5472\\
759    e-mail: \href{mailto:adam@chem.univ.gda.pl}{\textcolor{blue}{adam@chem.univ.gda.pl}}\\
760
761
762
763    Dr. Cezary Czaplewski\\
764    Faculty of Chemistry, University of Gdansk\\
765    ul. Sobieskiego 18, 80-952 Gdansk Poland.\\
766    phone: +48 58 523 5430\\
767    fax: +48 58 523 5472\\
768    e-mail: \href{mailto:czarek@chem.univ.gda.pl}{czarek@chem.univ.gda.pl}
769
770
771 Prepared by Adam Liwo, 02/19/12
772
773 \LaTeX versioin, 09/28/12
774 \end{document}