]> www.wagner.pp.ru Git - sites/home_page.git/blob - software/catdoc/index.html
Changed all links to 45.free.net to wagner.pp.ru
[sites/home_page.git] / software / catdoc / index.html
1 <HTML><HEAD>
2 <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=koi8-r">
3 <TITLE>catdoc and xls2csv - free MS-Office format readers</TITLE>
4 <META NAME="description" CONTENT="Command-line utilities to convert MS-Office files to plain (or not so plain) text">
5 </HEAD><BODY>
6 <H1>catdoc &amp; xls2csv</H1>
7 <H3>Overview</H3>
8 <STRONG>catdoc</STRONG> is program which reads one or
9 more Microsoft word files and outputs text, contained insinde them
10 to standard output. Therefore it does same work for .doc files, as
11 unix <B>cat</B> command for plain ASCII files.
12
13 <P>
14 It is now accompanied by <STRONG>xls2csv</STRONG> - program which
15 converts Excel spreadsheet into comma-separated value file, and
16 <STRONG>catppt</STRONG> - utility to extract textual information from
17 Powerpoint files
18 </p>
19 <P>
20 Optionaly, catdoc is able to translate some non-ASCII chars into correspoindig
21 TeX escape sequences and convert charsets from Windows ANSI codepage to
22 local codepage of target machine. (Because catdoc is russian program,
23 by default it converts <B>cp1251</B> to <B>koi8-r</B>, when running under
24 UNIX and to <B>cp866</B> when running under DOS.
25 </p>
26 <P> Catdoc has rudimentary table handling.  In TeX mode it inserts &amp; when
27 encounters field delimiter and \\ when encounters end of table row. No
28 table headers are produced although.
29 </p>
30 <P>
31 Catdoc doesn't even try to preserver MS-Word character formatting. It's 
32 goal is to extract plain text and allow you to read it and, probably,
33 reformat with TeX, according to TeXnical rules, most Word users
34 haven't even heard about.
35 </p>
36 <p>
37 If you are looking for tool which would preserve word formatting, look
38 to <a href="http://wvware.sf.net">wvWare</a> or some portable office
39 suite like <a href="http://www.openoffice.org">OpenOffice.org</a>.
40 </p>
41 <P>
42 <strong>xls2csv</strong> does roughly same for Excel files. It extracts
43 data and leaves out any formatting info and formulas. Concept is that
44 you want to see data, not the way it was created.
45 </p.
46 <p>
47 Since version 0.94 program <strong>catppt</strong> which prints out text
48 from PowerPoint files is also included</p>
49 <H3>Supported platforms</H3>
50
51 <UL>
52 <LI>Unix. Catdoc was initially developed for Linux and Sparc Solaris.
53 It also runs on variety of other Unices. For instance it is included in
54 FreeBSD ports collection. 
55 <LI>MS-DOS. Catdoc also runs on MS-DOS, even on XT machines. MS-DOS is
56 only platform for which compiled executables are provided. These
57 executables are 16-bit real mode. I think that protected mode version of
58 xls2csv might be useful, but don't have time to support it.
59 </UL>
60
61 <p align=center><font size="+3">There is no support for catdoc under
62 Windows</font></p>
63
64 Not because I hate windows. Just because I don't use it. Note that DOS
65 catdoc is not intended to be used under windows. For example, it doesn't
66 support long file names.
67
68 <h3>Character encodings conversion</h3>
69 <p>
70 Catdoc doesn't use system provided charset conversion libraries. It
71 might be considered a bug, but <a
72 href="http://www.oracle.com">Oracle</a>, <a href="http://www.tcl.tk">Tcl</a> and
73 <a href="http://www.perl.org">Perl</a> do the same. Portable software
74 really doesn't have any other choice, because some operating systems,
75 which claim to be POSIX-compatible do not provide support for all
76 neccessary encodings via their <b>iconv(3)</b> function.  
77 </p>
78 <p>
79 Catdoc doesn't introduce its own incompatible format of charset
80 descriptions. Instead it uses encoding description files, available from
81 <a href="ftp://ftp.unicode.org/Public/MAPPINGS/"> Unicode Consortium FTP site</a>
82 </p>
83 <p>
84 Catdoc encoding conversion system has unique feature - it is able to
85 replace character, which is not available in the target encoding, by
86 multicharacther sequence. So, sometimes catdoc can be used as charset
87 converter  for plain text files.
88 </p>
89 <p>
90 Catdoc now doesn't support any multibyte encodings except utf-8. (of
91 course, Word's internal UCS2 representation is supported). Problem is
92 that no one have contributed me code for such support, which can be
93 compiled as MS-DOS realmode program. And I refuse to add any patches
94 which require 32-bit system.
95 </p>
96 <H3>License</H3>
97 <b>catdoc</b> and <b>xls2csv</b> are distributed under <A
98 HREF="http://www.gnu.org/copyleft/gpl.html">GNU Public License</A>.
99 <P>
100 <H3>Current status</H3>
101
102 Current version of <strong>catdoc</strong> is 0.94.2
103 <p>
104 See <a href="changelog.html">Changelog for details</a>.
105 <p>
106 <H3>Download</h3>
107 <dl>
108 <dt><A
109 href="http://ftp.wagner.pp.ru/pub/catdoc/catdoc-0.94.2.tar.gz">catdoc-0.94.2.tar.gz</a>
110 <dd> Source-only distribution for all platform<br>
111   (SHA1 hash sum 50ce9d7cb24ad6b10a856c9c24183e2b0a11ca04)
112 <dt><A
113 href="http://ftp.wagner.pp.ru/pub/catdoc/catdoc-0.94.2.zip">catdoc-0.94.2.zip</a>
114 <dd>Sources + DOS realmode executables <B>THESE ARE NOT WINDOWS PROGRAMS</B><br>
115 (SHA 1 hash sum 4b75f3a511fe3ec5304883931937eb1db73a4b70)</dl>
116 Previous versions can be found on <a href="archive.html">archive page</a>
117 <h3>Documentation</h3>
118 <p>
119 Catdoc is documented in traditional Unix man pages. For MS-DOS users
120 plain-text and postscript versions of man pages are included in the
121 distrbution. 
122 </p>
123 <p>
124 Html formatted versions of man pages are available here: <a
125 href="catdoc.1.html">catdoc(1)</a> <a href="catppt.1.html">catppt(1)</a>
126 <a href="xls2csv.1.html">xls2csv(1)</a>.
127
128 <h3>Support</h3>
129 Catdoc has web based  bugtracking system. To prevent me to accidently login there via insecure connection, access is allowed via https only.
130 <p>
131 If you don't already have CA certificate for my perlsonal CA, visit
132 <a href="http://www.wagner.pp.ru/cvstrac.html">my CVStrac page</a> and install certificate into your browser. Otherwise, <a href="https://www.wagner.pp.ru/cgi-bin/cvstrac/catdoc/">go directly to the login page</a>. 
133 </p>
134 <p>
135 There is also <a
136 href="https://www.wagner.pp.ru/cgi-bin/cvstrac/catdoc/wiki">WiKi</a> and 
137 <a
138 href="https://www.wagner.pp.ru/cgi-bin/cvstrac/catdoc/wiki?p=FrequentlyAskedQuestions">FAQ</a>
139 in the BTS. Anonymous users allowed to ask questions in the FAQ.
140 </BODY>
141 </HTML>