loading

ஒருங்குறி மாற்றி UTF8

பதிவுற்ற நாள் 19 Mar 2019 | Windows

To Download the Software செய்து கொள்ளுங்கள்

Source Code

பயன்படுத்தல்

  • ௧. முதலில் தேவையான உரையை ஒன்றாவது கட்டத்தினுள் இடவும்
  • ௨. உரையின் encoding format தெரிந்தால் அதனை தேர்வு செய்து கொள்ளவும்
  • ௩. பின்னர் To UTF8 என்பதைக் கிளிக் செய்தால் தங்களின் உரை தயாராகிவிடும்.

அப்புறம் நீங்கள் ஒரு நபருக்கு இந்த மென்பொருளை அறிமுகம் செய்யுங்கள்.

இணையத்தில் இந்த Encoding Formats எல்லாம் இலவசமாக மாற்றிக் கொள்ளுங்கள்.

மென்பொருள் தரவிறக்க:

வெறும் மூன்றே படிநிலைகள் உள்ளன

தரவிறக்கம்

Extract All செய்யுங்கள்

  • ஒரு Folder’ல் extract செய்து கொள்ளவும். பின்னர் செயலியை இயக்கிட வேண்டியதுதான்

பயன்படுத்தல்

  • Extract செய்த folder’ல் உள்ள AnyTaFont2UTF8.exe என்னும் கோப்பை இயக்கினால் உங்களின் தேவை முடிவு பெரும் என எண்ணுகிறேன்.

ஒரு சின்னக் கதை

இந்த மென்பொருள் எனது சிந்தையில் எழ, ஒரு பேராசியர் கண்மணி தன்னிடம் ஐஸ்வர்யா எழுத்துருவில் தன்னிடம் ஒரு கோப்பு இருப்பதாகவும் அதனை UTF8 ஆக மாற்றித் தரும்படியாகவும் கேட்டு இருந்தார். அப்போதுதான் எனது மண்டையில் உதித்தது இந்த மென்பொருளின் வடிவம். அவருக்கு நன்றிகள் பல.

Font = CODING SCHEME என பிரதிஇட்டும் பின்வருபவைகளை வாசிக்கலாம்.

எனக்கு ஐஸ்வர்யா Font யை அறிமுகம் செய்து வைத்த கண்மணி அவர்களுக்கும் நன்றிகள். அவர்தான் தன்னிடம் ஐஸ்வர்யா Fontல் கோப்பு இருபதாகக் கூறினார். அதை எவ்வாறு UTF8 மாற்றுவது என சிந்தித்ததில் விளைந்தது இம்மென்பொருள். மேலும் லோகநாதன் ஐயா, மேலும் கேள்வி கேட்டு பிற Font’sகளையும் சேர்க்க துணை புரிந்தார். சில Fonts Mapping ஓபன்-தமிழ் இருந்து பெறப்பட்டவை.

எல்லாருக்கும் நன்றிகள் பல.

சரி ஒருங்குறி முன்னாடி அதாவது UTF8

ஒரு Flash back போயாக வேண்டி உள்ளது. ஒருங்குறி என்ற ஒன்று வரும் முன்னாடி வெறும் ஆங்கில எழுத்துகளை மட்டுமே வைத்து அந்த அந்த மொழிகளில் எழுதிக் கொண்டு இருந்தனர். எனவே தமிழ் அவரவர் விருபத்திற்கு ஏற்ப பல Fonts உருவாகின. இப்போ ஒருங்குறி உருவாக்கி விட்டது அல்லவா? ஆகவே இதற்க்கு முன்னாடி உருவாக்கிய கோப்புகளை எல்லாம் ஒருங்குறியாக மாற்றி விட்டால் தமிழ் உலகத்தில் உள்ள நூல்கள் அனைத்தும் ஒருன்குரியாக்கப் பட்டு விடலாம் அல்லவா?

செயலி பயன் படுத்தல்

  • முதலில் தாங்கள் வைத்துள்ள கோப்பின் வகையை தேர்வு செய்து கொள்ளுங்கள். இங்கு நான் tamil_aishwarya எழுத்துருவை UTF8 ஆக மாற்ற விரும்புகிறேன் ஆகவே அதனை தேர்வு செய்து கொண்டேன்

  • பின்னர் என்னிடம் உள்ள கோப்பில் உள்ள ஒண்ணுமே புரியாத உரையை முதலில் உள்ள பெரிய TextBox-ல் இட்டுக் கொள்ள வேண்டும்.

  • அதனைத் தொடர்ந்து உள்ள “To UTF8” எனும் பொத்தானை அழுத்தவும்.

  • நமக்குத் தேவையான ஒருங்குறி ஆக்கம் கிடைத்து விடும்.

இதுவரை உள்ள மாறுபட்ட தமிழ் Fonts

Available in this release

  • Anjal
  • Aishwarya
  • Anu
  • Bamini
  • Boomi
  • Diacritic
  • Dinakaran
  • Dinamani
  • Dinathanthy
  • Indica
  • Indoweb
  • Kavipriya
  • Koeln
  • Libi
  • Murasoli
  • Mylai
  • Nakkeeran
  • Old Vikatan
  • Pallavar
  • Roman
  • Shreelipi
  • Softview
  • Tab
  • Tace
  • Tam
  • Tscii
  • Vanavil
  • Webulagam

செந்தமிழ்: கணினி எழுத்து முறைகளும் மற்றும் குறியீடுகளும்

Sentamil: Computational font methods and Encoding

ஆய்வின் சுருக்கம்:

“செந்தமிழ்: கணினி எழுத்து முறைகளும் மற்றும் குறியீடுகளும்” என்பது புதிய ஆய்வா? என்றால் இல்லை இல்லை இது முன்னமே பல தமிழ் அறிஞர் பெருமக்களால் உருவாக்கப்பட்டு இன்று தமிழ் உலகம் முழுதும் பரவலாக பயன் படுத்தப் படும் கணினி சார்பான எழுத்து முறைகளையே இங்கு அனைவருக்கும் புரியும் வகையில் எழுதப் போகிறேன் முயல்கிறேன் எனலாம்.

முதன் முதலில் தமிழின் எழுத்துக்களையும் சொற்களையும் ஆராய்ந்தவர் தொல்காப்பியர்தானே. அவர்தான் எழுத்துக்களை அறிமுகம் செய்கிறார், பின்னர் அந்த எழுத்துக்களின் கூடுதல், ஊடுதல் பற்றியும் பேசுகிறார். எழுத்துக்கள் கூடி வார்த்தையை உருவாக்குகின்றன, வார்த்தைகள் கூடி அசைந்து அசையை உருவாக்குகின்றன. எழுத்துகளும் வார்த்தைகளும் சீர்மை பெருகின்றன; அவை எழுத்து நாவிலே சீராக நடை பயில ஆரம்பமாகின்றன அதனால் நாவின் எதிரே இருக்கும் பொருட்கள் அசைகின்றன. அது ஒரு பாவின் நடை ஆகின்றது; அதுவே பா என்றாகிறது. இதுதான் தொல்காப்பியம் பேசுகிறது. சரி இங்கு தொல்காப்பியத்தின் எழுத்துகளை எவ்வாறு நமது கணினி உலகம் கையாள்கிறது என்பதைத்தான் இந்த ஆய்வு கூற முயல்கிறது.

ஒரு வேளை எனது சிந்தனையில் இருக்கும் அனைத்தையுமே இங்கு கொட்டித் தீர்கக் கூடாது என்பதையும் கட்டுரை கவனத்தில் கொள்கிறது. “Coding Schemes” என சில ஆங்கிலச் சொற்களையும் புகுத்தவும் வேண்டும். ஆனால் அந்தச் சொல்லின் பொருளையே பிறருக்குக் கொண்டு செல்ல வேண்டும் என்பதையும் கட்டுரை கவனத்தில் கொள்ள முயல்கிறது.

முதலில் பல்வேறு எழுத்து உருக்களைப் (இங்கு எழுத்துரு எனக் கூறுவது எல்லாமே தொல்காப்பியரின் வாய்வழிப் பார்த்தால் எழுத்துக்கள் மட்டுமே. ஆக இக்கட்டுரையில் எழுத்து என்பதோ எழுத்துரு என்பதோ ஒரே பொருளில் பயன் கொல்லப்படுகிறது.) பற்றியும் அவை பயன்படுத்தும் குறியீடு முறை பற்றியும் தெளிவாகக் கூற வேண்டும் என்பதே கட்டுரையின் நோக்கம்.

குறிப்புச் சொற்கள்:

Tamil, Endocing, Fonts, Unicoding, TACE16

முன்னுரை:

கணினி என்பது எண்களை அடிப்படையாகக் கொண்டது என்றால் சரிதானே. கணினியின் நினைவகச் சில்லுகளில் (Memory Chip) ஏற்ற இறக்க மின்சாரம் பாயும் தன்மையை எண்களின் குறியீடாக மாற்றுகிறோம். என்ன? புரியலையா? இன்னும் எளிதாக விளக்குகிறேன். நமது வீடுகளில் உள்ள Switch box (தமிழில் என்ன எனத் தெரியவில்லை) உள்ள ஒவ்வொரு பொத்தானையும் ஒரு நுண்சில்லு (transisters) எனக் கொள்க.

அந்த Switch ஒவ்வொன்றுமே மின்சாரத்தை ஒரு குறிப்பிட்ட மின்சாதனப் பொருளைக் குறிக்கிறது சரிதானே. இப்போது Switch கீழே அழுத்தி இருந்தால் அதற்கு ஒன்று எனக் கொள்வோம். மேலே Switch அழுத்தி இருந்தால் அதற்கு பூச்சியம் எனக் கொள்வோம். இவ்வாறுதான் கணினியின் நினைவகத்தில் நடை பெறுகிறது.

இப்போ எட்டு Switch கொண்ட ஒரு தொகுதியை கவனத்தில் கொள்வோம். ஒரு Switch என்பது இரண்டு நிலைகளைக் கொண்டு இருக்கும். அதாவது கீழே/மேலே அழுத்தி இருக்கும் அல்லவா? கீழே அழுத்தி இருந்தால் அதன் நிலை ஒன்று அதாவது மின்சாரம் பாயும். மேலே அழுத்தி இருந்தால் மின்சாரம் பாயாது அதன் நிலை சுழி.

இந்த எட்டு Switch’களை வைத்து எப்படி ஆங்கில எழுத்துக்களை நினைவில் வைப்பது? சரி 1 என்ற எண்ணை எப்படி இந்த எட்டு Switchகளை வைத்து குறிப்பிடுவது? 00000001 அதாவது இறுதி Switch மட்டும் அழுத்தம் on செய்யப்பட்டு உள்ளது. சரி இப்போ 33 எண்ணை எப்படிக் குறிப்பிடுவது? 00100001 மூன்றாவது மற்றும் இறுதி switch’கள் on செய்தால் 33 என்ற எண்ணைக் குறிப்பிடலாம்.

இந்த Switch கள்தான் நினைவகம் இந்த Switchகள் கண்ணுக்கே புலப்படதா சிறியவைகளாக உள்ளன. அவற்றை trnsisters என்கிறோம். ஆக நாம் கோப்பில் எழுதும் ஒவ்வொரு எழுத்துக்கும் ஒரு குறிப்பிட்ட எண் உள்ளது. அந்த எண்ணையே நாம் நினைவக Switch களில் சேமித்து வைக்கிறோம். இப்படி எந்த எண்ணை எந்த எழுத்தோடு தொடர்படுத்துவது பற்றிய அட்டவணையே “Coding Tables” என்கிறோம்.

ASCII எழுத்துக்களின் எண் குறியீடு:
இப்பொழுது நேரடியாக “Coding Schemes” என்ற குறியீடு முறைகளுக்குள் உங்களை அழைத்துச் செல்லப் போகிறேன். ஆங்கில எழுத்துக்களின் குறியீடு முறைதான் இந்த ASCII என்பதை விரிவு படுத்தினால், American Standard Code for Information Interchange எனலாம். அமெரிக்கா என்ன மொழியைப் பயன் படுத்துகிறது? ஆங்கிலம் அல்லவா? ஆமா ஆங்கிலத்தில் எத்தனை எழுத்துக்கள் உள்ளன? 26 எழுத்துக்கள் உள்ளன. சரியான விடைதான். சரி இப்ப ஆங்கில எழுத்துகளின் கணக்கைப் போடுவோம்.

Dec Char

0 NUL (null)
1 SOH (start of heading)
2 STX (start of text)
3 ETX (end of text)
4 EOT (end of transmission)
5 ENQ (enquiry)
6 ACK (acknowledge)
7 BEL (bell)
8 BS (backspace)
9 TAB (horizontal tab)
10 LF (NL line feed, new line)
11 VT (vertical tab)
12 FF (NP form feed, new page)
13 CR (carriage return)
14 SO (shift out)
15 SI (shift in)
16 DLE (data link escape)
17 DC1 (device control 1)
18 DC2 (device control 2)
19 DC3 (device control 3)
20 DC4 (device control 4)
21 NAK (negative acknowledge)
22 SYN (synchronous idle)
23 ETB (end of trans. block)
24 CAN (cancel)
25 EM (end of medium)
26 SUB (substitute)
27 ESC (escape)
28 FS (file separator)
29 GS (group separator)
30 RS (record separator)
31 US (unit separator)

Dec Char Dec Char Dec Char
——— ——— ———-
32 SPACE 64 @ 96 `
33 ! 65 A 97 a
34 “ 66 B 98 b
35 # 67 C 99 c
36 $ 68 D 100 d
37 % 69 E 101 e
38 & 70 F 102 f
39 ‘ 71 G 103 g
40 ( 72 H 104 h
41 ) 73 I 105 i
42 * 74 J 106 j
43 + 75 K 107 k
44 , 76 L 108 l
45 - 77 M 109 m
46 . 78 N 110 n
47 / 79 O 111 o
48 0 80 P 112 p
49 1 81 Q 113 q
50 2 82 R 114 r
51 3 83 S 115 s
52 4 84 T 116 t
53 5 85 U 117 u
54 6 86 V 118 v
55 7 87 W 119 w
56 8 88 X 120 x
57 9 89 Y 121 y
58 : 90 Z 122 z
59 ; 91 [ 123 {
60 < 92 \ 124 |
61 = 93 ] 125 }
62 > 94 ^ 126 ~
63 ? 95 _ 127 DEL

ஆக மொத்தம் 127 எழுத்துக்கள் அமெரிக்காவில் பயன் படுத்துகின்றனர். ஆங்கில எழுத்துக்களை மட்டுமே கொண்டு கணினி முதன் முதலில் அறிமுகம் ஆகியது. ஆனால் பிற மொழிக்காரர்கள் என்ன செய்வார்கள்? மொத்தமே இருந்த 0 முதல் 127 எண்ணுக்குரிய மதிப்புகளை ஆங்கில எழுத்துக்களுக்கு பயன்படுத்திக் கொண்டனர். 0 (00000000) முதல் 127 (01111111) உள்ள எண்களை எட்டு Switchகளைக் கொண்டு குறிப்பிட்டால் முதல் Switch மட்டும் on ஆகாமலே இருக்கும். அதாவது ஏழு Switchகளை மட்டுமே பயன் படுத்தி உள்ளோம் என்பது தெளிவாகிறது அல்லவா. எனவே இந்த முதல் switch on செய்தால் மேலும் ஒரு 128 எழுத்துக்களை உருவாக்க முடியும் அல்லவா? அவ்வாறு உருவானதுதான் Extended ASCII

Extended ASCII:

128 € Ç
129 ü
130 ‚ é
131 ƒ â
132 „ ä
133 … à
134 † å
135 ‡ ç
136 ˆ ê
137 ‰ ë
138 Š è
139 ‹ ï
140 Œ î
141 ì
142 Ž Ä
143 Å
144 É
145 ‘ æ
146 ’ Æ
147 “ ô
148 ” ö
149 • ò
150 – û
151 — ù
152 ˜ ÿ
153 ™ Ö
154 š Ü
155 › ¢
156 œ £
157 ¥
158 ž ₧
159 Ÿ ƒ
160 á
161 ¡ í
162 ¢ ó
163 £ ú
164 ¤ ñ
165 ¥ Ñ
166 ¦ ª
167 § º
168 ¨ ¿
169 © ⌐
170 ª ¬
171 « ½
172 ¬ ¼
173 ¡
174 ® «
175 ¯ »
176 ° ░
177 ± ▒
178 ² ▓
179 ³ │
180 ´ ┤
181 µ ╡
182 ¶ ╢
183 · ╖
184 ¸ ╕
185 ¹ ╣
186 º ║
187 » ╗
188 ¼ ╝
189 ½ ╜
190 ¾ ╛
191 ¿ ┐
192 À └
193 Á ┴
194 Â ┬
195 Ã ├
196 Ä ─
197 Å ┼
198 Æ ╞
199 Ç ╟
200 È ╚
201 É ╔
202 Ê ╩
203 Ë ╦
204 Ì ╠
205 Í ═
206 Î ╬
207 Ï ╧
208 Ð ╨
209 Ñ ╤
210 Ò ╥
211 Ó ╙
212 Ô ╘
213 Õ ╒
214 Ö ╓
215 × ╫
216 Ø ╪
217 Ù ┘
218 Ú ┌
219 Û █
220 Ü ▄
221 Ý ▌
222 Þ ▐
223 ß ▀
224 à α
225 á ß
226 â Γ
227 ã π
228 ä Σ
229 å σ
230 æ µ
231 ç τ
232 è Φ
233 é Θ
234 ê Ω
235 ë δ
236 ì ∞
237 í φ
238 î ε
239 ï ∩
240 ð ≡
241 ñ ±
242 ò ≥
243 ó ≤
244 ô ⌠
245 õ ⌡
246 ö ÷
247 ÷ ≈
248 ø °
249 ù ∙
250 ú ·
251 û √
252 ü ⁿ
253 ý ²
254 þ ■
255 ÿ

128 என்ற எண்ணை 10000000 என்றும் 255 என்ற எண்ணை 11111111 என்றும் குறிபிடலாம். இந்த 128 முதல் 255 வரை உள்ள எங்களுக்கு வித்தியாசமான எழுத்துக்களை மாறுபட்ட “Coding Schemes” களை வைத்து உருவாக்க ஆம்பித்தனர். மேலே கொடுக்கப் பட்ட அட்டவணை முதலில் இருக்கும் எழுத்துக்கள் Windows-1252 (CP-1252 (https://www.ascii-code.com) என அழைக்கப்படுகிறது. மேலும் ISO Latin-1 என்றும் அழைக்கப்படுகிறது. இரண்டாவது இருக்கும் எழுத்துக்கள் Mac PC யில் (http://ascii-table.com/ascii-extended-pc-list.php) வேறுபட்ட எழுத்துகளுக்கு பயன்படுத்தப் பட்டு உள்ளது. இந்த 128 முதல் 255 வரை உள்ள எங்களுக்கு உரிய தமிழ் எழுத்துக்களை பிரதி இடுவதால் தமிழுக்கு உரிய எழுத்துகளை கணினியில் கொண்டு வரும் முயற்சிகள் எழுந்தன. அதன் வடிவம்தான் TABXXX - BILINGUAL CODING SCHEME FOR TAMIL.

TABXXX - BILINGUAL CODING SCHEME FOR TAMIL:

Extended ASCIIல் உள்ள எழுத்துகளுக்குப் பதில் தமிழ் எழுத்துகளைப் பிரதி இட்டு உருவாக்கியதுதான் TAB என்பது. சரி மேலே உள்ள பாட்டிலில் தமிழ் எழுத்துருக்களைப் பிரதி இடுவோம்.

128 € €
129
130 ‚ ௧
131 ƒ ௨
132 „ ௩
133 … ௪
134 † ௫
135 ‡ ‡
136 ˆ ௭
137 ‰ ௮
138 Š Š
139 ‹ ‹
140 Œ Œ
141
142 Ž Ž
143
144
145 ‘ ‘
146 ’ ’
147 “ “
148 ” ”
149 • •
150 – ௲
151 — ௰
152 ˜ ௱
153 ™ ™
154 š š
155 › ›
156 œ œ
157
158 ž ž
159 Ÿ Ÿ
160
161 ¡ ¡
162 ¢ ¢
163 £ £
164 ¤ ¤
165 ¥ ¥
166 ¦ ¦
167 § §
168 ¨ ¨
169 © ©
170 ª ª
171 « «
172 ¬ ¬
173
174 ® டி
175 ¯ டீ
176 ° கு
177 ± ஙு
178 ² சு
179 ³ ஞு
180 ´ டு
181 µ ணு
182 ¶ து
183 · ·
184 ¸ நு
185 ¹ பு
186 º மு
187 » யு
188 ¼ ரு
189 ½ லு
190 ¾ வு
191 ¿ ழு
192 À ளு
193 Á று
194 Â னு
195 Ã கூ
196 Ä ஙூ
197 Å சூ
198 Æ ஞூ
199 Ç டூ
200 È ணூ
201 É தூ
202 Ê Ê
203 Ë நூ
204 Ì பூ
205 Í மூ
206 Î யூ
207 Ï ரூ
208 Ð Ð
209 Ñ Ñ
210 Ò Ò
211 Ó Ó
212 Ô Ô
213 Õ Õ
214 Ö லூ
215 × வூ
216 Ø ழூ
217 Ù ளூ
218 Ú றூ
219 Û னூ
220 Ü அ
221 Ý ஆ
222 Þ இ
223 ß ஈ
224 à உ
225 á ஊ
226 â எ
227 ã ஏ
228 ä ஐ
229 å ஒ
230 æ ஓ
231 ç ஃ
232 è க
233 é ங
234 ê ச
235 ë ஞ
236 ì ட
237 í ண
238 î த
239 ï ந
240 ð ப
241 ñ ம
242 ò ய
243 ó ர
244 ô ல
245 õ வ
246 ö ழ
247 ÷ ள
248 ø ற
249 ù ன
250 ú ஸ
251 û ஷ
252 ü ஜ
253 ý ஹ
254 þ க்ஷ
255 ÿ ஸ்ரீ

இதற்குரிய Font இங்கு கிடைக்கிறது.

Tam

128 € €
129
130 ‚ க்
131 ƒ ங்
132 „ ச்
133 … ஞ்
134 † ட்
135 ‡ ண்
136 ˆ த்
137 ‰ ந்
138 Š ப்
139 ‹ ம்
140 Œ ய்
141
142 Ž Ž
143
144
145 ‘ ‘
146 ’ ’
147 “ “
148 ” ”
149 • •
150 – –
151 — —
152 ˜ ர்
153 ™ ல்
154 š வ்
155 › ழ்
156 œ ள்
157
158 ž ž
159 Ÿ ற்
160
161 ¡ ன்
162 ¢ ¢
163 £ £
164 ¤ ¤
165 ¥ ¥
166 ¦ ¦
167 § §
168 ¨ ¨
169 © ©
170 ª ª
171 « «
172 ¬ ¬
173
174 ® டி
175 ¯ டீ
176 ° கு
177 ± ஙு
178 ² சு
179 ³ ஞு
180 ´ டு
181 µ ணு
182 ¶ து
183 · ·
184 ¸ நு
185 ¹ பு
186 º மு
187 » யு
188 ¼ ரு
189 ½ லு
190 ¾ வு
191 ¿ ழு
192 À ளு
193 Á று
194 Â னு
195 Ã கூ
196 Ä ஙூ
197 Å சூ
198 Æ ஞூ
199 Ç டூ
200 È ணூ
201 É தூ
202 Ê Ê
203 Ë நூ
204 Ì பூ
205 Í மூ
206 Î யூ
207 Ï ரூ
208 Ð Ð
209 Ñ Ñ
210 Ò Ò
211 Ó Ó
212 Ô Ô
213 Õ Õ
214 Ö லூ
215 × வூ
216 Ø ழூ
217 Ù ளூ
218 Ú றூ
219 Û னூ
220 Ü அ
221 Ý ஆ
222 Þ இ
223 ß ஈ
224 à உ
225 á ஊ
226 â எ
227 ã ஏ
228 ä ஐ
229 å ஒ
230 æ ஓ
231 ç ஃ
232 è க
233 é ங
234 ê ச
235 ë ஞ
236 ì ட
237 í ண
238 î த
239 ï ந
240 ð ப
241 ñ ம
242 ò ய
243 ó ர
244 ô ல
245 õ வ
246 ö ழ
247 ÷ ள
248 ø ற
249 ù ன
250 ú ஸ
251 û ஷ
252 ü ஜ
253 ý ஹ
254 þ க்ஷ
255 ÿ ஸ்ரீ