Gmail ปฏิทิน เอกสาร ภาพถ่าย เว็บ เพิ่มเติม »
กลุ่มที่เยี่ยมชมเมื่อเร็วๆ นี้ | ความช่วยเหลือ | เข้าสู่ระบบ
หน้าแรกของ Google Groups
DEE: Conceptual Design
ปัจจุบันมีหัวข้อในกลุ่มนี้มากเกินไปที่จะแสดงผลก่อนหากต้องการให้หัวข้อนี้ปรากฏก่อน ลบตัวเลือกนี้ออกจากหัวข้ออื่น
เกิดข้อผิดพลาดในการประเมินผลคำขอของคุณโปรดลองใหม่อีกครั้ง
ธง
  4 ข้อความ - ย่อทั้งหมด  -  แปลทั้งหมดเป็น ฉบับแปล (ดูต้นฉบับทั้งหมด)
กลุ่มที่คุณกำลังโพสต์ข้อความเข้าไปเป็นกลุ่ม Usenet ข้อความที่ถูกส่งไปยังกลุ่มนี้จะแสดงอีเมลต่อทุกๆ คนบนอินเทอร์เน็ต
ข้อความตอบกลับของคุณยังไม่ถูกส่งออกไป
การโพสต์ของคุณสำเร็จแล้ว
 
จาก:
ถึง:
สำเนา:
การติดตามผล:
เพิ่ม Cc | เพิ่มการติดตามผลไปยัง | แก้ไขเรื่อง
เรื่อง:
การตรวจสอบความถูกต้อง:
เพื่อประโยชน์ในการตรวจสอบ โปรดพิมพ์อักขระที่เห็นในภาพด้านล่างหรือตัวเลขที่ได้ยินโดยคลิกที่ไอคอนการเข้าถึงได้ ฟังและพิมพ์ตัวเลขที่คุณได้ยิน
 
Theppitak Karoonboonyanan  
ดูโปรไฟล์   แปลเป็น ฉบับแปล (ดูต้นฉบับ)
 ตัวเลือกเพิ่มเติม 17 มิ.ย. 2008, 18:04
จาก: Theppitak Karoonboonyanan <t...@linux.thai.net>
วันที่: Tue, 17 Jun 2008 18:04:50 +0700
ท้องที่: อ. 17 มิ.ย. 2008 18:04
เรื่อง: DEE: Conceptual Design
Hello,

Sorry for a long absence. I'd like to resume the discussion by
summarizing what Martin, Samphan and I have discussed in a separate
chat room, for you to comment.

Overall Structure:

           +-----+
  Generic: | IM0 |------------------------------.
           +-----+                              |
                                                |
         +-----+   ,--------------.             |
  Lang1: | IM1 |-->| Lang1 Canon. |--.          |
         +-----+   `--------------'  |          |
                                     |          V
         +-----+   ,--------------.  |   ,---------------.   +----+
  Lang2: | IM2 |-->| Lang2 Canon. |--+-->| Script Canon. |-->| OM |
         +-----+   `--------------'  |   `---------------'   +----+
                                     |
         +-----+   ,--------------.  |
  Lang3: | IM3 |-->| Lang3 Canon. |--'
         +-----+   `--------------'

- Each language has its own canonical order, which is to be satisfied by
  the corresponding IM for that language.
- A generic IM is provided as a fallback for unsupported languages, or
  for relaxed circumstances.
- All language canonical orders define strings of subsets of the script
  canonical order.
- The OM is defined upon script canonical order. That is, it will become
  generic, no more sharing of incident table with the IM as in WTT 2.0,
  except for low-conformance implementations.

Script Canonical Order:

- No strict classification of marks. One is free to use Mai Tri as a
  vowel, or Sara ii over Mai Ek, for example.
- The sequence must be at least normalized, in terms of Unicode.
- For more restrictions, go to language-specific canonical orders.

- Martin's proposed order:

    $pre = U+0E40 .. U+0E44
    $fol = U+0E30, U+0E32, U+0E33, U+0E45
    $base = U+0E01 .. U+0E2E
    $digit = U+0E50 .. U+0E59
    $punc = U+0E2F, U+0E3F, U+0E46, U+0E4F, U+0E5A, U+0E5B
    $phinthu = U+0E3A
    $ldia = U+0E38, U+0E39
    $udia = U+0E31, U+0E34 .. U+0E37, U+0E47, U+0E4C .. U+0E4E
    $tone = U+0E48 .. U+0E4B

    valid sequence =
      ([$pre] $phinthu?)? [$base] $phinthu? [$ldia]? [$udia$tone]{0,3}
      ([$fol] $phinthu? [$ldia]? [$udia$tone]{0,2})?
      | [$digit] | [$punc]

Output Method:

- Levels of conformance, to be defined, e.g.
    level 1: WTT 2.0 + some more limited sequences
             (mostly for legacy fonts like TrueType, Type 1, Bitmap)
    level 2: Relaxed stacking of combining marks
             (mostly requires advanced typography technology, such as
             OpenType, or special rendering engines which manage
             stacking by their own, such as Qt)
- The OM with level 2 conformance may also provide "legacy mode" which
  falls back to level 1 when rendering with legacy fonts, unless they
  can manage stacking without OpenType features available.

Input Methods:

- Generic: incident table to be defined.
- Thai: WTT 2.0 + some more limited sequences.
- Minority languages: to be elaborated as needed.

--
Theppitak Karoonboonyanan
http://linux.thai.net/~thep/


    ส่งต่อ  
คุณต้อง เข้าสู่ระบบ ก่อนจึงจะสามารถโพสต์ข้อความได้
หากต้องการโพสต์ข้อความ คุณต้องเข้าร่วมกลุ่มนี้ก่อน
โปรดอัปเดตชื่อเล่นของคุณในหน้า การตั้งค่าการสมัคร ก่อนที่จะโพสต์
คุณไม่ได้รับสิทธิ์ที่จำเป็นในการโพสต์
Martin Hosken  
ดูโปรไฟล์   แปลเป็น ฉบับแปล (ดูต้นฉบับ)
 ตัวเลือกเพิ่มเติม 18 มิ.ย. 2008, 09:58
จาก: Martin Hosken <mhos...@gmail.com>
วันที่: Wed, 18 Jun 2008 09:58:06 +0700
ท้องที่: พุธ 18 มิ.ย. 2008 09:58
เรื่อง: Re: DEE: Conceptual Design
Dear Thep,

We may be overstating the importance of these language specific canonical forms. When it comes to implementation, it is unlikely they will be greatly used. But it does provide a way of backwardly carrying WTT2 forward into WTT3.

If we take a traditional Thai TrueType font with its 4 positional variants of mai ek, etc. as used since Windows 3.1, we find it can support the following sequences:

       ([$pre] $phinthu?)? [$base] $phinthu? [$ldia]? [$udia$tone]? [$tone]?
       ([$fol] $phinthu? [$ldia]? [$udia$tone]? [$tone]?
       | [$digit] | [$punc]
(and move U+0E4C from udia to tone)

and this is sufficient for all the languages that I have information on (which is about 8).

I.e. all this talk of minority languages isn't really going to cause us much more work. The technologies we have can handle them pretty well if we just loosen things up a bit.

>     level 2: Relaxed stacking of combining marks
>              (mostly requires advanced typography technology, such as
>              OpenType, or special rendering engines which manage
>              stacking by their own, such as Qt)

The trick here is to create rendering engines that don't put restrictions on what the OpenType font might want to do, while still doing useful work.

> - The OM with level 2 conformance may also provide "legacy mode" which
>   falls back to level 1 when rendering with legacy fonts, unless they
>   can manage stacking without OpenType features available.

> Input Methods:

> - Generic: incident table to be defined.

I would suggest that this be defined as allowing any script valid input sequence. I.e. there is no restriction on the characters you can type, just their relative order.

> - Thai: WTT 2.0 + some more limited sequences.
> - Minority languages: to be elaborated as needed.

It is highly unlikely that minority language specific keyboard layouts will be developed for Thai. They will most probably use the generic keyboard.

We have talked a lot about the needs of minority languages and that is no bad thing, but I think that their needs are covered relatively easily using generic approaches. The question now is how do we bring together a generic approach and a tighter approach for the Thai language in a helpful way.

Yours,
Martin


    ส่งต่อ  
คุณต้อง เข้าสู่ระบบ ก่อนจึงจะสามารถโพสต์ข้อความได้
หากต้องการโพสต์ข้อความ คุณต้องเข้าร่วมกลุ่มนี้ก่อน
โปรดอัปเดตชื่อเล่นของคุณในหน้า การตั้งค่าการสมัคร ก่อนที่จะโพสต์
คุณไม่ได้รับสิทธิ์ที่จำเป็นในการโพสต์
Theppitak Karoonboonyanan  
ดูโปรไฟล์   แปลเป็น ฉบับแปล (ดูต้นฉบับ)
 ตัวเลือกเพิ่มเติม 18 มิ.ย. 2008, 11:07
จาก: Theppitak Karoonboonyanan <t...@linux.thai.net>
วันที่: Wed, 18 Jun 2008 11:07:01 +0700
ท้องที่: พุธ 18 มิ.ย. 2008 11:07
เรื่อง: Re: DEE: Conceptual Design

Yes, the details for each language can be described as much as it's
needed. If a language doesn't need much restriction, then just take the
script canonical order as the language canonical order. (Any set is
already subset of itself.) But it can always be elaborated later if
triggered by sufficient needs in the future.

Thai language already has such obvious needs. So, we design such
structure for all languages as well.

How about U+0E47 (Maitaikhu) above upper vowels in Kuy? This may be one
missing case.

> I.e. all this talk of minority languages isn't really going to cause
> us much more work. The technologies we have can handle them pretty
> well if we just loosen things up a bit.

Yes, this involves updates in rendering engines' internal rules,
according to new WTT legacy mode.

Right. It will be derived from the defined canonical order.

> > - Thai: WTT 2.0 + some more limited sequences.
> > - Minority languages: to be elaborated as needed.

> It is highly unlikely that minority language specific keyboard layouts
> will be developed for Thai. They will most probably use the generic
> keyboard.

> We have talked a lot about the needs of minority languages and that is
> no bad thing, but I think that their needs are covered relatively
> easily using generic approaches. The question now is how do we bring
> together a generic approach and a tighter approach for the Thai
> language in a helpful way.

Yes. And one thing I hope from this summary map is to ensure we're
understanding the same thing as we further discuss, such as where a
particular concept belongs.

If we agree on this model, then we can bring proposed issues from
wikidot [1] into our working draft.

  [1] http://wtt3.wikidot.com/language-processing

Regards,
--
Theppitak Karoonboonyanan
http://linux.thai.net/~thep/


    ส่งต่อ  
คุณต้อง เข้าสู่ระบบ ก่อนจึงจะสามารถโพสต์ข้อความได้
หากต้องการโพสต์ข้อความ คุณต้องเข้าร่วมกลุ่มนี้ก่อน
โปรดอัปเดตชื่อเล่นของคุณในหน้า การตั้งค่าการสมัคร ก่อนที่จะโพสต์
คุณไม่ได้รับสิทธิ์ที่จำเป็นในการโพสต์
Theppitak Karoonboonyanan  
ดูโปรไฟล์   แปลเป็น ฉบับแปล (ดูต้นฉบับ)
 ตัวเลือกเพิ่มเติม 19 มิ.ย. 2008, 09:23
จาก: Theppitak Karoonboonyanan <t...@linux.thai.net>
วันที่: Thu, 19 Jun 2008 09:23:32 +0700
ท้องที่: พฤ 19 มิ.ย. 2008 09:23
เรื่อง: Re: DEE: Conceptual Design

On Wed, Jun 18, 2008 at 11:07:01AM +0700, Theppitak Karoonboonyanan wrote:
> On Wed, Jun 18, 2008 at 09:58:06AM +0700, Martin Hosken wrote:

> > > Output Method:

> > > - Levels of conformance, to be defined, e.g.
> > >     level 1: WTT 2.0 + some more limited sequences
> > >              (mostly for legacy fonts like TrueType, Type 1, Bitmap)

> > If we take a traditional Thai TrueType font with its 4 positional
> > variants of mai ek, etc. as used since Windows 3.1, we find it can
> > support the following sequences:

Note that this assumption does not apply to bitmap fonts with pure
TIS-620 or ISO-10646-1 encoding. If we are to define level 1 like this,
we will need, say, level 0, for such primitive fonts.

On the other hand, this may mean endorsement of such PUA glyphs by
national standard body, through WTT project. I'm fine with this. We
don't need to specify the PUA code points when writing the specification,
for example. Just mentioning the font class with general terms should be
fine.

Regards,
-Thep.
--
Theppitak Karoonboonyanan
http://linux.thai.net/~thep/


    ส่งต่อ  
คุณต้อง เข้าสู่ระบบ ก่อนจึงจะสามารถโพสต์ข้อความได้
หากต้องการโพสต์ข้อความ คุณต้องเข้าร่วมกลุ่มนี้ก่อน
โปรดอัปเดตชื่อเล่นของคุณในหน้า การตั้งค่าการสมัคร ก่อนที่จะโพสต์
คุณไม่ได้รับสิทธิ์ที่จำเป็นในการโพสต์
สิ้นสุดข้อความ
« กลับสู่การสนทนา หัวข้อใหม่     หัวข้อเก่ากว่า

สร้างกลุ่ม - Google Groups - หน้าแรกของ Google - ข้อตกลงการใช้บริการ - นโยบายส่วนบุคคล
©2010 Google