0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

斯坦福大学获得全球史上最大的现代中国信息技术收藏品

hl5C_deeptechch 来源:DeepTech深科技 作者:DeepTech深科技 2021-06-08 16:45 次阅读

“把它们送回自己的祖国!”

近日,斯坦福大学的中国历史教授托马斯·穆拉尼(Thomas Mullaney)在 Tik Tok 上收到这样一则信息

前不久,他在 Tik Tok 上发视频表示,斯坦福大学获得了全球史上最大的现代中国信息技术收藏品,这些档案收藏在斯坦福大学图书馆中,馆藏档案 2500 余件。

当地时间 6 月 6 日,托马斯·穆拉尼在《南华早报》英文版,发表了题为“Why is the world’s largest collection on China’s modern IT history in the US?”《为什么世界上最大的中国现代 IT 历史合集在美国》的文章,并成为该网站当天的头版头条。

他表示,斯坦福大学图书馆馆藏藏品中,包括几十台珍稀的中文打字机、文字处理器电脑,以及中文电报、打字机、油印、图书制作、大型机、编码系统、软件、操作系统、打印机、显示器、字体、照排、输入系统、文字处理器、个人电脑等。

托马斯·穆拉尼的个人首页显示,他从 20 世纪 90 年代开始研究东亚文化,并出版过多本和中国汉字发展相关的书籍。

当地时间 5 月 31 日,《麻省理工科技评论》英文版独家发表了托马斯·穆拉尼撰写的文章“Behind the painstaking process of creating Chinese computer fonts”《制作中文电脑字体的艰辛背后过程》。

这篇文章并未体现他的全部研究领域,但却最具有科技特征。可以说,目前你正在阅读的这篇文章,离不来几十年前中文电脑字体设计师们的辛勤付出。以下为该文章的译文,个别地方有改动:

几十年前,毕业于麻省理工学院的 Photography Systems 公司创始人路易斯・罗斯布鲁姆(Louis Rosenblum),接到了位于马萨诸塞州剑桥市的图形艺术研究基金会(GARF)的一个订单。

在该项目中,设计师们通过手工画图和编辑了数以千计的字符,使得中文的打字和印刷成为可能。

回忆最初他曾表示,其儿子布鲁斯·罗森布鲁姆(Bruce Rosenblum)打开了他的苹果二代,此时电脑先是发出了一个高音的 F 音,然后是软驱又发出了咔哒声。

在一连串 “砰砰” 的按键声后,12 英寸的三洋显示器终于开始反应:在最开始的开机画面上,显示屏上出现了一个绿色的网格,宽 16 个单位,高 16 个单位。

而这个绿色的网格,就是 “Gridmaster”,这是罗森布鲁姆建立的全球首批中文数字字体之一,也是用 BASIC 编程语言编写的一个程序。

当时,他的任务是为一台名为 Sinotype III 的实验性机器开发字体,Sinotype III 机器也是史上首批能处理中文输入和中文输出的个人电脑之一。

在 20 世纪 70 年代末和 80 年代初,中国还没有个人电脑。因此,为了制造一台能处理 “中文” 的个人电脑,罗森布鲁姆团队需要对苹果二代电脑进行重新编程,以便用中文操作。

这项任务十分艰巨,他必须从头开始对一个操作系统进行编译,因为苹果 II 的 DOS 3.3 根本无法操作中文。同时,他还必须对中文文字处理器本身进行编程。就这样,罗森布鲁姆不知疲倦地工作了几个月。

尽管在今天看来,Gridmaster 是一个简单的程序,但它当时要处理的任务是创建成千上万个汉字的数字位图,在那时面临的设计挑战极大。

Sinotype III 机器是由图形艺术研究基金会开发的机器。在 Sinotype III 身上,创建字体所用的时间远超计算机编程的时间,因为没有字体,就没有办法在屏幕上显示汉字,也没有办法在机器的点阵打印机上输出汉字。

对于每个汉字的设计,设计师都必须亲自决定如何将汉字安排在由 256 个像素组成的位图中。也就是说,对于每个汉字都需要做出 256 个决定。

位图是一种数字存储图像的方式,每一个符号和图像都是由许多像素填充的网格所组成的,目前常见的图片存储格式如 JPEG、GIF、BMP 等都属于位图存储方式。因此,如果每个汉字需要 256 个决定,就要设计数以千计的汉字,相当于设计师需要在在两年多的开发过程中作出数十万个决定。

不过,事后罗森布鲁姆回想到 Gridmaster 编程程序时,他却将其描述为 "顶多是个笨拙的能用的程序",但就是靠着这个笨拙的程序,他的父亲路易斯·罗森布鲁姆(Louis Rosenblum)和图形艺术研究基金会,得以让数据输入临时人员远程创建并保存新的汉字位图。

对设计人员来说,只需拥有一台 Apple II 电脑,通过在软盘上运行 Gridmaster 程序,数据录入员就能远程创建和保存新的汉字位图。一旦这些汉字的位图被创建和存储好,罗森布鲁姆就能通过他设计的另一个程序,将设计好的汉字和它们相应的输入代码植入系统的数据库,这样就能把新设计好的汉字的数字位图安装到 Sinotype III 机器上。

尽管 Sinotype III 机器从未作为商业产品发布过。但是,为开发该系统所进行的艰苦工作内容比如开发位图中文字体,却正是一个需要全球共同努力才能解决的问题,而这一问题就是:如何使计算机能够处理地球上使用最广泛的语言之一 —— 中文。

当给西方字体做计算机和文字处理设计时,工程师和设计师们约定,在一个 5 乘 7 的位图网格上,来创建一种低分辨率的数字英语字体。这样,每个符号只需要五个字节的内存。

在美国信息交换标准代码(ASCII)中存储所有 128 个低分辨率字符,只需要640字节的内存,而且这 128 个字符已包括所有英语字母、数字 0 到 9 以及常见的标点符号。640 字节即使对于当时的苹果 II 来说,也只是其 64 千字节板载内存的很小的部分。

与英文不同的是,汉字不仅在数目上以万计,而且对于结构复杂的汉字来说,5 乘 7 的网格太小,很难让这些汉字清晰可辨。设计人员发现,每个汉字需要 16 乘 16 或者更大的网格,这就要求每个字符至少有 32 字节的内存(256 比特)。

这种情况下,要想研发一个拥有 70000 个低分辨率汉字的字体库,需要超过两兆字节的内存量。即使对一个只包含 8000 个最常见的汉字的字体库,仅存储位图就需大约 256 千字节的内存。对于 20 世纪 80年代初大多数个人电脑来说, 这已是电脑总内存容量的四倍。

尽管汉字字体库给电脑内存带来了巨大挑战,但在当时更难的是如何把低分辨率的中文字体制作得美观又好认。在 Gridmaster 这样的程序被发明之前,大部分的设计工作都用笔、纸和修正液完成的。

为此,设计师们花了数年时间,以期设计出既能满足低内存、又能保持一定书法美感的字体位图。凌焕铭(Lily Huan-Ming Ling)和艾伦·迪·乔瓦尼(Ellen Di Giovanni)是创建这套字符集的人,他们通过手绘特定汉字的位图草稿,并使用 Gridmaster 将其数字化。

对设计师们来说,最核心的问题是如何在两种完全不同的中文书写方式之间切换:一种是用钢笔或毛笔书写的手绘字,另一种是用排列在网格中的、由像素阵列书写的位图字。设计师们必须决定如何创造手写中文的某些特征,比如入口笔画、笔画渐变和出口笔画。

庆幸的是,把 Sinotype III 字体设计成低分辨率中文位图的全过程得以记录下来。其中最吸引人的档案资料之一,是一个装满格子图的册子,这些手绘的散点符号就是汉字位图的草稿图。

每一个汉字都经过了精心设计,从手绘中也可看到,大多数情况下设计师都对图形做了多次修改,路易斯·罗森布鲁姆和图形艺术研究基金会的设计师们,还会用修正液擦掉专业汉字编辑不同意的那些 "位"。

最初的标记是绿色的,红色标记的才算是 "最终" 草案。只有经过最终确认,才能开始数据输入工作。

考虑到团队需要设计的字体的字数庞大,至少需要设计 3000 个以上的基本汉字。人们可能会猜测,设计师们会不会使用一些可以简化设计工作的方法。

比如,通过复制中文偏旁部首来简化设计,这样当不同的字有同样的偏旁时比如“女”字旁,就无需再次设计 “女” 字旁,而是直接复制之前设计好的 “女” 字旁。

但是,笔者从当时设计的档案资料中,并未发现设计师们使用了任何类似上面所说的工作机制。与此相反,路易斯·罗森布鲁姆坚持让设计师亲自对汉字的每一个细节进行设计和调整,为的是保证每个汉字的笔画部首在整个汉字中的协调,尽管这种协调通常以十分细微、甚至难以察觉的调整来实现。

例如,在同样包含了 “女” 字旁的 “娟”字和 “娩” 字的字体位图中,这两个字的 “女” 字旁部首并不完全一样。在 “娟” 字中,“女” 字旁的宽度为 6 个像素,而在 “绵” 字中,“女” 字旁的宽度仅为 5 个像素。此外,在 “娩” 字中,“女” 字旁的右下角的笔画向外延伸了一个像素,而在 “娟” 字中,该笔画并没有延伸。

在整个字体库中,这种程度的精确度的要求十分常见,并非特例。当我们把位图草稿和它们的最终形式放在一起对比时,就会发现更多有趣的变化。

比如,在 “罗” 字的草稿中,左下角的最后一撇是以一个 45° 角向下延伸的。但在最终版本中,这一撇被 "拉平" 了一些,先以 45° 开始向下,但之后这一撇的倾斜角度变小了一些,并且变得更平了。

尽管设计师的设计空间似乎很小,仅仅是 16 乘 16 的网格,但他们必须在小小的网格中做出数量惊人的决定。而这些决定中的每一个,都会影响到他们为特定汉字所做的其他决定,因为即使增加一个像素,也会改变整个汉字的水平和垂直平衡。

网格尺寸的无情限制,以其意想不到的方式影响了设计师的工作。这一点在为了实现对称性这一“魔鬼”问题时表现最为明显。

比如,在汉字中经常见到的对称布局,在低分辨率的框架中却尤其难以表现,因为根据数学规则,创造对称性需要奇数的空间区域。

但偶数尺寸的位图网格的局限(如 16 乘 16 的网格)让对称性变得不可能。在许多情况下,图形艺术研究基金会通过只使用整个网格的一部分来实现对称性:比如说在 16 乘 16 的网格中只使用 15 乘 15 的区域来设计,但这也进一步减少了可用空间的数量。

而当我们对比不同公司或不同创作者为不同项目创造的位图字体时,情况变得更加复杂,差异也更多。

比如说下图中出现在 Sinotype III 字体中的三点水偏旁:“氵”,与另一种由 H.C. Tien创造的早期中文字体中的三点水偏旁的对比。H.C. Tien 是一位华裔美国心理治疗师和企业家,他曾在在 20 世纪 70 年代和 80 年代尝试过汉字的计算机字体设计。

尽管上述例子看起来与本文的关系看上去不大,但从以上所说的每一个例子,我们能看出无论是在起草阶段还是在数字化阶段,图形艺术研究基金会的设计团队必须做出的一个又一个决定。

当然,汉字字体的分辨率并没有长期保持在 "低" 的水平。计算技术的进步使得汉字的字体设计能使用越来越密集的位图、越来越快的处理速度、以及越来越低的内存成本。

而在如今这个 4K 分辨率、视网膜显示器等的时代,可能很难体会到早期中国位图字体创作中的艺术性 —— 包括美学和技术上的。但是,正是通过这些人的艰苦工作和不含糊的解决问题的方式,使得全球六分之一的人口现今能够使用计算机、新媒体和互联网,而且非常活跃。

原文标题:2500余件中国IT技术收藏品“惊现”斯坦福大学,独家解密中文电脑字体研发全过程

文章出处:【微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • IT
    IT
    +关注

    关注

    2

    文章

    788

    浏览量

    62993
  • 编程
    +关注

    关注

    88

    文章

    3431

    浏览量

    92218

原文标题:2500余件中国IT技术收藏品“惊现”斯坦福大学,独家解密中文电脑字体研发全过程

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    斯坦福继Flash Attention V1和V2又推出Flash Decoding

    斯坦福大学此前提出的FlashAttention算法,能够在BERT-large训练中节省15%,将GPT训练速度提高2/3。
    的头像 发表于 03-13 15:23 224次阅读

    英伟达CEO黄仁勋:竞争对手的芯片免费也难以比肩英伟达GPU

    根据斯坦福经济政策研究所在会上发布的视频,美国斯坦福大学Charles R. Schwab荣誉经济学教授John Shoven向黄仁勋提问: “贵公司是否能造出最尖端的芯片?
    的头像 发表于 03-11 10:08 209次阅读

    NVIDIA首席科学家Bill Dally:深度学习硬件趋势

    Bill Dally于2009年1月加入NVIDIA担任首席科学家,此前在斯坦福大学任职12年,担任计算机科学系主任。Dally及其斯坦福团队开发了系统架构、网络架构、信号传输、路由和同步技术,在今天的大多数大型并行计算机中都可
    的头像 发表于 02-25 16:16 287次阅读
    NVIDIA首席科学家Bill Dally:深度学习硬件趋势

    维修斯坦福SR560可编程滤波器烧了overload

    近日某院校送修一台斯坦福可编程滤波器SR560,客户反馈仪器烧了 overload,对仪器进行初步检测,确定与客户描述故障一致。本期将为大家分享本维修案例。 下面就是斯坦福-SR560维修情况
    的头像 发表于 01-09 15:58 126次阅读
    维修<b class='flag-5'>斯坦福</b>SR560可编程滤波器烧了overload

    ChatGPT真的产生心智了吗?ChatGPT是如何产生心智的?

    来自斯坦福大学的最新研究结论,一经发出就造成了学术圈的轰动,“原本认为是人类独有的心智理论(Theory of Mind,ToM),已经出现在ChatGPT背后的AI模型上”。
    的头像 发表于 10-19 09:58 528次阅读
    ChatGPT真的产生心智了吗?ChatGPT是如何产生心智的?

    信息技术是干什么?

    广播电子技术信息技术
    橙群微电子
    发布于 :2023年09月22日 09:17:48

    集成电路是现代电子信息技术的基础

    集成电路是现代电子信息技术的基础 随着科技的不断发展,集成电路技术已成为现代电子信息技术的基础之一。它的应用范围已经涉及到电子、通信、计算机、军事等行业,已经为人们的生活和工作带来了极大的便利
    的头像 发表于 08-29 16:25 1165次阅读

    SR570维修斯坦福电流放大器维修过载报警最新案例

    近日某院校送修斯坦福电流放大器SR570,客户反馈电流放大器过载报警,对仪器进行初步检测,确定与客户描述故障一致。本期将为大家分享本维修案例。 下面就是斯坦福-SR570维修情况     斯坦福
    的头像 发表于 05-23 17:34 485次阅读
    SR570维修<b class='flag-5'>斯坦福</b>电流放大器维修过载报警最新案例

    中国信通院公布 5G 标准必要专利全球最新排名:华为第一、小米首次进入前十

    帮助全行业可持续发展目标的实现。 全球产业主体在积极参与5G标准制定的同时,也不断向欧洲电信标准化协会(ETSI)声明5G标准必要专利。为研究全球最新的5G标准必要专利声明情况,中国信息通信研究院
    发表于 05-10 10:39

    权威榜单发布!“2022-2023信息技术应用创新榜”隆重揭晓

    性强、产业带动性强、市场潜力大的应用示范案例,以挖掘并树立信创领域的行业标杆,促进产业链上下游企业协同发展,推动信息技术应用创新走深入实。 “2022-2023信息技术应用创新榜”作为中国信创行业权威榜单,担负着深入挖掘行业创新
    的头像 发表于 05-09 09:40 810次阅读

    用芯编码·智构视界丨2023第六届中国信息技术应用创新大会暨智能视频编码行业专题论坛圆满落幕!

    4月27日,由中国信息协会主办、涌现科技承办的2023第六届中国信息技术应用创新大会暨智能视频编码行业专题论坛在北京盛大开幕。大会以“用芯编码·智构视界”为主题,来自半导体、云视频、云服务、大数
    的头像 发表于 05-05 13:48 411次阅读
    用芯编码·智构视界丨2023第六届<b class='flag-5'>中国信息技术</b>应用创新大会暨智能视频编码行业专题论坛圆满落幕!

    “用芯编码 · 智构视界”—2023第六届中国信息技术应用大会智能视频编码行业专题论坛即将开幕

    信创产业发展是国家经济数字化转型、提升产业链发展的关键,是科技创新发展的核心基座。为全方位深化智能视频编码行业研究和推动大视频产业信创发展,由中国信息协会主办,涌现科技承办的2023第六届中国信息技术
    的头像 发表于 04-13 17:41 446次阅读

    2023年斯坦福AI Index公布:细数AI最新进展及年度发展趋势

    来源:学术头条近日,斯坦福大学以人为本人工智能研究所(StanfordHAI)发布了《2023年人工智能指数报告》(ArtificialIntelligenceIndexReport2023)。这是
    的头像 发表于 04-12 14:44 374次阅读
    2023年<b class='flag-5'>斯坦福</b>AI Index公布:细数AI最新进展及年度发展趋势

    决策规划:行为决策常用算法

    在基于规则的方法中,有限状态机(FiniteStateMaechine,FSM)成为最具有代表性的方法。2007年斯坦福大学参加DARPA城市挑战赛时的无人车“Junior”,其行为决策采用的就是有限状态机方法。
    的头像 发表于 04-12 10:09 857次阅读

    2023年斯坦福AI Index公布:细数AI最新进展及年度发展趋势

    来源: 学术头条 近日,斯坦福大学以人为本人工智能研究所(Stanford HAI)发布了《2023 年人工智能指数报告》(Artificial Intelligence Index Report
    的头像 发表于 04-06 13:35 488次阅读