Bước tới nội dung

Lịch sử dịch máy

Bách khoa toàn thư mở Wikipedia

Dịch máy nói chung bắt đầu từ thập niên 50, mặc dù một số công việc có thể tìm thấy ở thời kỳ trước đó. Thí nghiệm Georgetown-IBM năm 1954 liên quan hoàn toàn đến quá trình dịch máy của hơn 60 câu tiếng Nga sang tiếng Anh. Thí nghiệm là một thành công lớn và mở ra kỷ nguyên với kinh phí ấn tượng cho nghiên cứu dịch máy ở Hoa Kỳ. Các tác giả tuyên bố rằng trong vòng 3 hay 5 năm, dịch máy có thể giải quyết được vấn đề.[1] Ở Liên Xô, một số thí nghiệm tương tự cũng được thực hiện sau đó.

Thời kì sơ khai

[sửa | sửa mã nguồn]

Con người đã mong ước dùng máy móc để dịch từ rất lâu. Vào thế kỷ mười bảy, các nhà triết học LeibnizDescartes đã đề xuất những hệ mã có thể kết nối các ngôn ngữ khác nhau, mặc dù với mục đích nghiên cứu triết học.

Những bằng sáng chế đầu tiên cho "máy dịch tự động" được cấp vào giữa những năm 1930. Một đề xuất, của Georges Artsrouni đơn giản là một từ điển song ngữ tự động sử dụng bìa đục lỗ. Một đề xuất khác, của Peter Troyanskii, bao gồm từ điển song ngữ kết hợp với một phương pháp xử lý các vai trò ngữ pháp của các ngôn ngữ, dựa trên tiếng Esperanto.

Những năm đầu tiên

[sửa | sửa mã nguồn]

Sang kỷ nguyên máy tính, dịch máy trở thành một lĩnh vực được đầu tư lớn và nghiên cứu sôi nổi. Những đề xuất đầu tiên của chương trình dịch tự động bằng máy tính được đưa ra bởi Warren Weaver vào tháng 7 năm 1949.[2] Những đề xuất ban đầu này dựa trên lý thuyết thông tin và các phán đoán về nguyên lý cơ bản của mọi ngôn ngữ tự nhiên.

Một vài năm sau những đề xuất này, các nghiên cứu nghiêm chỉnh bắt đầu ở nhiều trường đại học trong nước Mỹ. Ngày 7 tháng 1 năm 1954, thử nghiệm Georgetown-IBM, lần trình diễn công khai đầu tiên của một hệ thống dịch máy, được tổ chức ở văn phòng của IBM ở New York. Thử nghiệm đã được giới truyền thông đón nhận và thu hút nhiều sự quan tâm của công chúng. Mặc dù còn rất đơn giản, nó động viên khuyến khích những dự cảm tốt đẹp về dịch máy và kích thích dòng tiền đổ vào nghiên cứu, không chỉ trong nước Mỹ mà trên toàn thế giới. Kết quả là trong những năm 1950 và 1960, nhiều hệ thống đã được cài đặt và hoạt động.

Những năm 1960, bản báo cáo ALPAC và những năm 70

[sửa | sửa mã nguồn]

Một đòn giáng mạnh vào các nghiên cứu dịch máy dịch máy trong năm 1966 là bản báo cáo ALPAC. Bản báo cáo được chính quyền Hoa Kỳ ủy nhiệm cho ALPAC (Automatic Language Processing Advisory Committee - Hội đồng tư vấn về xử lý ngôn ngữ tự động) thực hiện. Nó kết luận rằng máy dịch tốn kém hơn, không chính xác và chậm hơn con người và mặc dù đắt đỏ, chất lượng bản dịch không có vẻ gì sẽ đạt đến chất lượng của bản dịch của con người trong tương lai gần.

Tuy nhiên bản báo cáo khuyến nghị rằng nên phát triển các công cụ trợ giúp người dịch—ví dụ như từ điển tự động—và một số nghiên cứu về ngôn ngữ học tính toán nên tiếp tục được hỗ trợ.

Sự xuất hiện của bản báo cáo ngay lập tức ảnh hưởng nghiêm trọng đến các nghiên cứu về dịch máy trong Hoa Kỳ và ít hơn đối với Liên Xô và Anh Quốc. Ở Mỹ, các nghiên cứu hầu như hoàn toàn bị bỏ rơi trong một thập kỷ. Tuy nhiên ở Canada, Pháp và Đức, nghiên cứu vẫn tiếp diễn. Trong những năm 1970, một số hệ thống dịch máy đáng chú ý đã ra đời và đi vào hoạt động như Systran, Logos và METEO.

Trong khi các nghiên cứu trong những năm 1960 tập trung vào các cặp ngôn ngữ và đầu vào giới hạn thì trong những năm 1970 là các hệ thống giá rẻ có thể dịch một số tài liệu kỹ thuật và thương mại.

Những năm 1980 và đầu 1990

[sửa | sửa mã nguồn]

Sang đến thập niên 80 và đầu 90 của thế kỷ trước, cùng với sự phát triển mạnh mẽ của máy tính lớn và sau đó là vi tính, các hệ thống dịch máy ngày càng phát triển đa dạng. Các nghiên cứu được diễn ra ở nhiều nước khắp nơi trên thế giới, đặc biệt là Nhật Bản với dự án máy tính thế hệ thứ năm.

Nghiên cứu trong những năm 1980 thường dựa vào dạng biểu diễn ngôn ngữ trung gian đa dạng bao gồm hình thái, ngữ pháp và ngữ nghĩa. Cuối thập kỷ này, một làn sóng các phương pháp mới đã nổi lên. Một hệ thống được phát triển ở IBM dựa trên các phương pháp thống kê. Makoto Nagao và nhóm của ông sử dụng lượng lớn các bản dịch ví dụ, phương pháp này hiện nay được gọi là dịch dựa trên ví dụ. Đặc điểm chung của cả hai cách tiếp cận là sự thiếu vắng các luật ngữ pháp và ngữ nghĩa mà thay vào đó là việc xử lý những bộ ngữ liệu lớn.[3][4]

Cũng trong thời gian này, được khích lệ bởi những thành công trong nhận dạng và tổng hợp tiếng nói, các nghiên cứu bắt đầu thâm nhập lãnh địa dịch tiếng nói với dự án Verbmobil của Đức.

Hiện nay

[sửa | sửa mã nguồn]

Lĩnh vực dịch máy đã chứng kiến những thay đổi căn bản trong vài năm lại đây. Hiện nay một lượng lớn nghiên cứu được tiến hành về dịch máy thống kê và dịch máy dựa trên ví dụ. Trong lĩnh vực dịch tiếng nói, các nghiên cứu tập trung vào việc chuyển từ các hệ thống giới hạn lĩnh vực sang không giới hạn lĩnh vực. Trong các dự án nghiên cứu khác nhau của châu Âu (như TC-Star) và Hoa Kỳ (như STR-DUST và U.S.-DARPA-GALE), các giải pháp dịch tự động các bài phát biểu trước quốc hội và bản tin đã được phát triển. Trong những tình huống này, nội dung không còn bị giới hạn trong bất cứ lĩnh vực cụ thể nào nữa mà các bài phát biểu bao trùm những chủ đề đa dạng. Mới đây, dự án kết hợp Pháp-Đức Quaero khảo sát khả năng sử dụng dịch máy cho một mạng internet đa ngôn ngữ. Dự án mong muốn dịch không chỉ các trang mạng mà còn cả các tệp phim, âm thanh có trên mạng internet.

Ngày nay, chỉ một vài công ty sử dụng hệ dịch máy thống kê thương mại, ví dụ như Asia Online, SDL international / Language Weaver (bán các sản phẩm và dịch vụ dịch thuật), Google (sử dụng hệ thống dịch máy độc quyền cho một số sự kết hợp ngôn ngữ trong Google's language tools), Microsoft (sử dụng hệ dịch máy thống kê độc quyền để dịch các bài viết cơ sở tri thức) và Ta with you (cung cấp giải pháp dịch máy thích ứng với phạm vi sử dụng với một số tri thức về ngôn ngữ). Người ta đang quan tâm trở lại đến sự lai hóa khi các nhà nghiên cứu kết hợp tri thức ngữ pháp và hình thái học (nghĩa là tri thức ngôn ngữ) với các hệ thống thống kê cũng như kết hợp thống kê với các hệ thống dựa trên luật hiện có.

  1. ^ Hutchins, J. (2005). “The history of machine translation in a nutshell” (PDF). Bản gốc (PDF) lưu trữ ngày 13 tháng 7 năm 2019. Truy cập ngày 19 tháng 4 năm 2014.
  2. ^ “Weaver memorandum”. tháng 3 năm 1949. Bản gốc lưu trữ ngày 5 tháng 10 năm 2006.
  3. ^ Nagao, Makoto (1984). “A Framework of a Mechanical Translation Between Japanese and English by Analogy Principle” (PDF). Procedures Of the International NATO Symposium on Artificial and Human Intelligence. New York: Elsevier North-Holland, Inc. tr. 173–180. ISBN 0-444-86545-4. Bản gốc (PDF) lưu trữ ngày 25 tháng 11 năm 2020. Truy cập ngày 19 tháng 4 năm 2014.
  4. ^ “the Association for Computational Linguistics – 2003 ACL Lifetime Achievement Award”. Association for Computational Linguistics. Bản gốc lưu trữ ngày 12 tháng 6 năm 2010. Truy cập ngày 10 tháng 3 năm 2010.

Đọc thêm

[sửa | sửa mã nguồn]