Nghiên cứu của AI Center đạt Top 1 Benchmark trên Microsoft CodeXGLUE

Model tự động chú thích code của nhóm nghiên cứu AI Center vừa đạt Top 1 Benchmark trên Microsoft CodeXGLUE. CodeXGLUE là benchmark nổi tiếng được khởi tạo bởi Microsoft Research, tập trung vào vấn đề tạo ra trí thông minh nhân tạo cho các bài toán về code (code intelligence).

Code intelligence được ứng dụng trong một số bài toán như tự động viết code dựa trên đầu vào là ngôn ngữ tự nhiên, dịch từ ngôn ngữ lập trình này sang ngôn ngữ khác, tự động sửa các đoạn code bị lỗi… Các bài toán về code intelligence được xem như “Third wave of AI” và gần đây rất được quan tâm bởi các công ty lớn như Microsoft, Google, Salesforce hay Meta bởi tiềm năng có thể thay đổi cả ngành lập trình phần mềm (Software 2.0). Hướng tới mục tiêu đó, cần có một benchmark chuẩn để các nhóm nghiên cứu đánh giá hiệu suất cho phương pháp của họ. Nếu GLUE thường được xem là benchmark của lĩnh vực NLP (gluebenchmark.com) thì CodeXGLUE là benchmark của code intelligence. CodeXGLUE đã và đang được sử dụng rất nhiều như một benchmark chuẩn cho những bài báo về code intelligence được xuất bản ở các hội nghị hàng đầu trong ngành Khoa học máy tính như ICLR, NeurIPS, ICSE, ACL.

Công việc của một lập trình viên hằng ngày là viết code. Việc viết chú thích để giải thích code là một quá trình tiêu tốn rất nhiều thời gian. Có rất nhiều đoạn code trong thực tế có chú thích rất tệ hoặc thậm chí không có chú thích cho những đoạn code phức tạp, điều này dẫn đến rất nhiều khó khăn trong quá trình đọc và hiểu code của lập trình viên, làm giảm hiệu suất công việc của họ. Nhận thấy vấn đề này, rất nhiều các công trình nghiên cứu được thực hiện tại các trường đại học và công ty nổi tiếng như UC Davis, UCLA, Columbia University, Carnegie Mellon University, Microsoft Research và Salesforce Research. Tại FSOFT AI Center, nhóm nghiên cứu AI4Code cũng đang tập trung nghiên cứu bài toán tự động sinh chú thích cho code (code summarization), đây cũng là một phần của CodeXGLUE benchmark.

Nhóm nghiên cứu AI4Code đề xuất sử dụng phương pháp Knowledge Distillation – phương pháp thuộc họ Transfer Learning. Thuật toán lấy ý tưởng chính từ quá trình học tập ở người khi kiến thức được truyền đạt từ giảng viên có hiểu biết tốt hơn tới người học có hiểu biết kém hơn. Phương pháp này đã được sử dụng nhiều trong xử lý ảnh và xử lý ngôn ngữ tự nhiên. Tuy nhiên, để sử dụng phương pháp này cho các bài toán code intelligence thì điều cần thiết là cần phải truyền đạt những thông tin mà chỉ loại dữ liệu là code mới có, ví dụ như tên biến (variable name), tên hàm (method name), cây phân tích cú pháp (abstract syntax tree). Nhóm nghiên cứu đã đề xuất sử dụng những thông tin này để truyền đạt thông tin từ những pretrained model lớn sang model nhỏ hơn, kết quả là những model nhỏ đã học được tốt hơn và cho kết quả tốt hơn rất nhiều so với baselines của các nhóm nghiên cứu khác.

Nói về kế hoạch phát triển dự án, anh Bùi Duy Quốc Nghị – đại diện nhóm tác giả chia sẻ: “Nhóm nghiên cứu sẽ tiếp tục cải tiến kỹ thuật này và xuất bản công trình nghiên cứu đến các hội nghị khoa học hàng đầu. Trong tương lai, nhóm cũng nhắm việc giải quyết các bài toán khác như code translation (dịch ngôn ngữ lập trình), code fixing (sửa lỗi cho code), code synthesis (sinh code từ ngôn ngữ tự nhiên)’’.

>> Kết quả có thể xem TẠI ĐÂY

>> Tìm hiểu thêm về CodeXGLUE TẠI ĐÂY

Theo AIC

Tags
Show More

Leave a Reply

Your email address will not be published.

Related Articles

Close