Sự đột phá của Homsh: ViT+ArcFace
Độ chính xác nhận dạng tròng mắt đạt mức cao nhất thế giới
Với tỷ lệ lỗi bằng nhau (EER) chỉ 0,29% và ROC AUC gần với giới hạn lý thuyết
Chúng tôi đã xác định lại ranh giới của nhận dạng tràng tròng với Vision Transformer
▲ Vision Transformer xác định lại mô hình cơ bản của việc chiết xuất các tính năng tròng tròng mắt
Lần này, không chỉ là tiến bộ mà là một sự thay đổi
Nếu bạn hỏi một kỹ sư đã làm việc trong lĩnh vực nhận dạng mống mắt trong hai thập kỷ: "Vấn đề khó nhất mà bạn từng giải quyết là gì?"
Có lẽ anh ta sẽ dừng lại một chút, rồi nói: "The Rubber Sheet".
Kể từ khi John Daugman đề xuất thuật toán IrisCode vào năm 1993, quá trình "Rubber Sheet unwrapping" đã giống như một câu thần chú được khắc vào DNA của các hệ thống nhận dạng mờ mờ trên toàn thế giới.Mở tròn iris thành một hình chữ nhật, sau đó chiết xuất kết cấu bằng cách sử dụng bộ lọc Gabor... dòng công việc này đã được sử dụng trong ba thập kỷ, và không ai nghi ngờ nó.
Cho đến khi chúng tôi quyết định vứt nó đi.
II. Tại sao tấm cao su ngừng hoạt động?
Vision Transformer (ViT) là một trong những bước đột phá công nghệ tuyệt vời nhất trong lĩnh vực học sâu trong ba năm qua.sử dụng cơ chế tự chú ý của các mô hình ngôn ngữ để hiểu cấu trúc toàn cầu của hình ảnh, và vượt trội hơn các mạng thần kinh cong (CNN) thống trị trong nhiều năm trong nhiều nhiệm vụ thị giác cấp cao nhất.
Khi lần đầu tiên chúng tôi thử áp dụng ViT để nhận dạng mờ mịt, kết quả ban đầu đáng thất vọng: Tỷ lệ lỗi bằng nhau (EER) cao tới 4,65%, thấp hơn nhiều so với mong đợi.
Nhóm nghiên cứu nhanh chóng xác định nguyên nhân gốc rễ: Bảng cao su "thẳng" tròn hình tròn 64 × 512 pixel thành hình chữ nhật, sau đó được mở rộng quy mô đến 224 × 224 đầu vào cần thiết cho ViT.5x kéo dài dọc và 2.3x nén ngang. cấu trúc kết cấu vòng tròn / vòng tròn tự nhiên của iris bị biến dạng nghiêm trọng,làm cho nó không thể cho cơ chế chú ý vá của ViT để nhận thức được ngữ nghĩa trong.
Nói cách khác: chúng tôi đã nuôi dưỡng mô hình thông minh nhất theo cách sai.
Giải pháp nghe có vẻ đơn giản, nhưng nó đòi hỏi sự dũng cảm để phá vỡ quy ước từ bỏ tấm cao su và chuyển sang ROI cắt tỉa tròn: với trung tâm của iris như là nguồn gốc,trồng một diện tích vuông (2.5x bán kính) để duy trì đối xứng không gian tự nhiên của iris, sau đó trực tiếp thay đổi kích thước nó thành 224 × 224 và đưa nó vào ViT. Bằng cách này, mỗi miếng dán 16 × 16 có thể cảm nhận được sự xác thực,kết cấu iris không bị biến dạng.
Các chỉ số chính: EER = 0,29%, ROC AUC = 0.9999
Thay đổi bước xử lý trước này đã tạo ra một thế giới khác biệt:
| Giải pháp |
EER |
Nhận xét |
| Vòng 1: ViT + tấm cao su |
4.65% |
Luồng công việc truyền thống |
| Vòng 2: CNN + Bảng cao su |
2.80% |
Thay thế xương sống với cải tiến hạn chế |
| Vòng 3: ViT + ROI Crop |
~0,12%* |
Bước đột phá quan trọng |
| Phiên bản cuối cùng: ViT-S/16 + ROI + Quy định |
0.29% |
Giải pháp cấp sản xuất |
*Kết quả vòng 3 không phải là đối tượng của xác minh thống kê nghiêm ngặt và chứa sự thiên vị lạc quan.
Hệ thống cuối cùng được phát hành áp dụng ViT-S/16 (các tham số 22,1M) + mất biên góc ArcFace, được đào tạo trên sự hợp nhất của 8 bộ dữ liệu công khai (tổng cộng là 4.480 danh tính / 67.704 hình ảnh).Sau khi kiểm tra thống kê nghiêm ngặt, kết quả là như sau:
●EER = 0,29% (tỷ lệ lỗi bằng nhau)
● 95% confidence interval: [0,21%, 0,40%] (200 vòng lấy mẫu lại Bootstrap)
● ROC AUC = 0,9999 (điểm gần như hoàn hảo)
● Độ tương đồng trung bình giữa hai cặp thực: 0,8742 (sự tương đồng cao đối với cùng một cá nhân)
● Độ tương đồng giữa hai kẻ giả mạo trung bình: 0,0450 (sự tách biệt hoàn toàn về các đặc điểm đối với các cá nhân khác nhau)
● Ở FRR = 1%, FAR = 0,00% (không nhận dạng sai ở các điểm hoạt động an toàn cao)
▲ Đường cong ROC (AUC = 0,9999) và Phân phối điểm số thực sự / giả mạo
IV. Dữ liệu đào tạo: Không chỉ lớn mà còn đa dạng
Nghiên cứu này kết hợp 8 bộ dữ liệu công khai, bao gồm hai kịch bản khó khăn nhất trong ngành:
Dữ liệu sinh đôi (CASIA-Iris-Twins)
Dữ liệu về tròng mắt từ 200 cặp sinh đôi ∙ ngay cả với các gen gần như giống nhau, kết cấu tròng mắt hoàn toàn khác nhau.
Các kịch bản không bị hạn chế bởi ánh sáng nhìn thấy được (UBIRIS.v2)
518 danh tính với hơn 11.000 hình ảnh, được chụp dưới ánh sáng tự nhiên với chuyển động mờ, biến dạng không tập trung,và sự thay đổi ánh sáng đây là bộ dữ liệu gần nhất với các kịch bản triển khai thực tế.
Đào tạo được hoàn thành trên một Apple Silicon M2 Ultra (Mac Studio) trong khoảng 12,3 giờ (90 thời kỳ đào tạo),với độ trễ suy luận tối đa chỉ ~ 35ms (bao gồm cắt ROI và chiết xuất tính năng).
V. So sánh ngang với công việc công nghiệp hàng đầu
| Phương pháp |
Xương sống |
Xử lý trước |
EER |
| Định mã Iris Daugman |
Gabor |
Bảng cao su |
~ 0,10% (Môi trường được kiểm soát) |
| UniqueNet (2016) |
Siamese CNN |
Bảng cao su |
0.18% |
| IrisFormer (2023) |
ViT-B/16 |
Bảng cao su |
0.22% |
| PolyIRIS (2021) |
CNN đa quy mô |
Bảng cao su |
(Dữ liệu đơn) |
| Homsh ViT+ArcFace (Sự phát hành này) |
ViT-S/16 |
ROI Crop |
0.29% (8 bộ dữ liệu) |
▲ Từ 4,65% đến 0,29% EER: Con đường phát triển công nghệ của bốn vòng lặp
VI. Bước tiếp theo
1Đánh giá độc lập trên các bộ dữ liệu chéo
Kiểm tra mù trên bộ dữ liệu IIT Delhi không tham gia đào tạo để xác minh khả năng tổng quát trong thế giới thực.
2.Livingness Detection Integration (tích hợp phát hiện sự sống)
Kết hợp phản ứng flash nhiều khung hình hoặc phân tích kết cấu để bảo vệ chống lại các cuộc tấn công phát lại ảnh và xây dựng một hệ thống chống giả mạo hoàn chỉnh.
3Nhận dạng Iris tầm trung và xa
Đưa ra dữ liệu tầm trung (3m) để mở rộng đến các kịch bản với khoảng cách thu thập lớn hơn ′′ đại dương xanh tiếp theo để thực hiện thương mại.
4.Lightweighting và Edge-Side Deployment
Distillate mô hình ViT-S/16 đến các tham số < 5M để thích nghi với các thiết bị cạnh hạn chế nguồn lực (NPU / FPGA).
Kết luận: Một Đại hội 30 năm đáng được xem xét lại
Daugman's Rubber Sheet là giải pháp tối ưu cho thời đại của nó. Nhưng bản chất của công nghệ là: khi các công cụ tốt hơn xuất hiện, mô hình cũ nên được gạt sang một bên.
Vision Transformer đã thay đổi logic cơ bản của việc nhận dạng hình ảnh thông qua 4 vòng thử nghiệm và 4 tháng khám pháchúng tôi đã tìm thấy cách chính xác cho ViT để thực sự mở ra tiềm năng của nó trong nhận dạng mờ mịt không để làm cho ViT thích nghi với dòng công việc cũ, nhưng để thiết kế một mô hình xử lý trước mới phù hợp với ViT.
EER 0,29% chỉ là một con số, nhưng cũng là một tuyên bố:
Nhận dạng tròng mắt đã bước vào kỷ nguyên Transformer, và Homsh đang ở đường khởi đầu.
Về Homsh
WuHan Homsh Technology Co., Ltd (HOMSH), được thành lập vào năm 2011,là một trong số ít các doanh nghiệp công nghệ cao trên thế giới có quyền sở hữu trí tuệ độc lập cho các thuật toán và chip nhận dạng mờ mờ lõiCác thuật toán cốt lõi Phaselirs TM và chip thông minh FPGA / ASIC Qianxin Series cho nhận dạng iris đã được sử dụng rộng rãi trong thu thập tài chính, thanh toán hải quan, cấp giấy chứng nhận của chính phủ,an ninh quân sự và các lĩnh vực khác.