đề Cương xử lý âm thanh hình ảnh

Published on

1. ĐỀ CƯƠNG XỬ LÝ ÂM THANH HÌNH ẢNHPhần 1 : Lý thuyếtCâu I : Các đặc trưng cơ bản của âm thanh1.1 Khái niệm về âm thanh và các tham số đánh giáÂm thanh trong thế giới tự nhiên về bản chất là những sóng âm được tạo ra từ dao độngcủa vật thể và được truyền đi trong một môi trường truyền âm nhất định.Âm thanh có các tham số đánh giá đặc trưng sau dây:1. Tần số: Tần số của âm đơn là số lần dao động của không khí truyền dẫn âm trong mộtđơn vị thời gian là 1 giây. Tần số biểu thị độ cao (pitch) của âm thanh. Tần số càng lớnthì âm thanh càng cao và ngược lại. Ðơn vị để đo là Hertz (Hz). Tai con ngưừi chỉ cảm thụ được những dao động có tần số từ khoảng 16Hz đếnkhoảng 20000Hz. Dải tần số từ 16Hz đến 20000Hz được gọi là dải tần số âm thanh hayâm tần hoặc sóng âm. Những âm có tần số nhỏ hơn 16Hz gọi là sóng hạ âm, còn nhữngâm có tần số lớn hơn 20000 Hz gọi là sóng siêu âm và con người không cảm nhận đượccác sóng âm này nhưng có khá nhiêu loài vật có thể cảm nhận được (ví dụ loài dơi có thểnghe được sóng siêu âm). Ứng với mỗi tần số dao động f , có chu kỳ dao động T là một bước sóng λ của âmthanh được xác định theo biểu thức λ = c.T (c là tốc độ lan truyên của âm thanh trongkhông khí = 340m/s). Do dó, bước sóng của âm thanh trong dải âm tần là từ 21.25m đến0.017m.2. Áp suất âm thanh: Áp suất âm thanh hay còn gọi là thanh áp. Âm thanh truyần lanđến đâu thì làm thay đổi áp suất không khí ở đó. Áp suất do âm thanh tạo thêm ra ở mộtđiểm gọi là thanh áp ở điểm dó. Đơn vị đo thanh áp là bar. Một bar là thanh áp tác độnglên một diện tích 1cm2 mot lực là 1dyn. 1 bar = 1dyn/cm2. Tuy nhiên, ngày nay, người tathường dùng đơn vị Pascan (Pa) để đo thanh áp. 1 bar = 10 Kpa; 1 Pa = 1 N/m2.3. Công suất âm thanh: Là năng lượng âm thanh đi qua một diện tích S trong thời gianmột giây. Công suất âm thanh P có thể tính bằng biểu thức: P = p.S.vTrong dó p là thanh áp, v là tôc do dao động của một phân tử không khí tại đó và S làdiện tích. Công suất âm thanh tính theo đơn vị oát (W).4. Cường độ âm thanh: Cường độ âm thanh I là công suất âm thanh đi qua một đơn vịdiện tích là 1cm2. I = P/S = chúng tôi đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liềnvới nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớnthì công suất, cường độ và áp suât của âm thanh càng lớn.5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao độnglà trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn,âm thanh càng vang to và ngưọc lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viêt tắtlà dB). Trong lờii nói của một người, độ mạnh của âm thanh là yếu tô cơ bản tạo nên âmlượng của âm và trong âm của từ.

4. I = P/S = chúng tôi đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liềnvới nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớnthì công suất, cường độ và áp suât của âm thanh càng lớn.5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao độnglà trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn,âm thanh càng vang to và ngưọc lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viêt tắtlà dB). Trong lờii nói của một người, độ mạnh của âm thanh là yếu tô cơ bản tạo ện tíchlà 1cm2. I = P/S = chúng tôi đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liềnvới nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớnthì công suất, cường độ và áp suât của âm thanh càng lớn.5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao độnglà trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn,âm thanh càng vang to và ngưọc lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viêt tắtlà dB). Trong lờii nói của một người, độ mạnh của âm thanh là yếu tô cơ bản tạo ch là1cm2. I = P/S = chúng tôi đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liềnvới nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớnthì công suất, cường độ và áp suât của âm thanh càng lớn.5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao độnglà trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn,âm thanh càng vang to và ngưọc lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viêt tắtlà dB). Trong lờii nói của một người, độ mạnh của âm thanh là yếu tô cơ bản tạo4. Các dải băng tần tới hạnDải tần số nghe được của con người được phân chia tự nhiên thành các dải băng tần tớihạn, với đặc tính là hệ thống thính giác của con người không thể phân biệt được các âmtrong cùng một băng và diễn ra đồng thời. Băng thông của mỗi băng tần tới hạn làkhoảng 100Hz trong dải tần dưới 500Hz, và tăng tuyến tính trong dải 500 đên chúng tôi dó, tai hoạt động giống như các bộ lọc thông dưới, mỗi bộ lọc cho phép một dải tần sốnhất định đi qua và khóa tât cả các tần sô khác (hình 1.6). Trong thực tế, các đặc điểm ngưỡng nghe, mặt nạ tần số, mặt nạ thời gian và cácdải băng tần giới hạn đặc trưng cho mô hình tâm sinh lý nghe (Psychoacoustics). Ngườita đã lợi dụng các đặc điểm trên để nén thông tin âm thanh (Audio) mà ứng dụng phổbiến nhất trong các chuẩn nén âm thanh MPEG.Câu II: Mô hình chung của hệ thống mã hóa thoại Hình 2.1 minh họa sơ đồ khối một hệ thống mã tiếng nói. Ở đây, tín hiệu thoạitương tự và liên tục theo thời gian từ một nguồn thoại đã cho (chưa nén) được số hóa

14. hình (sự đan xen vào nhau để cải thiện hình ảnh chuyển động, xem bên dưới); 50 đến 60khung trên giây sự chuyển động mượt mà (tuy nhiên chi phí cao cho tôc độ rất cao này)Câu IX: Tổng quan về nén ảnh Việc nén ảnh đưa đến vấn đề về giảm thiểu số lượng dữ liệu yêu câu để tái hiện lạimột ảnh số. Cốt lõi của quá trình rút gọn là loại bỏ dữ liệu dư thừa. Dưới quan điểm toánhọc, số lượng để chuyển đổi chuỗi điểm ảnh 2-D thành một bộ dữ liệu không tương quanvề mặt thống kê. Việc chuyển đổi được ứng dụng trước tiên cho việc lưu trữ hoặc truyềnhình ảnh. Tại một thời điểm sau đó, hình ảnh đã nén được giải nén để tái tạ o lại hình ảnhgốc hoặc gần đúng của nó. Nén ảnh số là một đề tài nghiên cứu rất phổ biến trong lĩnh vực xử lý dữ liệu đaphương tiện. Mục đích là làm thế nào để lưu trữ bức ảnh dưới dạng có kích thước nhỏhơn hay dưới dạng biểu diễn mà chỉ yêu cầu số bit mã hoá ít hơn so với bức ảnh gốc. Nénảnh thực hiện được là do một thực tế: thông tin trong bức ảnh không phải ngẫu nhiên màcó trật tự, có tổ chức. Vì thế, nếu bóc tách được tính trật tự, cấu trúc đó thì sẽ biết đượcphần thông tin nào quan trọng nhất trong bức ảnh để biểu diễn và truyền đi với số lượngbit ít hơn ảnh gốc mà vẫn đảm bảo tính đầy đủ thông tin. Ở phía thu, quá trình giải mã sẽtổ chức, sắp xếp lại được bức ảnh, xâp xỉ gần chính xác so với ảnh gốc nhưng vẫn thoảmãn chất lượng yêu cầu, đảm bảo được thông tin cần thiết. 1. Nguyên tắc cơ bản Phần tử nén ảnh dữ liệu ám chỉ đến quá trình giảm lượng số liệu dư thừa số liệucần thiết để biểu diễn cùng một lượng thông tin cho trước. Độ dư thừa số liệu là vấn đềtrung tâm trong nén ảnh số. Đánh giá cho quá trình thực hiện giải thuật nén là tỉ lệ nén(CN ) được xác định như sau: Nếu N1 và N2 là lượng số liệu trong hai tập hợp số liệu cùngđược dùng để biểu diễn lượng thông tin cho trước thì độ dư thừa số liệu tương đối R D củatập số liệu thứ nhất so với tập số liệu thứ hai có thể được định nghĩa như sau:RD = 1 – 1/ CNtrong đó:C N = N1 / N2 Trong trường hợp N1 = N2 thì CN = 1 và có nghĩa là so với tập số liệu thứ hai thì tậpsố liệu thứ nhất không chứa số liệu dư thừa. Khi N 2 << N1 thì CN tiến tới vô cùng và R Dtiến tới một, có nghĩa là độ dư thừa số liệu tương đối của tập số liệu thứ nhất là khá lớnhay tập số liệu thứ hai đã được nén khá nhỏ. Ở đây có sự kết hợp giữa tỉ lệ nén và chất lượng hình ảnh. Tỉ lệ nén càng cao sẽ làmgiảm chất lượng hình ảnh và ngược lại. Chất lượng và quá trình nén có thể thay đổi tùytheo đặc điểm của hình ảnh nguồn và nội dung ảnh. Đánh giá chất lượng ảnh được đềnghị tính số bit cho một điểm trong ảnh nén (N b). Nó được xác định là tổng sô bit ở ảnhnén chia cho tổng số điểm:Nb = Số bit nén/Số điểmTrong nén ảnh số, ba loại dư thừa số liệu có thể được nhận dạ ng và phân biệt. * Dư thừa mã (Coding Redundancy) Nêu các mức của tín hiệu video được mã hóa bằng các symbol nhiều hơn cần thiết

17. Có hai loại VLC được ứng dụng trong mã hóa ảnh chuẩn, đó là mã hóa Huffman vàmã hóa số học. Mã hóa Huffman được sử dụng trong tất cả các bộ mã hóa (CODEC)chuẩn để giải mã các hệ số biến đổi cosin rời rạc (DCT) đã được lượng tử hóa cũng nhưgiải mã các vec tơ chuyển động. 2. Mã hoá dự đoán không tổn hao: Bây giờ chúng ta quay lại với một phương pháp nén mà nó không yêu cầu việc phântích một ảnh thành một loạt các mặt phẳng bit. Với cách này quy chung lại là mã hoá dựđoán không tổn hao, được dựa trên cơ sở sự rút gọn đa điểm dư thừa của các điểm trongkhông gian gần nhau bằng cách rút ra và mã hoá chỉ với các thông tin mới trong mỗiđiểm ảnh. Thông tin mới của một điểm ảnh mô tả sự khác nhau giữa các giá trị dự đoánvà thực tế của điểm ảnh đó. Hình 1 chỉ ra các thành phàn cơ bản của một hệ thống mã hoá dự đoán không tổn hao.Hệ thống này bao gồm một bộ mã hoá và một bộ giải mã, mỗi khối chứa một bộ dự đoánđồng nhất. Với mỗi điểm ảnh lần lượt của ảnh đầu vào, biểu thị bằng f n , được đưa vàotrước tiên trong bộ mã hoá, bộ dự đoán t ạo ra một giá trị dự đoán tước của điểm ảnh trêncơ sở số các đầu vào cũ. Đầu ra của bộ dự đoán sau đó được làm tròn thành giá trị nguyên gần nhất, biểu thịbởi fn, và được sử dụng để tạo ra sự khác biệt hoặc lỗi dự đoán.Hình 11: Mã hoá dự đoán không tổn hao: (a) Bộ mã hoá (b) Bộ giải mã Sự khác biệt được mã hoá sử dụng mã hoá loạt dài thay đổi (bằng bộ mã hoá biểutượng) để tạo ra thành phần tiếp theo của dòng dữ liệu đã nén. Bộ giải mã trong hình 1(b) tái tạo từ các từ mã loạt dài thay đổi nhận được và thực hiện quá trình đảo:Câu XI: Các phương pháp mã hoá dùng trong kỹ thuật nén có tổn thất Không như phương pháp nén không tổn thất được đưa ra ở phân trước, nén tổn thấtđược xây dựng trên cơ sở độ chính xác của việc khôi phục lạ i ảnh trong lúc trao đổinhằm tăng hiệu quả nén. Nếu kết quả không chính xác (có thể được hiển thị rõ ràng hoặckhông) có thể chấp nhận được, sự tăng dần trong việc nén là đáng kể. 1. Mã hoá dự, đoán có tổn thất Như hình 1 chỉ ra, bộ lượng tử, bộ thu toàn bộ chức năng của bộ mã hoá lỗi tự nhiên, được chèn vào giữa bộ mã hoá biểu tượng và điểm mà lỗi dự đoán được tạo ra. Nó ánh xạ lỗi dự đoán tại khoảng giới hạn đầu ra, biểu thị là e n, điều thiết lập sự liên đới giữa nén và kết hợp méo với mã hoá dự đoán tổn hao. Mã hóa DPCM (Differential Pulse Code Modulation) Đây là phương pháp mã hóa dự đoán có tổn thất dựa trên nguyên tắc phát hiện sự giống nhau và khác nhau giữa các điểm ảnh (pixels) gần nhau để tìm cách loại

18. bỏ các thông tin thừa. Phương pháp DPCM còn sử dụng đặc điểm của mắt người (kém nhạy với mức lượng tử có chênh lệch về độ chói giữa điểm ảnh gần nhau, so với mức lượng tử hóa chênh lệch nhỏ) và cho phép dùng đặc trưng phi tuyến về lượng tử hóa. Hình vẽ 2 mô tả sơ đồ khối của bộ mã hóa và giải mã DPCMHình 11.1: Mô hình mã hóa dự đoán có tổn thất (a): bộ mã hoá, (b): bộ giải mã 2. Mã hoá biến đổi (transform coding) Trong mã hoá biến đổi, một dòng đảoo ngược chuyển đổi (như biến đổi Fourier)được sử dụng để ánh xạ một ảnh vào một hệ số biến đổi, phân mà sau đó sẽ được lượngtử hoá và mã hoá. Cho hầu hết các ảnh tự nhiên, một số lớn đáng kể các hệ số cường độnhỏ và được lượng tử thô (hoặc loại bỏ hoàn toàn) với ảnh méo nhỏ. Sự đa dạng trongbiến đổi, bao gồm biến đổi rời rạc Fourier (DFT) có thể được sử dụng để biến đổi dữ liệuảnh. Hình 3 chỉ ra hệ thống mã hoá chuyển đổi đặc trưng. Bộ giải mã thi hành bước đảochuỗi (với sự loại bỏ thuật toán lượng tử) của bộ giải mã, bộ này thực hiện bốn hoạt độngcân xứng đơn giản: Phân tích ảnh nhỏ, biến đổi, lượng tử hoá và mã hóa.Một ảnh đầu vào kích cỡ N×N đầu tiên được chia nhỏ ra thành các ảnh nhỏ cỡ n× n, sauđó được chuyển đổi để tạo ra mạng chuyển đổi ảnh nhỏ, mỗi phần có kích cỡ n× n. Mụcđích của quá trình chuyển đổi là để sắp đặt mối tương quan của các điểm ảnh của mỗi ảnhnhỏ, hoặc để gói nhiều thông tin nhất có thể vào một số nhỏ nhất hệ số chuyển đổi. Cuốiquá trình mã hoá là việc mã hoá (thường sử dụng mã hoá loạt dài) các hệ số lượng tử. Bấtkỳ hay toàn bộ các bước mã hoá chuyển đổi có thể thích ứng với nội dung vùng ảnh gọilà mã hoá chuyển đổi thích ứng hoặc sửa đổi toàn bộ ảnh nhỏ gọi là mã hoá chuyển đổikhông thích ứng.Hình 11.2: Hệ thống mã hóa biến đổi 3.Mã hoá Wavelet Mã hóa Wavelet dựa trên ý tưởng của mã hóa biến đổi, thay vì nén trực tiếp cácđiểm ảnh (pixel) thì nén các hệ số sau khi biến đổi. Điểm khác nhau cơ bản là Waveletkhông chia ra các ảnh con trước khi biến đổi. Wavelet là phép biến đổi được sử dụng đểphân tích các tín hiệu không ổn định (non-stationary) – là những tín hiệu có đáp ứng tầnsố thay đổi theo thời gian. Để khắc phục những hạn chế của biến đổi Fourier (FT), phépbiến đổi Fourier thời gian ngắn (STFT) được đề xuất. Chỉ có một khác biệt nhỏ giữaSTFT và FT là trong biến đổi STFT, tín hiệu được chia thành các khoảng nhỏ và trongkhoảng đó tín hiệu được giả định là tín hiệu ổn định. Để thực hiện kỹ thuật này cần chọnmột hàm cửa sổ w sao cho độ dài của cửa sổ đúng bằng các khoảng tín hiệu phân chia.Với phép biến đổi STFT, chúng ta có thể thu được đáp ứng tần số – thời gian của tín hiệuđồng thời mà với phép biến đổi FT ta không thực hiện được. Biến đổi STFT đối với tín hiệu liên tục thực được định nghĩa như sau:X ( f , t ) =∫ [x (t )w (t -τ)] . e-2jᴨf dt

19. Trong dó độ dài thời gian của cửa sổ là (t-τ), chúng ta có thể dịch chuyển vị trí củacửa sổ bằng cách thay đổi giá trị t và để thu được các đáp ứng tần số khác nhau của đọantín hiệu ta thay đổi giá trị τ. Trên cơ sở cách tiếp cận biến đổi STFT, biến đổi Wavelet được phát triển để giảiquyết vấn đề về độ phân giải tín hiệu (miền thời gian hoặc tần số) mà STFT vãn còn hạnchế. Biến đổi Wavelet được thực hiện theo cách: tín hiệu được nhân với hàm Wavelet(tương tự như nhân với hàm của số trong biến đổi STFT), rồi thực hiện biến đổi riêng rẽcho các khoảng tín hiệu khác nhau trong miền thời gian tại các tần số khác nhau. Cáchtiếp cận như vậy còn được gọi là: phân tích đ phân giải MRA (Multi ResolutionAnalysis): phân tích tín hiệu ở các tần số khác nhau và cho các độ phân giải khác chúng tôi khi phân tích tín hiệu cho phép: phân giải thời gian tốt và phân giải tần số kém ởcác tần số cao; phân giải tần số tốt và phân giải thời gian kém ở các tần số thấp.Như vậy kỹ thuật này rất thích hợp với những tín hiệu: có các thành phần tần số cao xuấthiện trong khoảng thời gian ngắn, các thành phần tần số thấp xuất hiện trong khoảng thờigian dài chẳng hạn như ảnh và khung ảnh video.Hình 3 minh hoạ một hệ thống mã hoá WaveletCâu 12: Nén trong ảnh1. Nguyên lý Nén trong ảnh nhằm giảm bớt thông tin dư thừa trong miên không gian. Sử dụng cảhai quá trình nén có tổn hao và nén không tổn hao. Không sử dụng thông tin của các ảnhtrước và sau ảnh đang xét.Hình 12.1: Nén trong ảnh (Intra Frame Compression)2. Tiền xử lý Trước khi thực hiện biến đổi DCT, cả ảnh được chia thành các khôi lớn riêng biệtkhông chồng lên nhau (MB – Macro Block). Mỗi MB bao gôm 4 block các mẫu tín hiệuchói UY và 2; 4 hoặc 8 block các mẫu tín hiệu số màu (CR, CB). Số các block của tínhiệu màu phụ thuộc vào tiêu chuẩn của tín hiệu video. Các block có cùng kích thước, mỗiblock là một ma trận điểm ảnh 8×8 được lấy mẫu từ màn hình từ trái sang phải, từ trênxuống dưới. Câu trúc MB phụ thuộc vào loại quét ảnh. Nếu quét liên tục thì các block bao gồmcác mẫu từ các dòng liên tục (nén theo ảnh – frame). Ngược lại trong trường hợp quétxen kẽ, trong 1 block chỉ có các mẫu của một nửa ảnh trên (nén theo mành – field).3.Quá trình biến đổi Cosin rời rạc Biến đổi Cosin rời rạc (DCT) xử lý các giá trị của khối các diểm ảnh dưới một khốicác hệ số trong miền tần số. Quá trình mã hoá DCT một chiều gồm 8 điểm ảnh biểu diễn tín hiệu chói trong tiêuchuẩn lấy mẫu 4:2:2. Sự thay đổi đố dọc theo 8 bit trong phạm vi dải tần số từ 0 đếnf/2=6.75 MHz. Mã hoá DCT chia phổ này thành 8 dải băng nhỏ hơn. Tương ứng với mọigiải băng tần có một số đặc trưng cho năng lựơng tín hiệu trong dải băng tần đó. Giá trị đầu tiên bên trái đặc trưng cho mức giá trị thành phần một chiều của tín hiệugọi là hệ số DC. Từ trái sang phải, các hệ số lần lượt biểu diễn các thành phần tần số caohơn trong tín hiệu ban đầu gọi là hệ số AC.

20. Phép biến đổi DCT hai chiều cho mức giải tương quan bức ảnh cao hơn, cho phépbiến đổi cho khối 8×8 giá trị các điểm chói.Quá trình mã hoá thuận cho khối 8×8 được xác định.Trong dó: f( i,j ) là các hàm mẫu ban đầu trong khối 8×8 điểm chóiF( u,v ) là các hệ số biến đổi DCT khối 8×8.u là tần số chuẩn hoá theo chiều ngang ( 0<u<7 )v là tần số chuẩn hoá theo chiều đứng ( 0<v<7 )Quá trình biến đổi DCT không giảm tốc độ dòng số liệu và tính chất đảo ngược (InverseDCT) tái tạo lại chính xác giá trị điểm ảnh ban đầu nếu các hệ số DCT giữ nguyên.4. Lượng tử hoá khối DCT Quá trình lượng tử hoá khối DCT đóng vai trò quan trọng trong việc thiết kế hệ thốngnén video vì việc nó ảnh hưởng trực tiếp đến việc tái tạo lại hình ảnh. Thành phần DC vàtần số thấp là các thông số có ý nghĩa nhất của khối điểm ảnh ban đầu. Hệ số DC đượclượng tử với độ chính xác 12 bit để tránh các nhiễu xuất hiện giữa các khối điểm ảnh.Trong khi hệ số tương ứng với thành phần tần số cao được lượng tử với độ chính xác 2bit (do khả năng cảm nhận ở mắt người giảm). Ảnh càng chi tiết thì hệ số thành phần tầnsố càng lớn, có thể tràn bộ nhớ đệm nếu hệ số trong bảng lượng tử quá thấp.5. Mã hoá Entropy Mã hoá entropy làm tăng độ phức tạp, yêu cầu bộ nhớ lớn hơn so với mã có độ dài cốđịnh và tốc độ bít thay đổi theo thời gian. Khi phân bố xác suất càng lệch khỏi phân bốđều thì xuất hiện càng tăng nhờ mã hoá entropy.6. Bộ nhớ đệmCác từ mã RLC tạo ra dòng số liệu với tốc độ biến đổi, phụ thuộc vào độ phức tạp củaảnh được mã hoá. Số liệu này được ghi vào bộ nhớ đệm, các bit số liệu sẽ được đọc ra từbộ nhớ đệm này với một tốc độ cố định theo bộ mã hoá. Bộ nhớ đệm không được tràn,rỗng. Quá trình điều khiển được thực hiện bằng trọng số. Nếu bộ nhớ đệm đầy, quá trìnhlượng tử hoá được thực hiẹn với mức biểu diễn bit ít hơn nhằm tạo ra tốc độ dòng bit nhỏlại bằng cách tăng hệ số cân bằng của bộ lượng tử.7. Giải mã DCTQuá trình lượng tử hoá ngược được tiến hành theo biểu thức:Các hệ số sẽ được biến đổi ngược (IDCT) bằng quá trình f( j,k ) để tạo lại khối giá trị cácđiểm ban đầu theo biểu thức:

21. Hình 12.2: Giải mã DCTCâu 13: Nén liên ảnh 1. Mô hình Ảnh động là một xâu gồm nhiều ảnh tĩnh, mỗi ảnh tĩnh tồn tại trong một khung ảnh(frame); bản chất của sự chuyển động của một đối tượng trong xâu: đó là sự thay đổi vịtrí tương đối (toạ độ ngang và dọc) của nó trong từng frame.Hình 13.1: Mô hình nén liên ảnh Vì một chuỗi ảnh liên tục, lượng thông tin chứa trong mỗi ảnh rất ít từ ảnh này đếnảnh khác. Do đó việc tính toán dự định chuyển vị trí của nội dung ảnh là yếu tố quantrọng của kỹ thuật nén ảnh. Đặc điểm của nén liên ảnh là làm xâp xỉ, bù chuyển động vànén trong ảnh, ý tưởng đó được xây dựng như trong hình 1. 2. Kỹ thuật dự đoán bù chuyển động Ngoài sự thay đổi vị trí toạ độ, sự thay đổi về cường độ sáng của đối tượng ảnh từfrane này tới frame khác cũng tạo nên ảnh chuyển động. Trong kỹ thuật bù chuyển động,ảnh của frame hiện hành được dự báo từ ảnh của frame kề trước bằng cách làm xâp xỉchuyển động giữa hai frame và bù chuyển động đó: sự khác nhau giữa frame hiện hànhvà frame dự báo được gọi là phân dư thừa bù chuyển động; và kỹ thuật nén liên ảnh chínhlà dựa vào việc mã hoá phân dư thừa bù chuyển động này. Cường độ chói màu của ảnh còn gọi là năng lượng hiển thị hình ảnh. Đối với ảnhđộng, đặc trưng về năng lượng ảnh của phần dư thừa bù chuyển động thấp hơn nhiều sovới ảnh gốc. Do đó, việc mã hoá phần dư thừa thay vì mã hoá cả xâu ảnh video nên đãgiúp tránh được phân dư thừa này bị mã hoá lặp nhiều lần. Sự đánh giá chuyển động củaảnh có thể thực hiện trên toàn khung: người ta chia mỗi khung thành các ô màu nhỏ(thường lấy 8×8 pixel/1ô), sau đó đánh giá chuyển động của từng ô. Phép xấp xỉ và bù chuyển động chính là giải quyết hai yêu câu: (1) là Phải xác địnhbiên và khoảng dịch chuyển của vùng ảnh chuyển động giữa hai khung. (2) là Phải xácđịnh cái gì được điền vào không gian trống do vùng ảnh đã chuyển động. trong hệ thốngmã hoá nén và giải mã nén: đầu tiên bộ giải mã phải lưu ảnh trước trong khi tạo lại ảnhtiếp theo; khi bộ mã hoá thực hiện mã hoá khung 2 thì đồng thời phải tạo lại mỗi ảnh (saukhi mã hoá nó) để dự báo cho bộ giải mã tạo lại ảnh này vì bộ giải mã không có chứcnăng tạo lại các ô màu bù chuyển động. Phương pháp dự đoán để tìm ra các chi tiết ảnh thay thế giữa hai khung hình (frame)liền kề và tạo ra một vector chuyển động, vector chuyển động sẽ phối hợp với các ô ởtrong biên biểu diễn vùng chuyển động được mã hoá trước đó để lập lại các ô này tại vịtrí mới của ảnh. Các ô mẫu ở vị trí hiện tại sẽ phối hợp trong số các ô của khung ảnhtrước đó, sử dụng chúng như là thành phần dự đoán trong bảng mã hoá đã được thiết lậptrước đó: thành phần dự đoán này được lấy từ đầu vào của khung trước để tạo ra một

23. thoại di động số ở khu vực Bắc Mỹ bao gồm cả hệ thống đa truy nhập phân chia theo thời gian – TDMA và đa truy nhập phân chia theo mã – CDMA. * Viện tiêu chuẩn viễn thông Châu Âu (ETSI): ETSI có các thành viên từ các nước Châu Âu và các công ty và là một tổ chức chính của các nhà sản xuất thiết bị viễn thông. ETSI được tổ chức theo các ứng dụng và nhóm có ảnh hưởng lớn nhất trong mã hóa thoại là nhóm đặc nhiệm về di động GSM – có một số tiêu chuẩn hữu dụng và được ứng dụng triển khai ở nhiều nơi trên thế giới. * Bộ quốc phòng Hoa Kỳ (DOD): DOD tham gia thiết lập các tiêu chuẩn mã hóa thoại, và được biết đến như là những tiêu chuẩn của Liên hợp chủng quốc Hoa Kỳ, được ứng dụng chủ yếu trong quân sự. * Trung tâm nghiên cứu và phát triển cho hệ thống vô tuyến của Nhật Bản (RCR): Các tiêu chuẩn về di động số ở Nhật Bản được xây dựng bởi RCR.Câu 14: Các chuẩn mã hóa âm thanh 1. Các chuẩn mã hóa âm thanh ISO/MPEG Từ năm 1988, Tổ chức ISO/MPEG đảm trách việc tiêu chuẩn hóa các kỹ thuật nénâm thanh và hình ảnh. Nội dung nghiên cứu chính của việc chuẩn hóa là mã hóa âm thanhvà hình ảnh cho các phương tiện lưu trữ số bao gồm CD-ROM, DAT, đĩa quang từ MOvà ổ cứng máy tính. MPEG, viêt tắt của cụm từ “Moving Picture Experts Group”, là một nhóm chuyênn.cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn ISO/IEC.Ngày nay, nhóm làm việc MPEG đã phát triển và phát hành các tiêu chuẩn MPEG-1,MPEG-2 và chúng tôi chỉ là một tên riêng, tên chính thức của nó là: ISO/IECJTC1 SC29 WG11. MPEG mô tả nén tín hiệu âm thanh sử dụng các mô hình nén theo nhận thức, đưa ramột hệ với ba mô hình nén âm thanh đơn giản là Layer I, Layer II và Layer III theo mứcđộ tăng lên của độ phức tạp và khả năng thực hiện (chất lượng âm thanh theo dòng bít)của bộ mã hóa. Ba bộ mã hóa này tương thích vứi nhau theo cách có thứ tự, có nghĩa làbộ giải mã Layer N có khả năng giải mã dòng dữ liệu được mã hóa trong Layer N và tấtcả các Layer thấp hơn N. Đối với mỗi Layer, tiêu chuẩn nêu chuẩn dòng bít và bộ giải mã. Tât cả các LayerSử dụng cùng cấu trúc. Mô hình mã hóa có thể được mô tả như định dạng nhiễu nhậnthức hay chuyển đổi mã hóa băng phụ theo nhận thức. Bộ mã hóa phân tích thành phầnPhổ của tín hiệu âm thanh bằng cách tính dải lọc và áp dụng mô hình âm thanh cảm nhậnĐể xác định mức nhiễu có thể nghe thấy. Trong giai đọan lượng tử hóa và mã hóa, bộ mãhóa sễ cố gắng để chỉ rõ sô bít dữ liệu cần để đáp ứng cả yêu câu dòng bít và hiện tượngche lấp. Bộ giải mã đơn giản hơn, nhiệm vụ chính là tổng hợp tín hiệu âm thanh từ cácthành phần phổ được mã hóa.4.2.2. Doby AC-3Doby AC-3 (Doby Digital Audio Coding) là chuẩn nén âm thanh được sử dụng trongnhiều bộ phim ở rạp hát, ở nhà, và trong truyên hình chất lượng cao HDTV ở nước Mỹ.AC-3 mã hoá một tín hiệu âm thanh kênh 5.1 vào thành luồng bit 384 Kbps. Giai đọanđầu tiên của bộ giải mã hoá AC-3 là lây 512 mẫu đầu vào và áp dụng biến đổi MDCT. Để

26. câu lưu trữ trong quá trình mã hóa và giải mã. Một tác động khác của điều này là những hình ảnh có the tốn mất nhiều thời gian hơn khi lưu trữ và hiển thị.Câu 16: Các chuẩn nén video MPEG1. MPEG-1Chuẩn đầu tiên được đưa ra bởi MPEG, có tên gọi phổ biến là MPEG-1, được thiết kế đểcung cấp việc nén video và audio cho việc lưu trữ và phát lại trên các CD-ROM. ChuẩnMPEG-1 bao gồm 3 phần. Phần 1 đề cập tới các vấn đề hệ thống (bao gồm cả ghép kênhvideo và audio đã mã hóa), phần 2 đề cập tới video nén và phần 3 là về audio nén.Các đặc tính của MPEG-1Tín hiệu video đầu vào tới một bộ mã hóa video MPEG-1 có khuôn dạng là 4:2:0(Y:Cr:Cb) với độ phân giải không gian thông thường là 352×288 hoặc 352×240 pixels.Mỗi khung video được mã hóa để tạo ra một bước ảnh mã hóa. Có 3 loại chính: các ảnh I,các ảnh P và các ảnh B. (Chuẩn này còn xác định thêm một loại ảnh là ảnh D nhưng loạinày hiếm khi sử dụng trong các ứng dụng thực tế).Ảnh loại I: không có dự đoán bù chuyển động. Ảnh loại I được sử dụng để làm thamkhảo cho những ảnh dự đoán xa hơn.Ảnh loại P: sử dụng dự đoán bù chuyển động từ một ảnh tham khảo. Do đó một ảnh loạiP được dự đoán sử dụng dự đoán chuyển tiếp và bản thân một ảnh P có thể được sử dụnglàm tham khảo cho các ảnh dự đoán xa hơn.Ảnh loại B: sử dụng dự đoán bù chuyển động từ 2 ảnh tham khảo, ảnh P và/hoặc ảnh Itrước và sau ảnh B hiện tại. Thông thường, một bộ mã hóa sẽ chọn một chế độ dự đoán(chuyển tiếp, hồi tiếp hay hai chiều) sao cho tạo ra được năng lượng thấp nhất trongmacroblock sai phân. Bản thân các ảnh loại B không được sử dụng như các tham khảo dựđoán cho bất kỳ khung dự đoán xa hơn nào.Chuẩn MPEG-1 không thực sự định nghĩa thiết kế của một bộ mã hóa: thay vào đó,chuẩn này mô tả cú pháp mã hóa và một bộ giải mã ‘tham khảo’ giả thuyết. Trong thựctế, cú pháp và chức năng được mô tả bởi chuẩn có ý nghĩa rằng một bộ mã hóa phải chianhững chức năng nhất định.2. MPEG-2Ứng dụng giải trí quan trọng tiếp theo của video mã hóa (sau lưu trữ CD-ROM) là truyềnhình số. Để cung cấp một số lựa chọn cải tiến cho truyên hình tương tự, một vài đặc tínhchủ yếu đã được yêu cầu đối với nguyên lý mã hóa video. Nó phải hỗ trợ hiệu quả cáckích thước khung lớn hơn (thường là 720×576 hay 720×480 pixel cho độ phân giải củaITU-R 601) và mã hóa video kêt hợp. Với những độ phân giải chất lượng truyền hình,video kết hợp tạo ra hình ảnh video mịn hơn. MPEG-2 đã ra đời nhằm đáp ứng nhữngyêu câu này.MPEG-2 bao gồm 3 phân chính: Video, Audio (dựa trên mã hóa audio của MPEG- 1) vàSystems (định nghĩa, những phần chi tiết hơn MPEG-1, ghép kênh và truyền luồngaudio/visual mã hóa). Những điểm nâng cao được thêm vào bởi MPEG-2 bao gồm:  Mã hóa hiệu quả video với chất lượng truyền hình  Hỗ trợ mã hóa video kết hợp