컴퓨터 공학 기초
컴퓨터 공학
컴퓨터 공학 기초
문자열
유니코드
유니코드 협회가 제정하는 전 세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된 산업 표준. ISO 10646 문자 집합, 문자 인코딩, 문자 정보 데이터베이스, 문자를 다루기 위한 알고리즘 등을 포함. 기본적으로 유니코드의 목적은 현존하는 문자 인코딩 방법을 모두 유니코드로 교체하는 것.
- 인코딩(부호화)
어떤 문자나 기호를 컴퓨터가 이용할 수 있는 신호로 만드는 것. 이 신호를 입력하는 인코딩과 문자를 해독하는 디코딩을 하기 위해서는 미리 정해진 기준을 바탕으로 입력과 해독이 처리되어야 한다. 인코딩과 디코딩의 기준을 문자열 세트 또는 문자셋이라 하고, 이 문자셋의 국제 표준이 유니코드이다.
ASCII
영문 알파벳을 사용하는 대표적인 문자 인코딩. 7비트로 모든 영어 알파벳을 표현할 수 있다. 52개의 영문 알파벳 대소문자, 10개의 숫자, 32개 특수문자, 하나의 공백을 포함. ASCII를 확장한 형태가 유니코드
UTF-8 & UTF-16
인코딩 방식의 차이. UTF- 뒤의 숫자는 비트를 의미한다.
UTF-8
- 가변 길이 인코딩: 유니코드 한 문자를 나타내기 위해 1byte(8bit)에서 4byte까지 사용.
- 바이트 순서가 고정됨: UTF-16에 비해 바이트 순서를 따지지 않고, 순서가 정해져 있다.
UTF-16
- 코드 그대로 바이트로 표현 가능: 유니코드 대부분(U+0000부터 U+FFFF; BMP)을 16bit로 표현. 대부분에 속하지 않는 기타 문자(이모지 등)는 32bit(4byte)로 표현하므로 가변길이라고 할 수 있으나, 대부분 2바이트로 표현
- 바이트 순서 다양함: 이진법으로 표현된 문자를 16bit(2byte)로 그대로 사용하며, 바이트 순서에 따라 UTF-16의 종류도 달라진다.
한글은 UTF-8에서 3바이트, UTF-16에서 2바이트 차지한다.
그래픽
- | 비트맵(래스터) | 벡터 |
---|---|---|
기반 기술 | 픽셀 기반 | 수학적으로 계산된 Shape 기반 |
특징 | 사진과 같이 색상의 조합이 다양한 이미지에 적합 | 로고, 일러스트와 같이 제품에 적용되는 이미지에 적합 |
확대 | 확대에 적합하지 않음. 보다 큰 사이즈의 이미지가 필요할 때 사용하려는 크기 이상으로 생성하거나 스캔하야 함 | 품질 저하 없이 모든 크기로 확대 가능하며, 해상도의 영향을 받지 않음 |
크기(dimension)에 따른 파일 용량(file size) | 큰 크기의 이미지는 큰 파일 사이즈를 가짐 | 큰 크기의 벡터 그래픽은 작은 파일 사이즈를 유지할 수 있음 |
상호 변환 | 이미지의 복잡도에 따라 벡터로 변환하는 것에 오랜 시간이 필요 | 쉽게 래스터 이미지로 변환 가능 |
대표적인 파일 포맷 | jpg, gif, png, bmp, psd | svg, ai |
웹에서의 사용성 | jpg, gif, png | svg 포맷은 현대의 브라우저에서 대부분 지원 |
운영체제
하드웨어에게 일을 시키는 주체
운영체제가 하는 일
시스템 자원 관리
응용 프로그램은 컴퓨터를 이용해 다양한 작업을 하는 것이 목적이고, 운영체제는 응용 프로그램이 하드웨어에게 일을 시킬 수 있도록 도와준다.
- 프로세스 관리(CPU)
- 메모리 관리
- I/O(입출력) 관리(디스크, 네트워크 등)
응용 프로그램 관리
모든 응용 프로그램이 시스템의 자원을 마음대로 사용하면, 해커에 의한 공격에 무방비한 상태가 된다. 보안을 위해 응용 프로그램은 권한에 대한 관리가 필요하다. 또한 여러 사람이 하나의 기기를 사용할 경우에는 사용자를 관리하는 일도 중요하다.
응용 프로그램
운영체제를 통해 컴퓨터에게 일을 시키는 것
- 응용 프로그램이 운영체제를 통해 컴퓨터에게 일을 시키려면 컴퓨터를 조작할 수 있는 권한을 운영체제로부터 부여받아야 한다.
- 응용 프로그램이 운영체제와 소통하기 위해 운영체제가 응용 프로그램을 위해 인터페이스(API)를 제공해야 한다.
- 시스템 콜(System call) : 응용 프로그램이 시스템 자원을 사용할 수 있도록, 운영체제 차원에서 다양한 함수를 제공하는 것
프로세스
운영체제에서 실행 중인 하나의 애플리케이션. 예를 들어 크롬 브라우저를 두 개 실행하면, 두 개의 프로세스가 생성된다. 하나의 어플리케이션은 여러 프로세스(다중 프로세스)를 만들기도 한다.
스레드
한 가지 작업을 실행하기 위해 순차적으로 실행한 코드. 하나의 스레드는 코드가 실행되는 하나의 흐름이기 때문에, 한 프로세스 내에 스레드가 두 개라면, 코드가 실행되는 흐름이 두개 생긴다는 의미.
- 프로세스 내에서 실행되는 흐름의 단위
- 각 스레드마다 call stack이 존재(call stack: 실행 중인 서브루틴을 저장하는 자료 구조)
- 스레드는 다른 스레드와 독립적으로 동작
멀티 스레드
애플리케이션 내부에서의 멀티 태스킹
멀티 태스킹이 멀티 프로세스를 의미하는 것은 아니다. 하나의 프로세스 내에서 멀티 태스킹을 할 수 있도록 만들어진 애플리케이션도 있다. 멀티 스레드는 하나의 프로세스에서 두 가지 이상의 작업을 처리할 수 있도록 한다.
사용 예시
- 대용량 데이터의 처리 시간을 줄이기 위해 데이터를 분할하여 병렬로 처리
- UI를 가지고 있는 애플리케이션에서 네트워크 통신을 하기 위해 사용
- 여러 클라이언트의 요청을 처리하는 서버 개발할 때 사용
장점
- 프로세스를 이용하여 동시에 처리하던 일을 스레드로 구현할 경우 메모리 공간과 시스템 자원의 소모 줄어든다.
- 스레드 간 통신이 필요한 경우 별도의 자원을 이용하는 것이 아닌 전역 변수의 공간 또는 동적으로 할당된 Heap 영역 사용.
- 프로세스 간 통신 방법(IPC)에 비해 스레드 간의 통신 방법이 훨씬 간단.
- 시스템 처리량이 향상되고 자원 소모가 줄어들어 프로그램 응답 시간 단축
단점
- 멀티 스레딩 기반 프로그래밍은 공유하는 자원에 대하여 고민이 필요
- 서로 다른 스레드가 같은 데이터에 접근하고, 힙 영역을 공유하기 때문에 서로 다른 스레드가 서로 사용 중인 변수나 자료구조에 접근하여 엉뚱한 값을 읽어오거나 수정하는 일이 발생 할 수 있다.
- 동기화 작업이 필요
- 작업 처리 순서 제어
- 공유 자원에 대한 접근 제어
동시성 & 병렬성
동시에 돌릴 수 있는 스레드 수는 컴퓨터의 코어 개수로 제한됨. 운영체제는 각 스레드를 시간에 따라 분할하여, 여러 스레드가 일정 시간마다 돌아가면서 실행되도록 하는 방식을 시분할이라고 한다.
- Concurrency(동시성, 병행성) : 여러 개의 스레드가 시분할 방식으로 동시에 수행되는 것처럼 착각을 불러일으킴
- Parallelism(병렬성) : 멀티 코어 환경에서 여러 개의 스레드가 실제로 동시에 수행됨
Context Switching
다른 태스크(프로세스, 스레드)가 시작할 수 있도록 이미 실행 중인 태스크를 멈추는 것
가비지 컬렉션
프로그램에서 더 이상 사용하지 않는 메모리를 자동으로 정리하는 것. 자바, C#, 자바스크립트에 내장.
가비지 컬렉션 방법
- 트레이싱 : 한 객체에 flag를 두고, 가비지 컬렉션 사이클마다 flag에 표시후 삭제하는 mark and sweep 방법. 객체에 in-use flag를 두고, 사이클마다 메모리 관리자가 모든 객체를 추적해서 사용중인지 표시(mark)하고, 표시되지 않은 객체를 삭제(sweep)하여 메모리 해제
- 레퍼런스 카운팅 : 한 객체를 참조하는 변수의 수를 추적하는 방법. 객체를 참조하는 변수는 처음에는 특정 메모리에 대해 레퍼런스가 하나뿐이지만, 변수의 레퍼런스가 복사될 때마다 레퍼런스 카운트가 증가한다. 객체를 참조하고 있던 변수의 값이 바뀌거나, 변수 스코프를 벗어나면 레퍼런스 카운트 감소. 레퍼런스 카운트가 0이 되면 객체와 관련된 메모리 비움.
캐시
많은 시간이나 연산이 필요한 작업의 결과를 저장해두는 것을 의미
컴퓨팅에서 캐시는 일반적으로 일시적인 데이터를 저장하기 위한 목적으로 존재하는 고속의 데이터 저장 공간. 캐싱을 사용하면 이전에 검색하거나 계산한 데이터를 효율적으로 재사용할 수 있다.
작동원리
캐시의 데이터는 일반적으로 RAM과 같이 빠르게 엑세스할 수 있는 하드웨어에 저장되며, 소프트웨어 구성 요소와 함께 사용될 수 있다. 기본 스토리지 계층(SSD, HDD)에 엑세스하여 데이터를 가져오는 더 느린 작업의 요구를 줄이고, 데이터 검색의 성능을 높인다. 영구적인 데이터가 있는 데이터베이스와 대조적.
장점
- 애플리케이션 성능 개선
- 데이터베이스 비용 절감
- 백엔드 부하 감소
- 예측 가능한 성능
- 데이터베이스 핫스팟 제거
- 읽기 처리량 증가
사용 예시
- 클라이언트: HTTP 캐시 헤더, 브라우저
- 네트워크: DNS 서버, HTTP 캐시 헤더, CDN, 리버스 프록시
- 서버 및 데이터베이스: 키-값 데이터 스토어(e.g. Redis), 로컬 캐시(인-메모리, 디스크)