[딥러닝] RNN_기본(1)
Tokenizationtext를 컴퓨터에 어떻게 저장할 것인지 나누는 방법 ASCIIchar = 1 byte로 나타내는 방법UTF-8 (Unicode) 1~4 byte를 사용해서 다양한 방법으로 encoding (ASCII보다 많이 표현가능) Tokenization methodstext를 token 단위로 나누는 것 모든 token의 집합 ( vocabulary ) = Vunique한 token의 개수 = |V| Chracter-based TokenizationInput: "i hate programming"Tokenized: ['i', ' ', 'h', 'a', 't', 'e', ' ', 'p', 'r', 'o', 'g', 'r', 'a', 'm', 'm', 'i', 'n', 'g'] Word b..