汉字的数量并没有准确数字,大约将近十万个(北京国安咨讯设备公司汉字字库收入有出处汉字91251个),日常所使用的汉字只有几千字。据统计,1000个常用字能覆盖约92%的书面资料,2000字可覆盖98%以上,3000字则已到99%,简体与繁体的统计结果相差不大。
关于汉字的数量,根据古代的字书和词书的记载,可以看出其发展情况。
秦代的《仓颉》、《博学》、《爰历》三篇共有3300字;汉代扬雄作《训纂篇》有5340字,到许慎作《说文解字》就有9353字了;据唐代封演《闻见记·文字篇》所记,晋吕忱作《字林》有12824字,后魏杨承庆作《字统》有13734字,南朝时顾野王所撰的《玉篇》据记载共收16917字,在此基础上修订的《大广益会玉篇》则据说有22726字;唐代孙强增字本《玉篇》有22561字。宋代司马光修《类篇》多至31319字,宋朝官修的《集韵》中收字53525个,曾经是收字最多的一部书;清代《康熙字典》有47000多字了;1915年欧阳博存等编著的《中华大字典》有48000多字;1959年日本诸桥辙次主编的《大汉和辞典》有49964字;1971年张其昀主编的《中文大辞典》有49888字;1990年徐仲舒主编的《汉语大字典》有54678字;1994年冷玉龙等编著的《中华字海》有85000字。台湾地区教育主管机关编撰的《异体字字典》第五版,内容含正字与异体字,共106230字,是收录较多汉字的字典。蓝德康和松冈荣志主编的《汉字海》是目前世界上收录汉字最多的工具书,正文收列字头单字102434个,附录收列字头单字11112个。
历史上出现过的汉字总数有8万多(也有6万多的说法),其中多数为异体字和罕用字。绝大多数异体字和罕用字已被规范掉,除古文之外一般只在人名、地名中偶尔出现。此外,继第一批简化字后,还有一批“二简字”,已被废除,但仍有少数字在社会上流行。
如果学习和使用汉字真的需要掌握七八万个汉字的音形义的话,那汉字将是世界上没人能够也没人愿意学习和使用的文字了。但是《中华字海》一类字书里收录的汉字绝大部分是“死字”,也就是历史上存在过而今天的书面语里已经废置不用的字。据统计,十三经(《易经》、《尚书》、《公羊传》、《论语》、《孟子》等13部典籍)全部字数为589283个字,其中不相同的单字字数为6544个字。因此,实际上人们日常使用的汉字不过六千多而已。
在汉字计算机编码标准中,最大的汉字编码是台湾地区的CNS11643,5.0版全字库可供查询的字共87,047个汉字、10771个拼音文字及894个符号。台港民间通用的大五码收录繁体汉字13053个。GB18030是中华人民共和国现时最新的内码字集,GBK收录汉字简体、繁体及20912个,而早期的GB2312收录简体汉字6763个。Unicode的中日韩统一表意文字基本字集则收录汉字20902个,总数亦高达七万多字。